otevřená encyklopedie

Hledat:

Regresivní analýza

Experimentální strojový překlad hesla Regression analysis z encyklopedie Wikipedia pořízený překladačem Eurotran. Je tento překlad nedokonalý? Pomozte nám jej zlepšit!

Ve statistikách, regresivní analýza je zvyklá na modelové vztahy mezi náhodnými proměnnými, určovat velikost vztahů mezi proměnnými, a moci být používán dělat předpovědi založené na modelech.

Genese začíná popisem stvoření světa Bohem, příběhem Adama a Evy a jejich vyhnáním z Rajské zahrady, historií Kaina a Abela, a příběhem Noeho a povodně.

Regresivní analýza modeluje vztah mezi jedním nebo více proměnných odezvy (také volal závislé proměnné, vysvětlené proměnné, předpovídané proměnné nebo regressands) (obvykle pojmenovaný Y), a známky (také volal nezávislé proměnné, vysvětlovací proměnné, proměnné kontroly nebo regressors,) obvykle pojmenovaný X1,...,Xp). Jestliže tam je víc než jedna odezvová proměnná, my mluvíme o návratu multivariate.

Typy regrese

Jednoduchý a rozmanitý lineární návrat

Jednoduchý lineární návrat a rozmanitý lineární návrat jsou příbuzné statistické metody pro modelování vztah mezi dva nebo více náhodných proměnných používat lineární rovnici. Jednoduchý lineární návrat se odkazuje na návrat na dvou proměnných, zatímco rozmanitý návrat se odkazuje na návrat na víc než dvě proměnné. Lineární návrat předpokládá nejlepší odhad odezvy je lineární funkce některých parametrů (ačkoli ne nutně lineární na známkách).

Nelineární návratové modely

Jestliže vztah mezi proměnnými být analyzován je ne lineární v parametrech, množství nelineárních návratových technik může být používáno získat přesnější návrat.

Jiné modely

Ačkoli tyto tři typy jsou nejvíce obyčejný, tam také existovat Poisson návrat, dohlížel na učení a jednotku-posuzovaný návrat.

Lineární modely

Proměnné známky mohou být definovány kvantitativně nebo kvalitativně (nebo kategorický). Kategorické známky jsou někdy nazvané faktory. Ačkoli metoda odhadnutí model je stejný pro každý případ, různé situace jsou někdy známé různými jmény pro historické důvody:

  • Jestliže známky jsou všechny kvantitativní, my mluvíme o návrat násobku.
  • Jestliže známky jsou všechny kvalitativní, jeden vykonává disperzní analýzu.
  • Jestliže některé známky jsou kvantitativní a někteří kvalitativní, jeden vykonává analýzu covariance.

Lineární model obvykle předpokládá, že data jsou spojitá. Jestliže nejméně názor čtverců je používán, pak jestliže to je předpokládal, že data jsou normálně distribuovaná, model je úplně parametrický. Jestliže to není předpokládal, že data jsou normálně distribuovaná, model je polořadovka-parametrický. Jestliže data nejsou normálně distribuovaná, tam jsou často lepší přístupy ke kování než nejméně čtverců. Zvláště, jestliže data obsahují outliers, velký návrat by mohl být přednostní.

Jestliže dva nebo více nezávislé proměnné jsou slazeny, my říkáme, že proměnné jsou multicollinear. Multicollinearity vyústí v odhady parametru, které jsou nezaujaté, shodný, ale nedostatečný.

Jestliže chyba návratu není normálně distribuovaná ale je převzat přijít z exponenciální rodiny, celkové lineární modely by měly být používány. Například, jestliže proměnná odezvy může vzít jen binární hodnoty (například, booleovský nebo ano/žádná proměnná), logistický návrat je přednostní. Výsledek tohoto druhu návratu je funkce, která popíše jak pravděpodobnost dané události (např. pravděpodobnost dobývání “ano”) se mění se známkami.

Návrat a Bayesian statistiky

Maximální pravděpodobnost je jedna metoda odhadnutí parametry návratu modelují, který se chová dobře pro velké vzorky. Nicméně, pro malá množství dat, odhady mohou mít vysokou rozdílnost nebo zaujatost. Bayesian metody mohou také být zvyklé na přibližné návratové modely. Předchozí je umístěn přes parametry, který včlení všechno známý o parametrech. (Například, jestliže jeden parametr je znán být non-negativní, non-distribuce záporu může být přidělena do toho.) distribuce pozadí je pak získána pro vektor parametru. Bayesian metody mají výhody, že oni používají všechny informace, které jsou dostupné. Oni jsou přesní, ne asymptotic, a tak studna práce pro malá data zapadne jestliže nějaké kontextové informace jsou dostupné být používán v předchozí. Někteří praktici používají maximum posteriori (mapové) metody, jednodušší metoda než plná Bayesian analýza, ve kterém parametry jsou vybrány to maximalizovat pozadí. Metody mapy jsou příbuzné Occam holícímu strojku: tam je preference pro jednoduchost mezi rodinu návratu modeluje (křivky) právě, zatímco tam je přednost pro jednoduchost mezi soupeřící teorie.

Příklady

To objasní různé branky návratu, my dáme tři příklady.

Předpověď budoucích pozorování

Následující datový soubor dává průměrné výšky a váhy pro americké ženy stárly 30-39 (zdroj: Kalendář světa a svazek faktů, 1975).

Height (v) 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72
Váha (lbs) 115 117 120 123 126 129 132 135 139 142 146 150 154 159 164

My bychom rádi viděli jak váha těchto žen závisí na jejich výšce. My proto hledáme funkci ? takový to Y=\eta(X)+\varepsilon, kde Y je váha žen a X jejich výška. Intuitivně, my můžeme myslet si to jestliže proporce žen jsou konstanta a jejich hustota příliš, pak váha žen musí záviset na kostce jejich výšky. Spiknutí souboru dat potvrdí tuto domněnku:

Image:data_plot_women_weight_vs_height.jpg

\vec{X} bude označovat vektor obsahovat všechny měřené výšky (\vec{X}=(58,59,60,\cdots)) a \vec{Y}=(115,117,120,\cdots) vektor obsahuje všechny uměřené váhy. My můžeme předpokládat výšky žen jsou nezávislá osoba od sebe navzájem a mají konstantní rozdílnost, který míní Gauss-Markov předpoklady myslí si. My můžeme proto používat nejméně-odhadce čtverců, tj. my hledáme koeficienty ?0,?1 a ?2 uspokojující co nejvíce dobře (ve smyslu nejméně-odhadce čtverců) rovnice:

\vec{Y}=\theta^0 + \theta^1 \vec{X} + \theta^2 \vec{X}^3+\vec{\varepsilon}

Geometricky, co my budeme dělat je projekce orthogonal Y na subspace vytvořeném proměnnými 1,X a X3. Matice X je postaven jednoduše tím, že dá první sloupek 1 je (termín konstanty v modelu) sloupec s originálními hodnotami ( X v modelu) a třetí sloupec s těmito hodnotami cubed (X3). Pochopení této matice (tj. pro data po ruce) moci být psán:

1 x x3
1 58 195112
1 59 205379
1 60 216000
1 61 226981
1 62 238328
1 63 250047
1 64 262144
1 65 274625
1 66 287496
1 67 300763
1 68 314432
1 69 328509
1 70 343000
1 71 357911
1 72 373248

Matrix (\mathbf{X}^t \mathbf{X})^{-1} (někdy volal “matici informací” nebo “matici rozptylování”) je:

\left[\begin{matrix} 1.9\cdot10^3&-45&3.5\cdot 10^{-3}\\ -45&1.0&-8.1\cdot 10^{-5}\\ 3.5\cdot 10^{-3}&-8.1\cdot 10^{-5}&6.4\cdot 10^{-9} \end{matrix}\right]

Vektor \widehat{\theta}_{LS} je proto:

\widehat{\theta}_{LS}=(X^tX)^{-1}X^{t}y= (147, -2.0, 4.3\cdot 10^{-4})

od této doby \eta(X) = 147 - 2.0 X + 4.3\cdot 10^{-4} X^3

Spiknutí této funkce ukáže, že to leží docela blízko k souboru dat:

Image:Plot_regression_women.jpg

Intervaly spolehlivosti jsou vypočítavé používání:

[\widehat{\theta_j}-\widehat{\sigma}\sqrt{s_j}t_{n-p;1-\frac{\alpha}{2}};\widehat{\theta_j}+\widehat{\sigma}\sqrt{s_j}t_{n-p;1-\frac{\alpha}{2}}]

s:

\widehat{\sigma}=0.52
s_1=1.\cdot 10^3, s_2=1.0, s_3=6.4\cdot 10^{-9}\;
\alpha=5\%
t_{n-p;1-\frac{\alpha}{2}}=2.2

Proto, my můžeme říkat, že s pravděpodobností 0.95,

\theta^0\in[112 , 181]
\theta^1\in[-2.8 , -1.2]
\theta^2\in[3.6\cdot 10^{-4} , 4.9\cdot 10^{-4}]

Diskuse

Tuto stránku navštíví každý den řada lidí, kteří mají možná podobné zájmy jako vy. Můžete jim zde nechat váš dotaz nebo vzkaz.

Autor:
Předmět:
Text zprávy:
Lenka [85.160.101.88]16.04.2007 11:22 x
Proč je to psané jako od debila?Proč to aspoň nepřeložíte normálně?

Pomohla vám tato stránka s domácím úkolem? Našli jste tu něco zajímavého? Nebo komický překlad? Dejte o tom vědět svým přátelům na Facebooku!