Regresivní analýza
Ve statistikách, regresivní analýza je zvyklá na modelové vztahy mezi náhodnými proměnnými, určovat velikost vztahů mezi proměnnými, a moci být používán dělat předpovědi založené na modelech.
Genese začíná popisem stvoření světa Bohem, příběhem Adama a Evy a jejich vyhnáním z Rajské zahrady, historií Kaina a Abela, a příběhem Noeho a povodně.
Regresivní analýza modeluje vztah mezi jedním nebo více proměnných odezvy (také volal závislé proměnné, vysvětlené proměnné, předpovídané proměnné nebo regressands) (obvykle pojmenovaný Y), a známky (také volal nezávislé proměnné, vysvětlovací proměnné, proměnné kontroly nebo regressors,) obvykle pojmenovaný X1,...,Xp). Jestliže tam je víc než jedna odezvová proměnná, my mluvíme o návratu multivariate.
Typy regrese
Jednoduchý a rozmanitý lineární návrat
Jednoduchý lineární návrat a rozmanitý lineární návrat jsou příbuzné statistické metody pro modelování vztah mezi dva nebo více náhodných proměnných používat lineární rovnici. Jednoduchý lineární návrat se odkazuje na návrat na dvou proměnných, zatímco rozmanitý návrat se odkazuje na návrat na víc než dvě proměnné. Lineární návrat předpokládá nejlepší odhad odezvy je lineární funkce některých parametrů (ačkoli ne nutně lineární na známkách).
Nelineární návratové modely
Jestliže vztah mezi proměnnými být analyzován je ne lineární v parametrech, množství nelineárních návratových technik může být používáno získat přesnější návrat.
Jiné modely
Ačkoli tyto tři typy jsou nejvíce obyčejný, tam také existovat Poisson návrat, dohlížel na učení a jednotku-posuzovaný návrat.
Lineární modely
Proměnné známky mohou být definovány kvantitativně nebo kvalitativně (nebo kategorický). Kategorické známky jsou někdy nazvané faktory. Ačkoli metoda odhadnutí model je stejný pro každý případ, různé situace jsou někdy známé různými jmény pro historické důvody:
-
- Jestliže známky jsou všechny kvantitativní, my mluvíme o návrat násobku.
- Jestliže známky jsou všechny kvalitativní, jeden vykonává disperzní analýzu.
- Jestliže některé známky jsou kvantitativní a někteří kvalitativní, jeden vykonává analýzu covariance.
Lineární model obvykle předpokládá, že data jsou spojitá. Jestliže nejméně názor čtverců je používán, pak jestliže to je předpokládal, že data jsou normálně distribuovaná, model je úplně parametrický. Jestliže to není předpokládal, že data jsou normálně distribuovaná, model je polořadovka-parametrický. Jestliže data nejsou normálně distribuovaná, tam jsou často lepší přístupy ke kování než nejméně čtverců. Zvláště, jestliže data obsahují outliers, velký návrat by mohl být přednostní.
Jestliže dva nebo více nezávislé proměnné jsou slazeny, my říkáme, že proměnné jsou multicollinear. Multicollinearity vyústí v odhady parametru, které jsou nezaujaté, shodný, ale nedostatečný.
Jestliže chyba návratu není normálně distribuovaná ale je převzat přijít z exponenciální rodiny, celkové lineární modely by měly být používány. Například, jestliže proměnná odezvy může vzít jen binární hodnoty (například, booleovský nebo ano/žádná proměnná), logistický návrat je přednostní. Výsledek tohoto druhu návratu je funkce, která popíše jak pravděpodobnost dané události (např. pravděpodobnost dobývání “ano”) se mění se známkami.
Návrat a Bayesian statistiky
Maximální pravděpodobnost je jedna metoda odhadnutí parametry návratu modelují, který se chová dobře pro velké vzorky. Nicméně, pro malá množství dat, odhady mohou mít vysokou rozdílnost nebo zaujatost. Bayesian metody mohou také být zvyklé na přibližné návratové modely. Předchozí je umístěn přes parametry, který včlení všechno známý o parametrech. (Například, jestliže jeden parametr je znán být non-negativní, non-distribuce záporu může být přidělena do toho.) distribuce pozadí je pak získána pro vektor parametru. Bayesian metody mají výhody, že oni používají všechny informace, které jsou dostupné. Oni jsou přesní, ne asymptotic, a tak studna práce pro malá data zapadne jestliže nějaké kontextové informace jsou dostupné být používán v předchozí. Někteří praktici používají maximum posteriori (mapové) metody, jednodušší metoda než plná Bayesian analýza, ve kterém parametry jsou vybrány to maximalizovat pozadí. Metody mapy jsou příbuzné Occam holícímu strojku: tam je preference pro jednoduchost mezi rodinu návratu modeluje (křivky) právě, zatímco tam je přednost pro jednoduchost mezi soupeřící teorie.
Příklady
To objasní různé branky návratu, my dáme tři příklady.
Předpověď budoucích pozorování
Následující datový soubor dává průměrné výšky a váhy pro americké ženy stárly 30-39 (zdroj: Kalendář světa a svazek faktů, 1975).
| Height (v) | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 |
| Váha (lbs) | 115 | 117 | 120 | 123 | 126 | 129 | 132 | 135 | 139 | 142 | 146 | 150 | 154 | 159 | 164 |
My bychom rádi viděli jak váha těchto žen závisí na jejich výšce. My proto hledáme funkci ? takový to
, kde Y je váha žen a X jejich výška. Intuitivně, my můžeme myslet si to jestliže proporce žen jsou konstanta a jejich hustota příliš, pak váha žen musí záviset na kostce jejich výšky. Spiknutí souboru dat potvrdí tuto domněnku:

bude označovat vektor obsahovat všechny měřené výšky (
) a
vektor obsahuje všechny uměřené váhy. My můžeme předpokládat výšky žen jsou nezávislá osoba od sebe navzájem a mají konstantní rozdílnost, který míní Gauss-Markov předpoklady myslí si. My můžeme proto používat nejméně-odhadce čtverců, tj. my hledáme koeficienty ?0,?1 a ?2 uspokojující co nejvíce dobře (ve smyslu nejméně-odhadce čtverců) rovnice:
Geometricky, co my budeme dělat je projekce orthogonal Y na subspace vytvořeném proměnnými 1,X a X3. Matice X je postaven jednoduše tím, že dá první sloupek 1 je (termín konstanty v modelu) sloupec s originálními hodnotami ( X v modelu) a třetí sloupec s těmito hodnotami cubed (X3). Pochopení této matice (tj. pro data po ruce) moci být psán:
| 1 | x | x3 |
| 1 | 58 | 195112 |
| 1 | 59 | 205379 |
| 1 | 60 | 216000 |
| 1 | 61 | 226981 |
| 1 | 62 | 238328 |
| 1 | 63 | 250047 |
| 1 | 64 | 262144 |
| 1 | 65 | 274625 |
| 1 | 66 | 287496 |
| 1 | 67 | 300763 |
| 1 | 68 | 314432 |
| 1 | 69 | 328509 |
| 1 | 70 | 343000 |
| 1 | 71 | 357911 |
| 1 | 72 | 373248 |
Matrix
(někdy volal “matici informací” nebo “matici rozptylování”) je:
![\left[\begin{matrix} 1.9\cdot10^3&-45&3.5\cdot 10^{-3}\\ -45&1.0&-8.1\cdot 10^{-5}\\ 3.5\cdot 10^{-3}&-8.1\cdot 10^{-5}&6.4\cdot 10^{-9} \end{matrix}\right]](regresivni-analyza-8.png)
Vektor
je proto:

od této doby 
Spiknutí této funkce ukáže, že to leží docela blízko k souboru dat:

Intervaly spolehlivosti jsou vypočítavé používání:
s:
Proto, my můžeme říkat, že s pravděpodobností 0.95,


![[\widehat{\theta_j}-\widehat{\sigma}\sqrt{s_j}t_{n-p;1-\frac{\alpha}{2}};\widehat{\theta_j}+\widehat{\sigma}\sqrt{s_j}t_{n-p;1-\frac{\alpha}{2}}]](regresivni-analyza-13.png)




![\theta^0\in[112 , 181]](regresivni-analyza-18.png)
![\theta^1\in[-2.8 , -1.2]](regresivni-analyza-19.png)
![\theta^2\in[3.6\cdot 10^{-4} , 4.9\cdot 10^{-4}]](regresivni-analyza-20.png)