Obsah
V štatistike sa gaussovská alebo normálna distribúcia používa na charakterizáciu komplexných systémov s mnohými faktormi. Ako je uvedené v histórii Stephena Stiglera v histórii štatistík, Abraham De Moivre vynašiel distribúciu, ktorá nesie meno Karla Fredricka Gaussa. Gaussov príspevok spočíva v jeho aplikácii distribúcie na prístup najmenších štvorcov k minimalizácii chýb pri zostavovaní údajov pomocou linky, ktorá najlepšie vyhovuje. Preto sa stal najdôležitejším rozdelením chýb v štatistikách.
motivácia
Aké je rozloženie vzorky údajov? Čo ak nepoznáte základné rozloženie údajov? Existuje nejaký spôsob, ako otestovať hypotézu o údajoch bez znalosti základnej distribúcie? Vďaka centrálnej limitnej vete je odpoveď áno.
Vyhlásenie vety
Uvádza sa v ňom, že priemer vzorky z nekonečnej populácie je približne normálny alebo gaussovský, so strednou hodnotou rovnakou ako základná populácia a rozptyl sa rovná rozptylu populácie vydelenému veľkosťou vzorky. Aproximácia sa zvyšuje so zväčšovaním veľkosti vzorky.
Príkaz aproximácie je niekedy nesprávny ako záver o konvergencii k normálnemu rozdeleniu. Pretože sa približná normálna distribúcia mení so zvyšujúcou sa veľkosťou vzorky, takéto tvrdenie je zavádzajúce.
Vetu vyvinul Pierre Simon Laplace.
Prečo je to všade
Normálne rozdelenie je všadeprítomné. Dôvod vychádza z centrálnej limitnej vety. Keď sa hodnota meria, je to často súčet efektov mnohých nezávislých premenných. Samotná hodnota, ktorá sa meria, má preto priemernú kvalitu vzorky. Napríklad distribúcia športových výkonov môže mať zvonový tvar v dôsledku rozdielov v strave, tréningu, genetike, koučovaní a psychológii. Dokonca aj pánska výška má normálne rozdelenie, ktoré je funkciou mnohých biologických faktorov.
Gaussovské kopuly
To, čo sa nazýva „funkcia kopula“ s gaussovskou distribúciou, bolo v správach v roku 2009 kvôli jej použitiu pri posudzovaní rizika investovania do kolateralizovaných dlhopisov. Zneužitie tejto funkcie bolo zásadným prvkom finančnej krízy v rokoch 2008 - 2009. Hoci existovalo veľa príčin krízy, pravdepodobne by sa Gaussovo rozdelenie nemalo využiť. Funkcia s hrubším chvostom by priradila väčšiu pravdepodobnosť nepriaznivým udalostiam.
derivácie
Veta centrálneho limitu sa dá dokázať v mnohých smeroch analyzovaním funkcie generovania momentu (mgf) (priemer vzorky - priemer populácie) /? (Rozptyl populácie / veľkosť vzorky) ako funkcia mgf základnej populácie. Aproximačná časť vety sa zavádza rozšírením mgf základnej populácie ako výkonovej rady, pričom väčšina výrazov je bezvýznamná, pretože veľkosť vzorky sa zväčšuje.
To sa dá dokázať v oveľa menšom rozsahu použitím Taylorovho rozšírenia na charakteristickej rovnici rovnakej funkcie a zväčšením veľkosti vzorky.
Výpočtové pohodlie
Niektoré štatistické modely predpokladajú chyby ako Gaussovské. To umožňuje použitie distribúcií funkcií normálnych premenných, ako je rozdelenie chí-kvadrátov a F, pri testovaní hypotéz. Konkrétne v F-teste je štatistika F zložená z pomeru chí-kvadrátových distribúcií, ktoré samotné sú funkciami normálneho rozptylového parametra. Pomer oboch spôsobuje rozptyl, ktorý sa má zrušiť, čo umožňuje testovanie hypotéz bez znalosti odchýlok okrem ich normality a stálosti.