Tartalom
A statisztikákban a Gauss-féle, vagy a normál eloszlást sok tényezővel bonyolult komplex rendszerek jellemzésére használják. Amint azt Stephen Stigler „Statisztika története” című cikkben leírtuk, Abraham De Moivre feltalálta azt a disztribúciót, amely Karl Fredrick Gauss nevét viseli. Gauss hozzájárulása az volt, hogy az eloszlást a legkisebb négyzetek megközelítésében alkalmazta annak érdekében, hogy minimalizálja az hibákat az adatok legmegfelelőbb sorba történő illesztésében. Így tette a statisztikák legfontosabb hibaeloszlásává.
Motiváció
Hogyan oszlik meg egy adatminta? Mi van, ha nem ismeri az adatok alapját? Van mód az adatokra vonatkozó hipotézisek tesztelésére anélkül, hogy tudnák a mögöttes eloszlást? A Central Limit tételnek köszönhetően a válasz igen.
A tétel állítása
Azt állítja, hogy a végtelen populációból származó minta átlaga megközelítőleg normális, vagy Gauss-féle, átlagos átlagával megegyezik a mögöttes populációval, és a variancia megegyezik a populáció varianciájával, osztva a minta méretével. A közelítés javul, mivel a minta mérete nagy lesz.
A közelítő állítást időnként tévesen fogalmazzák meg a normál eloszláshoz való konvergencia következtetéseként. Mivel a megközelítő normál eloszlás a minta méretének növekedésével változik, egy ilyen állítás félrevezető.
A tételt Pierre Simon Laplace fejlesztette ki.
Miért van mindenhol
A normál eloszlások mindenütt jelen vannak. Ennek oka a Central Limit tétel. Gyakran, amikor egy értéket mérnek, ez sok független változó összesített hatása. Ezért maga a mért érték mintavételi átlagminőséggel bír. Például az atléta teljesítményének megoszlása harang alakú lehet, az étrend, az edzés, a genetika, az edzés és a pszichológia különbségei miatt. Még a férfiak magassága is normális eloszlású, sok biológiai tényező függvénye.
Gaussian Copulas
A Gauss-eloszlású „copula-függvény” -nek hívták a 2009-es hírt, mert ezt használják a fedezetű kötvényekbe történő befektetés kockázatának felmérésére. A funkció visszaélése nélkülözhetetlen szerepet játszott a 2008–2009-es pénzügyi válságban. Noha a válságnak számos oka volt, utólagosan a Gauss-eloszlást valószínűleg nem kellett volna használni. A vastagabb farokkal rendelkező funkció nagyobb valószínűséggel bírt volna a káros eseményekkel szemben.
Származtatás
A központi határ tétel sok sorban bebizonyítható, ha elemezzük a (minta átlag - a populáció átlaga) /? (A populáció varianciáját / a minta méretét) pillanatgeneráló függvényét (mgf) az alapul szolgáló populáció mgf függvényében. A tétel közelítő részét úgy vezetjük be, hogy az alapul szolgáló populáció mgf-jét kibővítjük, mint energiát, majd a legtöbb kifejezés jelentéktelen, mivel a minta mérete nagy lesz.
Sokkal kevesebb sorban bizonyítható, ha Taylor-tágítást alkalmazunk ugyanazon függvény jellemzõ egyenletén, és a mintát nagysá teszik.
Számítási kényelem
Egyes statisztikai modellek feltételezik, hogy a hibák Gauss-féleek. Ez lehetővé teszi a normál változók függvényeinek eloszlását, például a chi-négyzet és az F eloszlást a hipotézis tesztelésében. Pontosabban, az F-tesztben az F-statisztika a chi-négyzet eloszlások arányából áll, amelyek maguk a normál varianciaparaméterek függvényei. A kettő aránya miatt a variancia kimarad, lehetővé téve a hipotézis tesztelését anélkül, hogy tudnánk a varianciákat, normálisságuktól és állandóságuktól eltekintve.