Tartalom
Amikor a tudósok, közgazdászok vagy statisztikusok elmélet alapján előrejelzéseket készítenek, majd valós adatokat gyűjtenek, szükségük van módra a megjósolt és a mért értékek közötti eltérés mérésére. Általában az átlagos négyzetes hibára (MSE) támaszkodnak, amely az egyes adatpontok variációinak összege négyzetre osztva és az adatpontok számával mínusz 2. Ha az adatok grafikonon jelennek meg, akkor az MSE összegzi a függőleges tengely adatpontjainak variációit. Egy x-y gráfon ez lenne az y-érték.
Miért négyzet alakú a variációk?
A várható és megfigyelt értékek közötti variáció szorzásának két kívánatos hatása van. Az első az, hogy minden érték pozitív legyen. Ha egy vagy több érték negatív lenne, akkor az összes érték lehet irreálisan kicsi, és a várható és megfigyelt értékek közötti tényleges eltérés gyenge ábrázolása lehet. A négyzet második előnye, hogy nagyobb súlyt ad a nagyobb különbségeknek, ami biztosítja, hogy az MSE nagy értéke jelentős adatváltozásokat jelez.
Mintaszámítási készlet algoritmus
Tegyük fel, hogy van egy algoritmusa, amely előrejelzi egy adott részvény napi árait. Hétfőn a részvényárfolyam 5,50 dollárra, kedden 6,00 dollárra, szerdán 6,00 dollárra, csütörtökre 7,50 dollárra és pénteken 8,00 dollárra számít. Hétfőnek, mint 1. napnak tekintve, van olyan adatpontja, amely így néz ki: (1, 5.50), (2, 6.00), (3., 6.00), (4., 7.50) és (5., 8.00). A tényleges árak a következők: hétfőn 4,75 USD (1, 4,75); Kedd 5,35 dollár (2,55); Szerdán 6,25 USD (3, 6,25); Csütörtök 7,25 USD (4, 7,25); és péntek: 8,50 USD (5, 8,50).
Ezen pontok y-értékei közötti eltérések 0,75, 0,65, -0,25, 0,25 és -0,50, ahol a negatív jel a megfigyeltnél kisebb előrejelzett értéket jelöl. Az MSE kiszámításához először négyzetbe kell állítani az egyes variációs értékeket, amelyek kiküszöbölik a mínuszjeleket és a hozamokat 0,5625, 0,4225, 0,0625, 0,0625 és 0,25 adják. Ezeket az értékeket összeadva 1,36-t kap, és elosztjuk a mérések számával, mínusz 2, ami 3, az MSE-t kapjuk, amely 0,45-nek bizonyul.
MSE és RMSE
Az MSE kisebb értékei a várható és megfigyelt eredmények közötti szorosabb megegyezést jelzik, a 0,0-os MSE pedig a tökéletes megegyezést jelzi. Fontos azonban megjegyezni, hogy a variációs értékek négyzetben vannak. Ha olyan hibamérésre van szükség, amely az adatpontokkal megegyező egységekben van, akkor a statisztikusok veszik fel a négyzet középértéki hibáját (RMSE). Ezt úgy kapják meg, hogy figyelembe veszik az átlagos négyzet hiba négyzetgyökét. A fenti példában az RSME 0,671 vagy körülbelül 67 cent lenne.