Tartalom
- A lineáris regresszió a lineáris kapcsolatokra korlátozódik
- Csak a lineáris regresszió a függő változó átlagára néz
- A lineáris regresszió érzékeny a kimenetelekre
- Az adatoknak függetleneknek kell lenniük
A lineáris regresszió egy statisztikai módszer a függő változó, azaz jelölt kapcsolat kapcsolatának vizsgálatára y, és egy vagy több független változó, jelölve x. A függő változónak folyamatosnak kell lennie, abban az értelemben, hogy bármilyen értéket felvesz, vagy legalább közel a folyamatoshoz. A független változók bármilyen lehetnek. Bár a lineáris regresszió önmagában nem képes okozati összefüggést mutatni, a függő változót általában a független változók befolyásolják.
A lineáris regresszió a lineáris kapcsolatokra korlátozódik
A lineáris regresszió természeténél fogva csak a függõ és független változók közötti lineáris kapcsolatokat vizsgálja. Vagyis feltételezi, hogy közöttük egyenes vonalú kapcsolat van. Néha ez helytelen. Például a jövedelem és az élet közötti kapcsolat görbe, azaz a jövedelem a felnőttkor korai szakaszában hajlamos növekedni, későbbi felnőttkorban kiszorul, és az emberek nyugdíjazása után csökken. A kapcsolatok grafikus ábrázolásával megtudhatja, hogy ez probléma-e.
Csak a lineáris regresszió a függő változó átlagára néz
A lineáris regresszió a függő változó átlaga és a független változók közötti összefüggést vizsgálja. Például, ha megvizsgáljuk a csecsemők születési súlya és az anyai jellemzők, például az életkor közötti összefüggést, akkor a lineáris regresszió a különböző életkorú anyáknál született csecsemők átlagos tömegét veszi figyelembe. Néha azonban meg kell vizsgálnia a függő változó szélsőségeit, például a csecsemőket veszélyezteti, ha kis súlyuk van, tehát ebben a példában a szélsőségeket kell megnézni.
Csakúgy, mint az átlag nem egyetlen változó teljes leírása, a lineáris regresszió nem a változók közötti kapcsolatok teljes leírása. Ez a probléma kvantitatív regresszióval oldható meg.
A lineáris regresszió érzékeny a kimenetelekre
A külsõ adatok meglepõ adatok. A távoli értékek lehetnek egyváltozós (egy változó alapján) vagy többváltozósak. Az életkort és a jövedelmet tekintve az egyváltozós túllépések olyan dolgok lennének, mint egy 118 éves személy, vagy aki tavaly 12 millió dollárt keresett. Egy többváltozós külsõ egy 18 éves, 200 ezer dollárt keres. Ebben az esetben sem a kor, sem a jövedelem nem túl szélsőséges, ám nagyon kevés 18 éves ember keres annyi pénzt.
A kiugró értékeknek hatalmas hatása lehet a regresszióra. Meg tudja oldani ezt a problémát, ha statisztikai szoftvert kér befolyási statisztikát.
Az adatoknak függetleneknek kell lenniük
A lineáris regresszió feltételezi, hogy az adatok függetlenek. Ez azt jelenti, hogy az egyik alany (például egy személy) pontszámainak semmi köze nincs a másik alanyának. Ez gyakran, de nem mindig ésszerű. Két gyakori eset, amikor nincs értelme, a térben és az időben lévő csoportosulás.
Az űrbe való csoportosulás klasszikus példája a hallgatói teszteredmények, amikor különböző osztályokból, osztályokból, iskolákból és iskolai körzetekből származnak hallgatók. Ugyanazon osztályba tartozó diákok sok szempontból általában hasonlóak, azaz gyakran ugyanazon szomszédságból származnak, ugyanazok a tanárok rendelkeznek, stb. Így nem függetlenek.
Példák az időbeli csoportosulásra olyan tanulmányok, amelyekben ugyanazon alanyokat többször mérik. Például egy étrend és a test tanulmányozásával mérheti meg az egyes személyeket többször is. Ezek az adatok nem függetlenek, mivel az, amit egy ember egy alkalommal súlyoz, összefügg azzal, amit más alkalommal mér. Ennek egyik módja a többszintű modellek.