Tartalom
Az üzleti, kormányzati és tudományos tevékenység szinte mindig megköveteli az adatok gyűjtését és elemzését. A numerikus adatok ábrázolásának egyik módja a grafikonok, hisztogramok és diagramok. Ezek a megjelenítési technikák lehetővé teszik az emberek számára, hogy jobban megismerjék a problémákat és megoldásokat dolgozzanak ki. A hézagok, klaszterek és kiugró értékek olyan adatkészletek jellemzői, amelyek befolyásolják a matematikai elemzést, és a vizuális reprezentációkon könnyen láthatók.
Lyukak az adatban
A hiányosságok az adatkészlet hiányzó területeire vonatkoznak. Például, ha egy tudományos kísérlet hőmérsékleti adatokat gyűjt 50 Fahrenheit fok és 100 Fahrenheit fok tartományban, de semmi sem 70 és 80 fok között, akkor ez az adathalmaz hiányát jelentené. Ennek az adatkészletnek a vonalátviteli eleme "x" jellel rendelkezne 50 és 70 közötti hőmérsékleten, és ismét 80 és 100 között, de semmi sem lenne a 70 és 80 közötti hőmérsékleten. A kutatók mélyebbre áshatnak, és megvizsgálhatják, hogy egyes adatpontok miért nem jelennek meg egy összegyűjtött mintában.
Elszigetelt csoportok
A klaszterek az adatpontok izolált csoportjai. A vonal ábrák, amelyek az adatkészletek ábrázolásának egyik módját képezik, olyan sorok, amelyekben "x" jelek vannak elhelyezve bizonyos számok fölé, hogy ábrázolják azok előfordulási gyakoriságát az adatkészletben. A klaszter ezen "x" jelek gyűjteményeként ábrázolva egy kis intervallumban vagy adathalmazban. Például, ha a 10 tanulóból álló osztály vizsgaértéke 74, 75, 80, 72, 74, 75, 76, 86, 88 és 73, akkor a vonalterületen a legtöbb "x" jelzés a 72- -76 pontszám intervallum. Ez adatfürtöt jelentene. Vegye figyelembe, hogy a 74-es és a 75-es frekvencia kettő, de az összes többi pontszám esetén egy.
A szélsőségekben
A távoli értékek extrém értékek - adatpontok, amelyek jelentősen kívül esnek az adatkészlet többi értékén. A külsõ értéknek szignifikánsan kisebbnek vagy annál nagyobbnak kell lennie, mint az adatkészletben lévõ számok többségének. Az "extrém" meghatározása a körülményektől és a kutatásba bevont elemzők konszenzusától függ. A távoli adatok lehetnek rossz adatpontok, más néven zaj, vagy tartalmazhatnak értékes információkat a vizsgált jelenségről és magáról az adatgyűjtési módszertanról. Például, ha az osztályzat pontszáma többnyire a 70-től a 80-ig terjed, de néhány eredmény az alacsony 50-es években van, akkor ezek valószínűleg kiugró értéket képviselnek.
Összerakva mindent
Az adatsorok hiányosságai, kiugró értékei és klaszterei befolyásolhatják a matematikai elemzés eredményeit. A hiányosságok és klaszterek hibákat jelenthetnek az adatgyűjtési módszertanban. Például, ha egy telefonos felmérés csak bizonyos körzetszámokat, például alacsony jövedelmű lakáskomplexumokat vagy csúcsminőségű külvárosi lakóövezeteket kér fel, és nem a népesség széles keresztmetszetét veszi körül, valószínűsíthető, hogy hiányosságok és klaszterek vannak az adatokban . A kiugró értékek torzíthatják az adatkészlet átlagát vagy átlagát. Például egy négy számból - 50, 55, 65 és 90 - álló adatkészlet átlaga vagy átlagértéke 65. A 90 kivétel nélkül azonban az átlag kb. 57.