Tartalom
A klaszteranalízis az adatok reprezentatív csoportokba sorolására szolgáló módszer, hasonló tulajdonságok alapján. A klaszter minden tagjának sokkal több közös vonása van ugyanazon klaszter többi tagjával, mint a többi csoport tagjaival. A csoport legreprezentatívabb pontját centridnak nevezzük. Általában ez a fürtben lévő adatpontok értékének átlaga.
Szervezze meg az adatokat. Ha az adatok egyetlen változóból állnak, akkor a hisztogram lehet megfelelő. Ha két változóról van szó, rajzolja meg az adatokat egy koordináta síkon. Például, ha az iskolai gyermekek magasságát és súlyát nézegette egy osztályteremben, rajzolja meg az egyes gyermekek adatpontjait egy grafikonon, úgy, hogy a súly a vízszintes tengely és a magasság a függőleges tengely legyen. Ha kétnél több változóról van szó, szükség lehet mátrixokra az adatok megjelenítéséhez.
Az adatokat csoportosítsa. Minden klaszternek a hozzá legközelebbi adatpontokból kell állnia. A magasság és súly példában csoportosítson minden olyan adatpontot, amelyek egymáshoz közel helyezkednek el. A klaszterek száma és az, hogy az adatok minden pontjának egy klaszterben kell-e lennie, a tanulmány céljától függhet.
Minden fürthez adja hozzá az összes tag értékét.Például, ha egy adathalmaz a (80, 56), (75, 53), (60, 50) és (68,54) pontokból áll, akkor az értékek összege (283, 213) lenne.
Ossza meg az összeget a klaszter tagjainak számával. A fenti példában a négyvel osztott 283 70,75, a 213 és négy részével osztva 53,25, tehát a klaszter középpontja (70,75, 53,25).
Rajzolja meg a klaszter középpontját és határozza meg, hogy egy pont közelebb áll-e egy másik klaszter középpontjához, mint a saját klaszterének középpontjához. Ha bármelyik pont közelebb áll egy másik centrumhoz, ossza el őket újra a közelebbi centridot tartalmazó fürtre.
Ismételje meg a 3., 4. és 5. lépést mindaddig, amíg az összes adatpont a fürtben található azon klaszterben található, amelyhez a legközelebb állnak.