Hierarchikus vs particionális klaszterezés
A klaszterezés egy gépi tanulási módszer az adatok elemzésére és a hasonló adatok csoportjaira történő felosztáshoz. Ezeket a hasonló adatcsoportokat vagy halmazokat klasztereknek nevezzük. A klaszteranalízis azon klaszterezési algoritmusokat vizsgál, amelyek automatikusan azonosítják a klasztereket. A hierarchikus és a particionális a fürtöző algoritmusok két ilyen osztálya. A hierarchikus klaszterezési algoritmusok az adatokat klaszterek hierarchiájává bontják. A partíciós algoritmusok felosztják az adatkészletet kölcsönösen elválasztott partíciókra.
Mi a hierarchikus klaszterezés??
A hierarchikus klaszterezési algoritmusok megismétlik azt a ciklust, amelyben kisebb fürtöket egyesítenek nagyobbokká, vagy osztják a nagyobb klasztereket kisebbekre. Akárhogy is, dendogramnak nevezett klaszterek hierarchiáját hozza létre. Az agglomerációs klaszterezési stratégia alulról felfelé építkező megközelítést alkalmaz a klaszterek nagyobb méretűekké történő egyesítésére, míg az osztódó klaszterezési stratégia felülről lefelé történő megközelítést alkalmaz a kisebb csoportokra történő felosztáshoz. Általában a kapzsi megközelítést alkalmazzák annak eldöntésére, hogy melyik nagyobb / kisebb klasztert használják az egyesítésre / elosztásra. Az euklideszi távolság, a manhattani távolság és a koszinusz hasonlóság a numerikus adatok hasonlóságának leggyakrabban használt mutatói. A nem numerikus adatokhoz olyan mutatókat kell használni, mint például a Hamming-távolság. Fontos megjegyezni, hogy a tényleges megfigyelésekre (példányokra) nincs szükség a hierarchikus csoportosuláshoz, mivel csak a távolságok mátrixa elegendő. A dendogram a klaszterek vizuális ábrázolása, amely nagyon jól mutatja a hierarchiát. A felhasználó különféle klasztereket szerezhet a dendogram levágásának szintjétől függően.
Mi az a partíciós klaszterezés??
A partíciós klaszterezési algoritmusok különféle partíciókat generálnak, majd valamilyen kritérium alapján értékelik őket. Ezeket nemhierarchikusnak is nevezik, mivel mindegyik példány a k kölcsönösen kizáró klaszter egyikének pontjában van elhelyezve. Mivel csak egy fürtkészlet képezi a tipikus partíciós fürtözési algoritmus kimenetet, a felhasználónak be kell írnia a kívánt klaszterek számát (általában k-nek nevezik). Az egyik leggyakrabban használt partíciós klaszterezési algoritmus a k-jelenti klaszterező algoritmus. A felhasználónak indítás előtt meg kell adnia a klaszterek számát (k), és az algoritmus először a k partíciók központját (vagy központját) kezdeményezi. Dióhéjban a k-jelentése klaszterezési algoritmus tagjait osztja ki az aktuális központok alapján, és újrabecslési központokat az aktuális tagok alapján. Ezt a két lépést megismételjük mindaddig, amíg egy adott klaszteren belüli hasonlósági célfüggvény és a klaszterek közötti különbségtételi célfunkció optimalizálódik. Ezért a központok ésszerű inicializálása nagyon fontos tényező a partíciós klaszterezési algoritmusok minőségi eredményeinek megszerzésében.
Mi a különbség a hierarchikus és a particionális klaszterezés között??
A hierarchikus és a particionális csoportosítás lényeges különbségeket mutat a futási időben, a feltételezésekben, a bemeneti paraméterekben és az ebből eredő klaszterekben. Általában a partíciós csoportosulás gyorsabb, mint a hierarchikus csoportosítás. A hierarchikus csoportosulás csak egy hasonlóságot igényel, míg a partíciós csoportosulás erősebb feltételezéseket igényel, mint például a klaszterek száma és a kezdeti központok. A hierarchikus klaszterezéshez nincs szükség bemeneti paraméterekre, míg a partíciós fürtözési algoritmusok megkövetelik a fürtök számának a futtatását. A hierarchikus klaszterezés a klaszterek sokkal értelmesebb és szubjektív megoszlását adja vissza, de a partíciós klaszterezés pontosan k klasztert eredményez. A hierarchikus klaszterezési algoritmusok alkalmasabbak kategorikus adatokra, amennyiben a hasonlóság mértéke ennek megfelelően meghatározható.