A klaszterezési és osztályozási technikákat alkalmazzák a gépi tanulásban, az információk lekérésében, a képalkotásban és a kapcsolódó feladatokban.
Ez a két stratégia az adatbányászati folyamatok két fő szakasza. Az adatelemző világban ezek nélkülözhetetlenek az algoritmusok kezelésében. Pontosabban, mindkét folyamat osztja az adatokat halmazokra. Ez a feladat rendkívül releváns a mai információs korban, mivel megfelelő módon meg kell könnyíteni az adatok hatalmas növekedését és a fejlesztést.
Nevezetesen a klaszterezés és az osztályozás az adattudományon keresztül segít megoldani a globális kérdéseket, például a bűnözést, a szegénységet és a betegségeket.
Alapvetően a klaszterezés magában foglalja az adatok csoportosítását hasonlóságaik alapján. Elsősorban a távolságmérésekkel és a csoportosítási algoritmusokkal foglalkozik, amelyek kiszámítják az adatok közötti különbséget, és szisztematikusan megosztják azokat.
Például a hasonló tanulási stílusú hallgatókat csoportosítják és külön oktatják a különféle tanulási megközelítésekkel rendelkezőktől. Az adatbányászatban a csoportosulást leggyakrabban „felügyelet nélküli tanulási technikának” nevezik, mivel a csoportosítás természetes vagy velejáró tulajdonságon alapul.
Számos tudományos területen alkalmazzák, mint például az informatika, a biológia, a kriminológia és az orvostudomány.
A klaszterezésnek nincs pontos meghatározása, ezért vannak különféle klaszterezési algoritmusok vagy fürtmodellek. Nagyjából szólva, a kétféle csoportosítás nehéz és puha. A kemény csoportosulás az, hogy egy objektumot egyszerűen egy klaszterhez tartozónak kell-e jelölni. Ezzel szemben a lágy klaszter vagy a homályos klaszter meghatározza, hogy milyen mértékben tartozik valami egy adott csoporthoz.
A klaszterelemzés eredményeinek validálását vagy értékelését gyakran nehéz megbizonyosodni a vele járó pontatlanság miatt.
Mivel ez egy nem felügyelt tanulási stratégia, az elemzés pusztán a jelenlegi jellemzőkre épül; így nincs szükség szigorú szabályozásra.
Az osztályozás magában foglalja a címkék hozzárendelését a meglévő helyzetekhez vagy osztályokhoz; ennélfogva az „osztályozás” kifejezés. Például bizonyos tanulási tulajdonságokkal rendelkező hallgatókat vizuális tanulóknak kell besorolni.
A besorolást „felügyelt tanulási technikának” is nevezik, ahol a gépek a már megjelölt vagy osztályozott adatokból tanulnak. Nagyon alkalmazható mintázatfelismerés, statisztika és biometria területén.
Az adatok elemzéséhez az osztályozó egy meghatározott algoritmus, amely konkrétan egy adott osztályhoz térképezi az információkat. Például egy osztályozási algoritmus kiképezhet egy modellt annak meghatározására, hogy egy adott sejt rosszindulatú vagy jóindulatú-e.
A besorolási elemzés minőségét gyakran pontossággal és visszahívással értékelik, amelyek népszerű metrikus eljárások. Az osztályozót pontossága és érzékenysége alapján értékelik a kimenet azonosításakor.
Az osztályozás egy felügyelt tanulási technika, mivel összehasonlítható jellemzők alapján korábban meghatározott identitásokat rendel hozzá. Levon egy funkciót egy címkézett edzőkészletből.
A fő különbség az, hogy a csoportosítást nem felügyelik, és „öntanulásnak” tekintik, míg a besorolást felügyelik, mivel az előre meghatározott címkéktől függ.
A klaszterezés nem alkalmaz szavatosan edzőkészleteket, amelyek a csoportosítás előállításához alkalmazott példánycsoportok, míg a besoroláshoz szükségszerűen edzőkészletekre van szükség a hasonló tulajdonságok azonosításához.
A klaszterezés nem jelölt adatokkal működik, mivel nem igényel képzést. Másrészt a besorolás mind a címkézetlen, mind a címkézett adatokkal foglalkozik folyamatainál.
Az objektumok csoportosítása a kapcsolatok szűkítése és a rejtett mintákból származó új információk megismerése céljából csoportosítása, míg az osztályozás célja annak meghatározása, hogy egy adott objektum melyik explicit csoporthoz tartozik.
Noha a besorolás nem határozza meg, hogy mit kell megtanulni, a klaszterezés meghatározza a szükséges fejlesztést, mivel rámutat a különbségekre az adatok közötti hasonlóságok figyelembevételével.
Általában a klaszterezés csak egy fázisból áll (csoportosulás), míg az osztályozás két szakaszból áll: edzésből (modell megtanulja az edzési adatkészletből) és tesztelésből (a célcsoport előrejelzése).
A határkörülmények meghatározása rendkívül fontos az osztályozási folyamatban, mint a klaszterolás. Például, az osztályozás létrehozásakor meg kell ismerni az „alacsony” és a „közepes” és a „magas” százalékos tartományát.
A klaszteroláshoz képest az osztályozás inkább a predikcióval jár, mivel különösen az azonosító célcsoportok meghatározására irányul. Például ez alkalmazható az „arckulcs-pontok felderítésében”, mivel felhasználható annak előrejelzésére, hogy egy bizonyos tanú hazudik-e vagy sem..
Mivel a besorolás több szakaszból áll, foglalkozik előrejelzéssel, és fokokat vagy szinteket foglal magában, annak jellege bonyolultabb, mint a klaszterezéshez, amely elsősorban a hasonló tulajdonságok csoportosítására vonatkozik.
A klaszterezési algoritmusok elsősorban lineárisak és nemlineárisak, míg az osztályozás több algoritmikus eszközből áll, mint például lineáris osztályozók, neurális hálózatok, kernelbecslés, döntési fák és támogató vektorgépek.
Klaszterek | Osztályozás |
Nem felügyelt adatok | Felügyelt adatok |
Nem értékeli magasan az edzőkészleteket | Nagyra értékeli az edzőkészleteket |
Kizárólag jelöletlen adatokkal működik | Magában foglalja a címkézés nélküli és a címkével ellátott adatokat is |
Cél az adatok közötti hasonlóságok azonosítása | Célja annak ellenőrzése, hogy hol van egy nullapont |
Meghatározza a szükséges változtatást | Nem határozza meg a szükséges javítást |
Egyfázisú | Két fázisa van |
A határfeltételek meghatározása nem döntő jelentőségű | A határfeltételek azonosítása elengedhetetlen a fázisok végrehajtásához |
Általában nem foglalkozik a jóslatokkal | Előrejelzésekkel foglalkozik |
Elsősorban két algoritmust alkalmaz | Számos valószínű algoritmust használ |
A folyamat kevésbé bonyolult | A folyamat összetettebb |