Különbség a csomagolás és a véletlenszerű erdő között

Az évek során a több osztályozó rendszer, más néven együttes rendszer, népszerű kutatási téma volt, és egyre nagyobb figyelmet szenteltek a számítási intelligencia és a gépi tanulás közösségének. Ez felhívta a figyelmet számos terület tudósai érdeklődésére, ideértve a gépi tanulást, a statisztikákat, a mintafelismerést és az adatbázisokban található tudásfelfedezést. Az idővel az együttes módszerei bebizonyították, hogy nagyon hatékonyak és sokoldalúak a problémakörök széles spektrumában és a valós alkalmazásokban. Az eredeti, az automatizált döntéshozatali rendszer varianciájának csökkentésére kifejlesztett együttes módszereket azóta különféle gépi tanulási problémák kezelésére használják. Bemutatjuk a két legszembetűnőbb együttes algoritmus - a Bagging és a Random Forest - áttekintését, majd megvitatjuk a kettő közötti különbségeket..

Számos esetben kimutatták, hogy a csomagolóeszközök, amelyek bootstrap mintavételt használnak, az osztályozási tressz nagyobb pontosságú, mint egyetlen osztályozási fa. A zsákolás az egyik legrégebbi és legegyszerűbb együtteselapú algoritmus, amelyet fa alapú algoritmusokhoz alkalmazhatunk az előrejelzések pontosságának javítása érdekében. Van még egy továbbfejlesztett változat a Random Forest algoritmusnak nevezett véletlenszerű erdő algoritmusnak, amely lényegében döntési fák együttese, amely egy zsákolás mechanizmusával van kiképezve. Lássuk, hogyan működik a véletlenszerű erdő algoritmus, és miben különbözik ez az együttes modellekben történő csomagolástól.

Zsákolás

A csomagtartó-aggregáció, más néven zsákolás, az egyik legkorábbi és legegyszerűbb együtteselapú algoritmus, amely robusztusabbá teszi a döntési fákat és jobb teljesítményt nyújt. A csomagolás mögött rejlik az az alap, hogy több alaptanuló előrejelzéseit egyesítik egy pontosabb eredmény érdekében. Leo Breiman 1994-ben vezette be a csomagoló algoritmust. Megmutatta, hogy a bootstrap-aggregáció a kívánt eredményeket hozhat instabil tanulási algoritmusokban, ahol az edzési adatok apró változásai nagy különbségeket okozhatnak az előrejelzésekben. A bootstrap egy adatkészlet mintája cserével, és mindegyik mintát az m-es edzéskészlet egyenletes mintavételével állítják elő, amíg új m-es példánykészletet nem kapnak.

Véletlenszerű erdő

A Random forest egy felügyelt gépi tanulási algoritmus, amely együttes tanuláson és a Breiman eredeti csomagoló algoritmusának fejlődésén alapul. Ez nagy előrelépés a zsákolt döntési fákhoz képest, mivel több döntési fát kell felépíteni és összesíteni őket a pontos eredmény elérése érdekében. Breiman további véletlenszerű variációt adott a csomagolási eljáráshoz, nagyobb diverzitást teremtve a kapott modellek között. A véletlenszerű erdők abban különböznek a zsákolt fáktól, hogy arra kényszerítik a fát, hogy a rendelkezésre álló prediktoroknak csak egy részhalmazát használja fel a növekedési szakaszban történő leválásra. Az összes döntési fa, amely egy véletlenszerű erdőt alkot, eltérő, mivel minden fa különféle véletlenszerű adathalmazra épül. Mivel minimalizálja a túlzott felszerelést, sokkal pontosabb, mint egyetlen döntési fa.

Különbség a csomagolás és a véletlenszerű erdő között

alapjai

- Mind a zsákolás, mind a véletlenszerű erdők együttes alapú algoritmusok, amelyek célja az edzési adatokkal túlteljesítő modellek összetettségének csökkentése. A csomagtartó-aggregáció, más néven zsákolás, az egyik legrégebbi és leghatékonyabb együttes módszer a túlcsordulás megelőzésére. Ez egy meta-technika, amely több osztályozót használ a prediktív pontosság javításához. A zsákolás egyszerűen azt jelenti, hogy véletlenszerű mintákat vesz ki az edzési mintából csere céljából, hogy különféle modellekből álló együttest kapjanak. A Random forest egy felügyelt gépi tanulási algoritmus, amely együttes tanuláson és a Breiman eredeti csomagoló algoritmusának fejlődésén alapszik.

Koncepció

- A bootstrap-mintavétel (zsákolás) fogalma az, hogy egy csomó, nem metszetlen döntési fát képzzen a képzési adatok különböző véletlenszerű részhalmazain, mintavételt cseréléssel, a döntési fák szóródásának csökkentése érdekében. Az ötlet az, hogy több alaptanuló előrejelzéseit egyesítsék egy pontosabb eredmény érdekében. A véletlenszerű erdőkkel egy további véletlenszerű variációval egészítik ki a csomagolási eljárást, hogy a kapott modellek között nagyobb diverzitást biztosítsanak. A véletlenszerű erdők mögött az a döntés született, hogy több döntési fát építenek és összesítik, hogy pontos eredményt kapjanak.

Cél

- Mind a zsákos fák, mind a véletlenszerű erdők a leggyakoribb együttes tanulási eszközök, amelyekkel különféle gépi tanulási problémákat lehet kezelni. A Bootstrap-mintavétel egy olyan meta-algoritmus, amelynek célja a gépi tanulási modellek pontosságának és stabilitásának javítása az együttes tanulás felhasználásával, valamint a túlfutó modellek összetettségének csökkentése. A véletlenszerű erdő algoritmus nagyon robusztus a túlteljesítés ellen, és jó a kiegyensúlyozatlan és hiányzó adatokkal. Ez a prediktív modellek felépítéséhez előnyben részesített algoritmus is. A cél a variancia csökkentése több mély döntési fának átlagolásával, különböző adatmintákra képzve.

Csomagolás vs. véletlenszerű erdő: összehasonlító táblázat

összefoglalás

Mind a zsákos fák, mind a véletlenszerű erdők a leggyakoribb együttes tanulási eszközök, amelyekkel különféle gépi tanulási problémákat lehet kezelni. A zsákolás az egyik legrégebbi és legegyszerűbb együtteselapú algoritmus, amelyet fa alapú algoritmusokhoz alkalmazhatunk az előrejelzések pontosságának javítása érdekében. A Random Forests viszont egy felügyelt gépi tanulási algoritmus és a bootstrap mintavételi modell továbbfejlesztett változata, amelyet regressziós és osztályozási problémákra egyaránt használnak. A véletlenszerű erdő mögött az a döntés született, hogy több döntési fát építenek és összesítik azokat a pontos eredmény elérése érdekében. A véletlenszerű erdő általában pontosabb, mint az egyetlen döntési fa, mert minimalizálja a túlteljesítést.