KDD vs adatbányászat
A KDD (ismeretek felfedezése az adatbázisokban) egy informatika, amely olyan eszközöket és elméleteket tartalmaz, amelyek segítenek az embereknek a hasznos és korábban ismeretlen információk (azaz tudás) kinyerésében a digitalizált adatok nagy gyűjteményéből. A KDD több lépésből áll, és az Data Mining az egyik. Az Adatbányászat egy meghatározott algoritmus alkalmazása minták kivonása céljából az adatokból. Ennek ellenére a KDD és az Data Mining felcserélhetően használják.
Mi a KDD??
Mint fentebb említettük, a KDD egy informatika, amely korábban ismeretlen és érdekes információk nyers adatokból történő kinyerésével foglalkozik. A KDD az adatmegértés próbálásának teljes folyamata, megfelelő módszerek vagy technikák kifejlesztésével. Ez a folyamat foglalkozik az alacsony szintű adatok más formákkal való feltérképezésével, amelyek kompaktabbak, elvonták és hasznosabbak. Ezt rövid jelentések készítésével, az adatok előállítási folyamatának modellezésével és olyan prediktív modellek kidolgozásával érik el, amelyek előre jelezni tudják a jövőbeli eseteket. Az adatok exponenciális növekedése miatt, különösen az olyan területeken, mint például az üzleti élet, a KDD nagyon fontos folyamattá vált, hogy ezt a nagy mennyiségű adatot üzleti intelligenciává alakítsa, mivel a minták kézi kinyerése látszólag lehetetlenné vált az elmúlt néhány évtizedben. Például jelenleg különféle alkalmazásokban használják, például közösségi hálózatok elemzéséhez, csalások felderítéséhez, tudományhoz, beruházásokhoz, gyártáshoz, telekommunikációhoz, adattisztításhoz, sporthoz, információkereséshez és nagyrészt marketinghez. A KDD-t általában olyan kérdések megválaszolására használják, mint például melyek azok a fő termékek, amelyek elősegíthetik a magas profit elérését a következő évben a Wal-Marton ?. Ennek a folyamatnak több lépése van. Az alkalmazástartomány és a cél megértésének fejlesztésével kezdődik, majd egy cél-adatkészlet létrehozásával. Ezt követi az adatok tisztítása, előfeldolgozása, csökkentése és kivetítése. A következő lépés az Adatbányászat (az alábbiakban kifejtett) használata a minta azonosításához. Végül a felfedezett tudást a megjelenítés és / vagy értelmezés révén megszilárdítják.
Mi az adatbányászat??
Mint fentebb említettük, az Adatbányászat csak egy lépés a teljes KDD-folyamatban. Két nagy adatgazdálkodási cél van, amelyeket az alkalmazás célja határoz meg, nevezetesen ellenőrzés vagy felfedezés. A hitelesítés a felhasználó adatokra vonatkozó hipotézisének ellenőrzését jelenti, míg a felfedezés automatikusan érdekes mintákat talál. Négy fő adatbányászati feladat van: csoportosítás, osztályozás, regresszió és asszociáció (összefoglalás). A klaszterezés azonosítja a hasonló csoportokat a nem strukturált adatok alapján. Az osztályozás olyan tanulási szabályok, amelyeket új adatokra lehet alkalmazni. A regresszió az adatok modellezéséhez minimális hibájú funkciókat keres. Az asszociáció pedig a változók közötti kapcsolatokat keresi. Ezután ki kell választani az adott adatbányászati algoritmust. A céltól függően különféle algoritmusok választhatók ki, mint a lineáris regresszió, a logisztikus regresszió, a döntési fák és a Naiv Bayes. Ezután egy vagy több reprezentációs forma érdekes mintáit keressük. Végül a modelleket akár prediktív pontosság, akár érthetőség alapján értékelik.
Mi a különbség a KDD és az adatbányászat között??
Bár a KDD és az Data Mining két kifejezést felcserélhetően használják, két kapcsolódó, ám kissé eltérő fogalomra utalnak. A KDD az ismeretek kinyerése az adatokból, míg az Adatbányászat a KDD folyamatának egy lépése, amely az adatok mintáinak azonosításával foglalkozik. Más szóval, az Adatbányászat csak egy meghatározott algoritmus alkalmazása, amely a KDD-folyamat általános célján alapul.