Adatbányászat vs OLAP
Az adatbányászat és az OLAP egyaránt a közös üzleti intelligencia (BI) technológiák. Az üzleti intelligencia olyan számítógépes módszerekre utal, amelyekkel hasznos információkat lehet azonosítani és kinyerni az üzleti adatokból. Az adatbányászat a számítástechnika olyan területe, amely az érdekes minták kivonásával foglalkozik nagy adatsorból. Egyesíti a mesterséges intelligencia, a statisztika és az adatbáziskezelés számos módszerét. Az OLAP (online analitikai feldolgozás), ahogy a neve is sugallja, a multidimenziós adatbázisok lekérdezésének módjainak összeállítása.
Az adatbányászat néven is ismert, mint tudás-felfedezés az adatokban (KDD). Mint fentebb említettük, ez egy informatika olyan területe, amely a korábban ismeretlen és érdekes információk nyers adatokból történő kinyerésével foglalkozik. Az adatok exponenciális növekedése miatt, különösen az olyan területeken, mint például az üzleti élet, az adatbányászat nagyon fontos eszközzé vált, hogy ezt a nagy adatgazdagságot üzleti intelligenciává alakítsa, mivel a minták kézi kinyerése látszólag lehetetlenné vált az elmúlt néhány évtizedben. Például jelenleg különféle alkalmazásokban használják, például közösségi hálózatok elemzésére, csalások felderítésére és marketingre. Az adatbányászat általában a következő négy feladattal foglalkozik: csoportosítás, osztályozás, regresszió és asszociáció. A klaszterezés azonosítja a hasonló csoportokat a nem strukturált adatok alapján. A besorolás olyan tanulási szabályok, amelyek alkalmazhatók új adatokra, és általában a következő lépéseket tartalmazzák: adatok előfeldolgozása, modellezés megtervezése, tanulás / tulajdonságok kiválasztása és értékelés / validálás. A regresszió az adatok modellezéséhez minimális hibájú funkciókat keres. Az asszociáció pedig a változók közötti kapcsolatokat keresi. Az adatbányászatot általában olyan kérdések megválaszolására használják, mint például azok a fő termékek, amelyek elősegíthetik a magas profit elérését a következő évben a Wal-Mart-ban.
Az OLAP egy olyan rendszerosztály, amely többdimenziós kérdésekre ad választ. Az OLAP-t általában marketing, költségvetési, előrejelzési és hasonló alkalmazásokhoz használják. Magától értetődik, hogy az OLAP-hoz használt adatbázisok a gyors teljesítmény szempontjából összetett és ad-hoc lekérdezésekhez vannak konfigurálva. Általában egy mátrixot használunk egy OLAP kimenetének megjelenítésére. A sorokat és oszlopokat a lekérdezés méretei képezik. Gyakran használják az összevonási módszereket több táblában az összefoglalókhoz. Például felhasználható a Wal-Mart idei eladásainak megismerésére az előző évhez képest? Mi az előrejelzés az értékesítésről a következő negyedévben? Mit lehet mondani a trendről, ha megvizsgáljuk a százalékos változást?
Noha nyilvánvaló, hogy az Adatbányászat és az OLAP hasonlóak, mivel adatokkal működnek, hogy intelligenciát szerezzenek, a fő különbség az adatok működésében rejlik. Az OLAP eszközök többdimenziós adatelemzést biztosítanak és összefoglalják az adatokat, ám ezzel szemben az adatbányászat az adatkészlet arányaira, mintáira és befolyásaira összpontosít. Ez egy OLAP foglalkozás az aggregálással, amely az adatok „kiegészítés” útján történő működtetésére vezethető vissza, de az adatbányászat megfelel az „osztásnak”. Egyéb figyelemre méltó különbség az, hogy míg az adatbányász eszközök modellezik az adatokat és visszaadják az igénybe vehető szabályokat, az OLAP valósidejűleg az üzleti dimenzió mentén összehasonlítási és kontraszt technikákat fog végezni.