Adatbányászat vs. adattárolás
Az adatbányászat és az adattárolás nagyon hatékony és népszerű technikák az adatok elemzésére. A statisztikákra hajló felhasználók az Adatbányászatot használják. Statisztikai modelleket használnak az adatok rejtett mintáinak keresésére. Az adatbányászok érdeklődnek a különböző adatelemek közötti hasznos kapcsolatok megtalálása iránt, ami végül a vállalkozások számára jövedelmező. De másrészt az adatszakértők, akik közvetlenül képesek elemezni az üzleti dimenziókat, hajlamosak az Adattárházak használatára.
Az adatbányászat néven is ismert, mint tudás-felfedezés az adatokban (KDD). Mint fentebb említettük, ez egy informatika olyan területe, amely a korábban ismeretlen és érdekes információk nyers adatokból történő kinyerésével foglalkozik. Az adatok exponenciális növekedése miatt, különösen az olyan területeken, mint például az üzleti élet, az adatbányászat nagyon fontos eszközzé vált, hogy ezt a nagy adatgazdagságot üzleti intelligenciává alakítsa, mivel a minták kézi kinyerése látszólag lehetetlenné vált az elmúlt néhány évtizedben. Például jelenleg különféle alkalmazásokban használják, például közösségi hálózatok elemzésére, csalások felderítésére és marketingre. Az adatbányászat általában a következő négy feladattal foglalkozik: csoportosítás, osztályozás, regresszió és asszociáció. A klaszterezés azonosítja a hasonló csoportokat a nem strukturált adatok alapján. A besorolás olyan tanulási szabályok, amelyek alkalmazhatók új adatokra, és jellemzően a következő lépéseket tartalmazzák: adatok előfeldolgozása, modellezés megtervezése, tanulás / tulajdonságok kiválasztása és kiértékelés / érvényesítés. A regresszió az adatok modellezéséhez minimális hibájú funkciókat keres. Az asszociáció pedig a változók közötti kapcsolatokat keresi. Az adatbányászatot általában olyan kérdések megválaszolására használják, mint például azok a fő termékek, amelyek elősegíthetik a magas profit elérését a következő évben a Wal-Mart-ban?
Mint fentebb említettük, az adattárolást az adatok elemzésére is használják, de különböző felhasználói csoportok és kissé eltérő célt szem előtt tartva. Például, amikor a kiskereskedelemről van szó, az Adatraktározást használók inkább azzal foglalkoznak, hogy milyen vásárlások népszerűek az ügyfelek körében, így az elemzés eredményei segíthetnek az ügyfeleknek az ügyfélélmény javításával. Az Adatbányászok azonban először egy hipotézist tételez fel, amely szerint az ügyfelek vásárolnak egy bizonyos terméktípust, és elemezik az adatokat a hipotézis teszteléséhez. Az adattárolást egy nagykereskedő végezheti, aki kezdetben azonos méretű termékekkel tárolja raktárait, hogy később kiderüljön, hogy a New York-i üzletek sokkal gyorsabban értékesítik a kisebb méretű készleteket, mint a chicagói üzletek. Tehát, ha megvizsgálja ezt az eredményt, a kiskereskedő a New York-i áruházat kisebb méretben tárolhatja, mint a chicagói üzletek.
Tehát, amint egyértelműen láthatja, ez a kétféle elem szabad szemmel azonos természetűnek tűnik. Mindkettő aggódik a nyereség növekedése miatt a történeti adatok alapján. De természetesen vannak kulcsfontosságú különbségek. Egyszerűen fogalmazva, az Adatbányászat és az Adattárolás különféle elemzési lehetőségeket kínál, de határozottan különféle típusú felhasználók számára. Más szóval, az Data Mining korrelációkat keres, kísérleteket keres a statisztikai hipotézis alátámasztására. De az Adattárolás egy viszonylag szélesebb kérdésre válaszol, és az onnan levágja és kockázza az adatokat, hogy felismerje a jövőbeni fejlesztési lehetőségeket..