Az adattárolás egy olyan rendszer, amelynek célja az adatok tárolása és rendezése a központi adattárakban, ideértve az egyéb forrásokból származó adatokat is. Ez az üzleti intelligencia alapkoncepciója a relációs adatbázis-modellekben, amely analitikai technikákat alkalmaz az üzleti adatok központi adatbázisba történő integrálására.
Az adattárolásban két általános építészeti modell van:
Mindkettő a közös többdimenziós adatbázis-modell, amelyet a nagy adatbázisok igényeinek kielégítésére használnak valódi adattárházak analitikai céljaira.
Bemutatunk egy pártatlan összehasonlítást a kettő között, hogy jobban megértsük, melyik jobb, mint a másik.
Ez a leggyakoribb és legszélesebb körben elfogadott építészeti modell az adattárházak és adatlevelek fejlesztéséhez, amelyekben az adatok tényekre és dimenziókra vannak osztva. Ez a legegyszerűbb építészeti modell, amelyben egy ténytáblát többdimenziós táblákra utalnak, csillagmintát utánozva.
Ahogy a neve is sugallja, a diagram egy csillagra hasonlít, amelynek középpontjában a ténytábla és a több dimenziós táblák sugárznak, és csillagszerű mintát képeznek.
Csillagcsatlakozási sémaként is ismert, és a dimenzió összes attribútumát egyetlen denormalizált ténytáblázatba tárolja, hogy gyorsan navigálhasson a nagy többdimenziós adatkészletekben, amelyek a gyors lekérdezési válaszidőket tükrözik..
Ez a csillag séma kibővítése, hozzáadott funkciókkal. A csillagsémától eltérően, a hópehely séma dimenziós táblázatait több kapcsolódó táblává normalizálják.
Az építészeti modell a táblák logikus elrendezését reprezentálja az egy-egy kapcsolat hierarchiájában, ahol a többdimenziós táblákat normalizáljuk aldimenziós táblázatokba, amelyek egy hópehelyhez hasonló mintára emlékeztetnek, innen a név.
Ez a csillag séma bonyolultabb változata, több összekapcsolással a dimenziós táblázatok között, amely figyelembe veszi a lassú feldolgozási időt az adatok letöltéséhez, ami lassú lekérdezési válaszidőket jelent. Minimalizálja az adat redundanciáját, ami viszont javítja a lekérdezés teljesítményét.
A relációs adatbázisokban a csillag séma a legegyszerűbb építészeti modell, amelyet az adattárházak és a többdimenziós adattérképek fejlesztéséhez használnak. Ahogy a neve is sugallja, a modell olyan csillagra hasonlít, amelynek pontjai a közepétől sugárznak, vagyis a ténytábla a központ, a pontok pedig a dimenziós táblák. Más dimenziós modellekhez hasonlóan tények és dimenziók formájában felépített adatokból áll. A hópehely séma viszont a bonyolultabb építészeti modell, amely egy többdimenziós adatbázisra utal, amelyben a táblák logikus elrendezésűek hópehely formájában..
A hópehely séma meglehetősen hasonló a csillag sémához, azzal a különbséggel, hogy lehet egynél több dimenziós táblázatokat, amelyeket tovább normalizálnak több kapcsolódó táblává, amelyeket aldimenziós tábláknak neveznek. Ez a kapcsolat több szintjét képviseli, amelyek hópehely mintává alakulnak. A csillag séma azonban a dimenzió összes kapcsolódó attribútumát egyetlen denormalizált dimenziós táblába tárolja, amely megkönnyíti az egyszerűbb lekérdezések megértését és kezelését..
A dimenziós táblázat nem tartalmazhat duplikált sorokat a relációs adatbázis-modellekben az egyszerű tény miatt, hogy kétértelműségeket okozhat a visszakeresésben. Minden táblázatnak tartalmaznia kell egy oszlopot vagy oszlopkombinációt, az úgynevezett elsődleges kulcsot, amely egyedileg azonosítja az összes táblarekordot. Az idegen kulcs egy oszlop vagy oszlopcsoport, amely kapcsolatot teremt két tábla között. Csillagrendszerben minden dimenziós tábla rendelkezik egy elsődleges kulccsal, amely egy idegen kulcshoz kapcsolódik a ténytáblázatban. Az üzleti hierarchiát a hópehely sémában az elsődleges kulcs / idegen kulcs kapcsolat reprezentálja a dimenziós táblázatok között.
A két relációs adatbázis-modell közötti fő különbség a normalizálás. A csillagrendszerben a dimenziós táblákat nem normalizálják, azaz az üzleti modell viszonylag több helyet fog használni a dimenziós táblák tárolására, és a nagyobb hely több redundáns rekordot jelent, ami végül következetlenséget okozna. A hópehely séma viszont minimalizálja az adatok redundanciáját, mivel a dimenziós táblák normalizálva vannak, ami sokkal kevesebb redundáns rekordot eredményez. Az üzleti hierarchiát és dimenzióit referencia-integritás révén megőrzik, vagyis a kapcsolatok az adattárházakban egymástól függetlenül frissíthetők.
A csillagsémának kevesebb illesztése van a dimenziós táblázat és a ténytábla között, mint a többszörös illesztésekkel ellátott hópehely sémaéval, amely kevesebb lekérdezési bonyolultságot jelent. Mivel a csillagsémában a méretek egy központi ténytáblán keresztül vannak összekapcsolva, egyértelmű csatlakozási útvonalakkal rendelkezik, ami azt jelenti, hogy a gyors lekérdezési válaszidők és a gyors válaszidő jobb teljesítményt jelent. A hópehely séma nagyobb csatlakozásokkal rendelkezik, így hosszabb a lekérdezés válaszideje, ami összetettebb lekérdezéseket eredményez, amelyek végül veszélyeztetik a teljesítményt.
Mindkettő a leggyakoribb és legszélesebb körben alkalmazott építészeti modell, amelyet adatbázisraktárak és adatmatricák fejlesztésére használnak. Minden üzleti modellnek megvan a méltányos előnyei és hátrányai. Míg a csillag séma a legegyszerűbb többdimenziós modell, amelyet az adatok tényekre és dimenziókra történő felosztásához használnak, ideális az olyan kevésbé összetett kapcsolatokat tartalmazó adatlapok kidolgozására. A hópehely séma a táblák logikus ábrázolása egy többdimenziós adatbázisban, amelyben a méretek aldimenziós táblákban vannak tárolva. A kettő közötti fő különbség a normalizálás. A hópehely séma dimenziós táblázatait teljesen normalizálják több keresési táblává, míg egy csillag séma esetén a dimenziós táblákat egy központi ténytáblává denormalizálják..