Data Mining vs OLAP
Atât data mining, cât și OLAP sunt două dintre tehnologiile comune de Business Intelligence (BI). Business intelligence se referă la metode bazate pe computer pentru identificarea și extragerea informațiilor utile din datele de afaceri. Miningul de date este domeniul informaticii care se ocupă cu extragerea de modele interesante din seturi mari de date. Combină multe metode din inteligența artificială, statistică și gestionarea bazelor de date. OLAP (procesare analitică online), după cum sugerează și numele, este o compilație de modalități de a interoga bazele de date multidimensionale.
Data mining este cunoscut și sub numele de Knowledge Discovery in data (KDD). După cum am menționat mai sus, este un domeniu al informaticii, care se ocupă cu extragerea informațiilor necunoscute și interesante din date brute. Datorită creșterii exponențiale a datelor, în special în domenii precum business, data mining a devenit un instrument foarte important pentru a converti această mare bogăție de date în business intelligence, deoarece extragerea manuală a modelelor a devenit aparent imposibilă în ultimele decenii. De exemplu, este utilizat în prezent pentru diverse aplicații, cum ar fi analiza rețelelor sociale, detectarea fraudelor și marketing. Exploatarea datelor se ocupă de obicei cu următoarele patru sarcini: grupare, clasificare, regresie și asociere. Clustering înseamnă identificarea unor grupuri similare din date nestructurate. Clasificarea reprezintă reguli de învățare care pot fi aplicate datelor noi și vor include de obicei următorii pași: preprocesarea datelor, proiectarea modelării, învățarea/selectarea caracteristicilor și evaluarea/validarea. Regresia este găsirea de funcții cu o eroare minimă în modelarea datelor. Și asocierea caută relații între variabile. Exploatarea datelor este de obicei folosită pentru a răspunde la întrebări precum care sunt principalele produse care ar putea ajuta la obținerea unui profit mare anul viitor în Wal-Mart.
OLAP este o clasă de sisteme, care oferă răspunsuri la interogări multidimensionale. De obicei, OLAP este utilizat pentru marketing, bugetare, prognoză și aplicații similare. Este de la sine înțeles că bazele de date utilizate pentru OLAP sunt configurate pentru interogări complexe și ad-hoc, având în vedere o performanță rapidă. De obicei, o matrice este utilizată pentru a afișa rezultatul unui OLAP. Rândurile și coloanele sunt formate din dimensiunile interogării. Ei folosesc adesea metode de agregare pe mai multe tabele pentru a obține rezumate. De exemplu, poate fi folosit pentru a afla despre vânzările din acest an în Wal-Mart comparativ cu anul trecut? Care este prognoza privind vânzările din următorul trimestru? Ce se poate spune despre tendință analizând modificarea procentuală?
Deși este evident că Data mining și OLAP sunt similare deoarece operează pe date pentru a obține informații, principala diferență vine din modul în care operează pe date. Instrumentele OLAP oferă analiză multidimensională a datelor și oferă rezumate ale datelor, dar, în contrast, data mining se concentrează pe rapoarte, modele și influențe în setul de date. Aceasta este o afacere OLAP cu agregare, care se rezumă la operarea datelor prin „adăugare”, dar extragerea datelor corespunde „diviziunii”. O altă diferență notabilă este că, în timp ce instrumentele de extragere a datelor modelează date și returnează reguli acționabile, OLAP va efectua tehnici de comparare și contrastare pe dimensiunea afacerii în timp real.