KDD vs data mining
KDD (Descoperirea cunoștințelor în baze de date) este un domeniu al informaticii, care include instrumente și teorii pentru a ajuta oamenii să extragă informații utile și necunoscute anterior (adică cunoștințe) din colecții mari de date digitalizate. KDD constă din mai mulți pași, iar Data Mining este unul dintre aceștia. Data Mining este aplicarea unui algoritm specific pentru a extrage modele din date. Cu toate acestea, KDD și Data Mining sunt folosite în mod interschimbabil.
Ce este KDD?
După cum sa menționat mai sus, KDD este un domeniu al informaticii, care se ocupă cu extragerea de informații necunoscute și interesante din date brute. KDD este întregul proces de încercare de a da sens datelor prin dezvoltarea de metode sau tehnici adecvate. Acest proces se ocupă de maparea datelor de nivel scăzut în alte forme, care sunt mai compacte, abstracte și utile. Acest lucru se realizează prin crearea de rapoarte scurte, modelarea procesului de generare a datelor și dezvoltarea unor modele predictive care pot prezice cazuri viitoare. Datorită creșterii exponențiale a datelor, în special în domenii precum afaceri, KDD a devenit un proces foarte important pentru a converti această mare bogăție de date în business intelligence, deoarece extragerea manuală a modelelor a devenit aparent imposibilă în ultimele decenii. De exemplu, este utilizat în prezent pentru diverse aplicații, cum ar fi analiza rețelelor sociale, detectarea fraudelor, știință, investiții, producție, telecomunicații, curățare a datelor, sport, regăsire informații și în mare parte pentru marketing. KDD este de obicei folosit pentru a răspunde la întrebări precum care sunt principalele produse care ar putea ajuta la obținerea unui profit mare anul viitor în Wal-Mart?. Acest proces are mai multe etape. Începe cu dezvoltarea unei înțelegeri a domeniului aplicației și a obiectivului și apoi crearea unui set de date țintă. Aceasta este urmată de curățarea, preprocesarea, reducerea și proiecția datelor. Următorul pas este utilizarea Data Mining (explicat mai jos) pentru a identifica modelul. În cele din urmă, cunoștințele descoperite se consolidează prin vizualizare și/sau interpretare.
Ce este data mining?
După cum sa menționat mai sus, Data Mining este doar un pas în cadrul procesului general KDD. Există două obiective majore de Data Mining, așa cum sunt definite de scopul aplicației, și anume verificarea sau descoperirea. Verificarea înseamnă verificarea ipotezei utilizatorului despre date, în timp ce descoperirea înseamnă găsirea automată a modelelor interesante. Există patru sarcini majore de extragere a datelor: grupare, clasificare, regresie și asociere (rezumare). Clustering înseamnă identificarea unor grupuri similare din date nestructurate. Clasificarea reprezintă reguli de învățare care pot fi aplicate datelor noi. Regresia este găsirea de funcții cu o eroare minimă în modelarea datelor. Și asocierea caută relații între variabile. Apoi, trebuie selectat algoritmul specific de extragere a datelor. În funcție de obiectiv, pot fi selectați diferiți algoritmi precum regresia liniară, regresia logistică, arbori de decizie și Naïve Bayes. Apoi sunt căutate modele de interes în una sau mai multe forme de reprezentare. În cele din urmă, modelele sunt evaluate fie folosind acuratețea predictivă, fie înțelegerea.
Care este diferența dintre KDD și Data mining?
Deși cei doi termeni KDD și Data Mining sunt foarte folosiți în mod interschimbabil, se referă la două concepte legate, dar ușor diferite. KDD este procesul general de extragere a cunoștințelor din date, în timp ce Data Mining este un pas în interiorul procesului KDD, care se ocupă cu identificarea tiparelor în date. Cu alte cuvinte, Data Mining este doar aplicarea unui algoritm specific bazat pe obiectivul general al procesului KDD.