Diferența dintre clusteringul ierarhic și cel parțial

Diferența dintre clusteringul ierarhic și cel parțial
Diferența dintre clusteringul ierarhic și cel parțial

Video: Diferența dintre clusteringul ierarhic și cel parțial

Video: Diferența dintre clusteringul ierarhic și cel parțial
Video: 97% posedat - un documentar despre adevărul economic 2024, Noiembrie
Anonim

Clustering ierarhic vs. partiționat

Clustering este o tehnică de învățare automată pentru analizarea datelor și împărțirea în grupuri de date similare. Aceste grupuri sau seturi de date similare sunt cunoscute sub numele de clustere. Analiza clusterelor analizează algoritmii de grupare care pot identifica clusterele automat. Ierarhic și Partițional sunt două astfel de clase de algoritmi de grupare. Algoritmii de grupare ierarhică împart datele într-o ierarhie de clustere. Algoritmii pariționali împart setul de date în partiții disjunse reciproc.

Ce este gruparea ierarhică?

Algoritmii de grupare ierarhică repetă ciclul fie de îmbinare a clusterelor mai mici cu cele mai mari, fie de împărțire a clusterelor mai mari în altele mai mici. În orice caz, produce o ierarhie de clustere numită dendogramă. Strategia de grupare aglomerativă folosește abordarea de jos în sus a fuzionarii clusterelor în altele mai mari, în timp ce strategia de grupare divizionară utilizează abordarea de sus în jos a împărțirii în cele mai mici. În mod obișnuit, abordarea lacomă este utilizată pentru a decide care clustere mai mari/mai mici sunt folosite pentru îmbinare/împărțire. Distanța euclidiană, distanța Manhattan și asemănarea cosinusului sunt unele dintre cele mai frecvent utilizate metrici de similitudine pentru datele numerice. Pentru datele non-numerice, sunt utilizate valori precum distanța Hamming. Este important de menționat că observațiile (instanțele) efective nu sunt necesare pentru gruparea ierarhică, deoarece doar matricea distanțelor este suficientă. Dendograma este o reprezentare vizuală a clusterelor, care afișează foarte clar ierarhia. Utilizatorul poate obține grupări diferite în funcție de nivelul la care este tăiată dendograma.

Ce este gruparea partițională?

Algoritmii de grupare partițională generează diverse partiții și apoi le evaluează după un anumit criteriu. Ele sunt, de asemenea, denumite neierarhice, deoarece fiecare instanță este plasată exact într-unul dintre k clustere care se exclud reciproc. Deoarece un singur set de clustere este rezultatul unui algoritm de clustering partiționar tipic, utilizatorului i se cere să introducă numărul dorit de clustere (numite de obicei k). Unul dintre cei mai des utilizați algoritmi de grupare partițională este algoritmul de grupare k-means. Utilizatorului i se cere să furnizeze numărul de clustere (k) înainte de a începe, iar algoritmul inițiază mai întâi centrele (sau centroizii) k partițiilor. Pe scurt, algoritmul de grupare k-means atribuie apoi membrii pe baza centrelor curente și reestimează centrele pe baza membrilor actuali. Acești doi pași se repetă până când sunt optimizate o anumită funcție obiectiv de similaritate intra-cluster și o funcție obiectivă de disimilaritate între clustere. Prin urmare, inițializarea sensibilă a centrelor este un factor foarte important în obținerea de rezultate de calitate din algoritmii de grupare partițională.

Care este diferența dintre clusteringul ierarhic și cel parțial?

Clusteringul ierarhic și parțial are diferențe cheie în ceea ce privește timpul de rulare, ipoteze, parametrii de intrare și clusterele rezultate. De obicei, gruparea partițională este mai rapidă decât gruparea ierarhică. Agruparea ierarhică necesită doar o măsură de similaritate, în timp ce gruparea parțială necesită ipoteze mai puternice, cum ar fi numărul de clustere și centrele inițiale. Gruparea ierarhică nu necesită parametri de intrare, în timp ce algoritmii de grupare partițională necesită numărul de clustere pentru a începe să ruleze. Agruparea ierarhică returnează o diviziune mult mai semnificativă și subiectivă a clusterelor, dar gruparea partițională are ca rezultat exact k clustere. Algoritmii de grupare ierarhică sunt mai adecvați pentru datele categorice, atâta timp cât o măsură de similaritate poate fi definită în consecință.

Recomandat: