Hierarkisk vs Partition Clustering
Clustering är en maskininlärningsteknik för att analysera data och dela in i grupper med liknande data. Dessa grupper eller uppsättningar av liknande data är kända som kluster. Clusteranalys ser på grupperingsalgoritmer som kan identifiera kluster automatiskt. Hierarkiska och partitionella är två sådana klasser av klustringsalgoritmer. Hierarkiska klustringsalgoritmer bryter upp data till en hierarki av kluster. Parallellalgoritmer delar upp datamängden i ömsesidigt ojämna partitioner.
Vad är hierarkisk clustering?
Hierarkiska klustringsalgoritmer upprepar cykeln för att antingen slå samman mindre kluster i större eller dela större kluster till mindre. Hur som helst skapar det en hierarki av kluster som kallas ett dendogram. Agglomerativ klustringsstrategi använder botten-up-tillvägagångssättet för att slå samman kluster till större grupper, medan splittringsstrategi använder topp-down-metoden för att dela in i mindre. Typiskt används den giriga inställningen för att bestämma vilka större / mindre kluster som används för sammanslagning / delning. Euklidiskt avstånd, Manhattanavstånd och cosinuslikhet är några av de vanligaste mätvärdena för likhet för numeriska data. För icke-numeriska data används mätvärden som Hamming-avståndet. Det är viktigt att notera att de faktiska observationerna (instanser) inte behövs för hierarkisk gruppering, eftersom endast matrisen av avstånd är tillräcklig. Dendogram är en visuell representation av klustren, vilket visar hierarkin mycket tydligt. Användaren kan få olika kluster beroende på den nivå där dendogrammet är skuret.
Vad är partitionell klustring?
Partitionella klustringsalgoritmer genererar olika partitioner och utvärderar dem sedan med något kriterium. De kallas också nonhierarchical eftersom varje instans placeras i exakt en av k ömsesidigt exklusiva kluster. Eftersom endast en uppsättning kluster är utsignalen från en typisk partitionell klustringsalgoritm, måste användaren ange det önskade antalet kluster (vanligtvis kallad k). En av de vanligaste partitionella klustringsalgoritmerna är k-means clustering algoritmen. Användaren är skyldig att ange antalet kluster (k) innan man börjar och algoritmen initierar initierar centren (eller centroiderna) av k-partitionerna. I en nötskal, tilldelar k-medel klustringsalgoritmen medlemmar baserat på nuvarande centra och uppskattar centra baserat på nuvarande medlemmar. Dessa två steg upprepas tills en viss objektivfunktion inom klusterlikhet och objektsubstansdifferensfunktion optimeras. Därför är förnuftig initiering av centra en mycket viktig faktor för att uppnå kvalitetsresultat från partitionella klustringsalgoritmer.
Vad är skillnaden mellan hierarkisk och partiell clustering?
Hierarkisk och partiell Clustering har viktiga skillnader i körtid, antaganden, ingångsparametrar och resulterande kluster. Vanligtvis är partitionell gruppering snabbare än hierarkisk gruppering. Hierarkisk gruppering kräver endast en likhetsåtgärd, medan partitionell gruppering kräver starkare antaganden, såsom antal kluster och de inledande centra. Hierarkisk gruppering kräver inga inmatningsparametrar, medan partitionella klustringsalgoritmer kräver att antalet kluster börjar starta. Hierarkisk kluster ger en mycket mer meningsfull och subjektiv uppdelning av kluster, men partitionell klustring leder till exakt k-kluster. Hierarkiska klustringsalgoritmer är mer lämpade för kategoriska data så länge en likhetsåtgärd kan definieras i enlighet därmed.