Klasifikimi Hierarkik vs Pjesor

Grumbullimi është një teknikë e të mësuarit e makinerive për të analizuar të dhënat dhe ndarjen në grupe të të dhënave të ngjashme. Këto grupe ose grupe të të dhënave të ngjashme njihen si grupe. Analiza e kllasterit shikon algoritmet grumbulluese që mund të identifikojnë grupimet automatikisht. Hierarkike dhe e pjesshme janë dy klasa të tilla të algoritmeve grumbulluese. Algoritmet e grupimit hierarkik thyejnë të dhënat në një hierarki të grupimeve. Algoritmet paracionale ndajnë të dhënat e vendosura në ndarje që ndahen reciprokisht.

Whatfarë është grupimi hierarkik?

Algoritmet e grupimit hierarkik përsërisin ciklin e bashkimit të grupimeve më të vogla në ato më të mëdha ose ndarjen e grupimeve më të mëdha në ato më të vogla. Sido që të jetë, ajo prodhon një hierarki të grupimeve të quajtur një dendogram. Strategjia grumbulluese aglomerative përdor qasjen nga poshtë-lart për bashkimin e grupimeve në ato më të mëdha, ndërsa strategjia ndarëse e klasterimit përdor qasjen nga lart-poshtë për ndarjen në ato më të vogla. Në mënyrë tipike, qasja e babëzitur përdoret për të vendosur se cilat grupe më të mëdha / më të vogla përdoren për bashkimin / ndarjen. Distanca euklidiane, distanca e Manhatanit dhe ngjashmëria kosinike janë disa nga metrikat më të përdorura të ngjashmërisë për të dhënat numerike. Për të dhëna jo-numerike, përdoren metra të tilla si distanca Hamming. Shtë e rëndësishme të theksohet se vëzhgimet (instancat) aktuale nuk janë të nevojshme për grumbullimin hierarkik, sepse vetëm matrica e distancave është e mjaftueshme. Dendogrami është një paraqitje vizuale e grupimeve, e cila shfaq hierarkinë shumë qartë. Përdoruesi mund të marrë grupime të ndryshme në varësi të nivelit në të cilin pritet dendogrami.

Isfarë është grupimi i pjesshëm?

Algoritmet e grupimit të pjesshëm gjenerojnë ndarje të ndryshme dhe më pas i vlerësojnë ato sipas disa kritereve. Ato janë referuar gjithashtu si johierarkike pasi secili shembull vendoset në saktësisht njërën prej grupimeve k reciprokisht ekskluzive. Për shkak se vetëm një grup i grupimeve është prodhimi i një algoritmi tipik grumbullimi të pjesshëm, përdoruesit i kërkohet të futë numrin e dëshiruar të grupimeve (zakonisht quhet k). Një nga algoritmet më të zakonshëm të grupimit të grumbullimit është algoritmi i grupimit k-do të thotë. Përdoruesi kërkohet të sigurojë numrin e grupimeve (k) para fillimit dhe algoritmi fillimisht fillon qendrat (ose centroidet) e ndarjeve k. Me pak fjalë, algoritmi grumbullues i k-do të caktojë anëtarët bazuar në qendrat aktuale dhe rivlerësimin e qendrave bazuar në anëtarët e tanishëm. Këto dy hapa përsëriten derisa të optimizohet një funksion objektiv i caktuar i ngjashmërisë brenda grupit dhe funksioni objektiv ndër-grupor i mosrespektimit. Prandaj, fillimi i ndjeshëm i qendrave është një faktor shumë i rëndësishëm në marrjen e rezultateve cilësore nga algoritmet e grupimit të pjesshëm.

Cili është ndryshimi midis grupimit hierarkik dhe pjesor?

Grupimi hierarkik dhe pjesor ka dallime thelbësore në kohën e funksionimit, supozimet, parametrat e hyrjes dhe grupimet rezultuese. Në mënyrë tipike, grumbullimi i pjesshëm është më i shpejtë se grupimi hierarkik. Grumbullimi hierarkik kërkon vetëm një masë ngjashmërie, ndërsa grumbullimi i pjesshëm kërkon supozime më të forta siç janë numri i grupimeve dhe qendrave fillestare. Grumbullimi hierarkik nuk kërkon asnjë parametër hyrje, ndërsa algoritmet e grupimit të pjesshëm kërkojnë numrin e grupimeve që të fillojnë të funksionojnë. Grumbullimi hierarkik i kthen një ndarje shumë më domethënëse dhe subjektive të grupimeve, por grupimi i pjesërishëm rezulton në saktësisht grupimet k. Algoritmet e grupimit hierarkik janë më të përshtatshëm për të dhëna kategorike për sa kohë që një masë e ngjashmërisë mund të përcaktohet në përputhje me rrethanat.