密度峰值聚類(Density Peaks Clustering,DPC)算法是一種基於密度的聚類分析方法,它通過識別數據點的局部密度和相對距離來發現簇中心,進而完成聚類。DPC算法的主要特點包括:
無需先驗知識。DPC算法不需要指定類簇數量,也不需要關於數據分布的先驗知識,它僅依賴於兩個主要參數:局部密度的計算方式和截斷距離。
識別非球形簇。DPC算法能夠發現非球形簇結構,這是許多其他聚類算法難以做到的。
參數獨立性。DPC算法對參數的設定相對不敏感,這提高了其穩定性和可靠性。
DPC算法的基本假設是:1)類簇中心被較低密度的數據點包圍;2)類簇中心間的距離相對較遠。算法的核心步驟包括:
計算局部密度。使用截斷核或高斯核的方法計算每個數據點的局部密度。
計算相對距離。確定每個數據點相對於其他點的距離。
識別簇中心。通過繪製決策圖(如散點圖),識別出具有較高局部密度和較小相對距離的點作為簇中心。
分配樣本點。將其他樣本點分配給識別出的簇中心,形成不同的類簇。
DPC算法的優點包括不需要事先指定類簇數、能夠發現非球形類簇、只有一個參數需要預先設定。其主要缺點是對參數敏感,當類簇間的數據密集程度差異較大時,聚類效果不佳,且樣本分配策略可能存在錯誤。
針對這些缺點,已經提出了幾種最佳化策略,例如,使用相對鄰域和剪枝策略來提高效率,以及結合KNN和圖示簽傳播技術來改進標籤分配過程。這些最佳化策略在一定程度上提高了DPC算法的性能和聚類準確性。