共計 802 個字符,預計需要花費 3 分鐘才能閱讀完成。
今天就跟大家聊聊有關如何理解 R 語言聚類算法中的密度聚類,可能很多人都不太了解,為了讓大家更加了解,丸趣 TV 小編給大家總結了以下內容,希望大家根據這篇文章可以有所收獲。
1. 原理解析:
1. 從數據集中選擇一個未處理的樣本點
2. 以 1 為圓心, 做半徑為 E 的圓, 由于圓內圈入點的個數為 3, 滿足密度閾值 Minpts, 因此稱點 1 為核心對象(黑色實心圓點), 且將圈內的 4 個點形成一個簇, 其中點 1 直接密度可達周圍的 3 個灰色實心原點;
3. 重復步驟 2 若干次, 其中點 1 直接密度可達核心對象 3, 且點 2 密度可達點 3.
4. 當該過程進行到圖Ⅳ,4 的 E 鄰域內僅有 2 個點, 小雨閾值 MinPts, 因此點 4 為邊緣點(非核心對象), 記為?, 繼續考察其他點.
5. 當所有對象都被考察, 該過程結束, 得到圖Ⅷ. 橢圓形內有若干核心對象和邊緣點, 這些點都是密度相連的.
6. 為個點歸類, 如圖Ⅸ: 點集黑圈相互密度可達, 屬于類別 1: 點集黑三角相互密度可達, 屬于新的一類, 記為類別 2; 點集白圈與類別 1 樣本點密度相連, 屬于類別 3; 點集白三角與類別 2 樣本點密度相連, 屬于類別 4; 點 ?既非核心對象, 也不密度相連, 為噪聲點.
2. 在 R 語言中的應用
密度聚類 (Density-based Methods) 主要應用到了 fpc 包中的 dbscan 函數。
dbscan(data,eps,MinPts=5,scale=FALSE,method=c(“hybird”,”raw”,”dist”),seeds=TRUE,showplot=FALSE,countmode=NULL)
3. 以 iris 數據集為例進行分析
1)應用模型并查看模型的相應參數
ds=dbscan(iris[,-5],eps=0.3,MinPts=4)
ds[1:length(ds)]
看完上述內容,你們對如何理解 R 語言聚類算法中的密度聚類有進一步的了解嗎?如果還想了解更多知識或者相關內容,請關注丸趣 TV 行業資訊頻道,感謝大家的支持。