摘要:對由多個指標組成的多元數據進行聚類分析時,數據維度的增加、各指標與總體聚類的相關性程度不一致以及各指標服從的分布不同會增加聚類的復雜性,影響聚類結果的準確性,因此需要通過合適的方法來對多元數據進行聚類分析。針對這一問題,提出改進的帶粘性的層次Dirichlet過程(sticky Hierarchical Dirichlet Process)方法來實現對多元數據的降維聚類,以解決各指標服從不同分布的問題,并用粘性參數反映各指標與總體聚類之間的相關性。用MCMC方法來估計模型參數。通過對仿真模擬數據和IRIS數據集的聚類分析,證實了該方法的有效性,同時發現單個指標與總體聚類的相關性越大,則相應的粘性參數越大,從而反映該指標在總體聚類中的重要性程度越高;并且當各指標數據中有粘性較大的指標時,帶粘性的層次Dirichlet過程方法明顯優于其他聚類方法,能夠顯著提高分類的準確性。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社。
統計與信息論壇雜志, 月刊,本刊重視學術導向,堅持科學性、學術性、先進性、創新性,刊載內容涉及的欄目:統計理論與方法、經濟統計、財政與金融統計、資源與環境統計、社會與管理統計等。于1986年經新聞總署批準的正規刊物。