機器學習-分群結果如何衡量

想請問~分群 非監督式學習因爲沒有標籤(答案)所以沒辦法知道模型的好壞吧

那假設今天有5個特徵,有辦法評估丟其中3個 or 全丟,哪個分群模型比較好嗎?~

首先,要先看你心中的"模型的好壞"指的是什麼,這是是需要明確定義的。

舉個例,如果是模型/演算法的好壞指的是目標函數或損失函數越小越好,那麼,在可以使用三角不等式的狀況下(如:L^2-loss),理論上是特徵越少,損失函數的最小值就會越小,但要注意的是,這不能保證分群的結果是理想的,也就是說,原本高維度的資料變成低維度時,有機會會混合在一起,如:[0, 1] x {0, 1} 這樣的二元數據,當丟掉 y 座標時,降維之後的資料就會混在一起。

另一個方面,如果好壞指的是模型/演算法對於資料的分群結果是否良好,那麼,其實有不少指標可以用來評估, scikit-learn 套件的說明書其實就有提到:

如果要問的是特徵是否全部使用,或是要使用哪一些,才能保證後續演算法的結果比較有機會穩定,那麼,通常會先對特徵做相關度分析(如:計算特徵的相關係數矩陣)或其他的特徵工程,來確保資料特徵是有"充分性"的

那想請問~像 Silhouette score可以衡量這個分群的結果是否好壞吧
但似乎通常是用在K群的比較(要分幾群)
那當特徵不同時可以比較嗎~例如這次有5個特徵要分3群 & 8個特徵分3群
他們是可以比較的嗎~還是基準點不同 所以不行?~請問能有什麼原因呢

因為丟掉不同特徵之後的距離(或群的相似性)並不一定有相同的單位了,所以看起來可以比較,但不一定有意義了

2個讚