聚類算法通常不使用訓(xùn)練數(shù)據(jù),只要計算對象間的相似度即可應(yīng)用算法。這在機器學(xué)習領(lǐng)域中被稱為無監(jiān)督學(xué)習。
某大型保險企業(yè)擁有海量投保客戶數(shù)據(jù),由于大數(shù)據(jù)技術(shù)與相關(guān)人才的緊缺,企業(yè)尚未建立統(tǒng)一的數(shù)據(jù)倉庫與運營平臺,積累多年的數(shù)據(jù)無法發(fā)揮應(yīng)有的價值。企業(yè)期望搭建用戶畫像,對客戶進行群體分析與個性化運營,以此激活老客戶,挖掘百億續(xù)費市場。眾安科技數(shù)據(jù)團隊對該企業(yè)數(shù)據(jù)進行建模,輸出用戶畫像并搭建智能營銷平臺。再基于用戶畫像數(shù)據(jù)進行客戶分群研究,制訂個性化運營策略。
本文重點介紹聚類算法的實踐。對用戶畫像與個性化運營感興趣的親們,請參閱本公眾號其他文章。
Step 1 數(shù)據(jù)預(yù)處理
任何大數(shù)據(jù)項目中,前期數(shù)據(jù)準備都是一項繁瑣無趣卻又十分重要的工作。
首先,對數(shù)據(jù)進行標準化處理,處理異常值,補全缺失值,為了順利應(yīng)用聚類算法,還需要使用戶畫像中的所有標簽以數(shù)值形式體現(xiàn)。
其次要對數(shù)值指標進行量綱縮放,使各指標具有相同的數(shù)量級,否則會使聚類結(jié)果產(chǎn)生偏差。
接下來要提取特征,即把最初的特征集降維,從中選擇有效特征放進聚類算法里跑。眾安科技為該保險公司定制的用戶畫像中,存在超過200個標簽,為不同的運營場景提供了豐富的多維度數(shù)據(jù)支持。但這么多標簽存在相關(guān)特征,假如存在兩個高度相關(guān)的特征,相當于將同一個特征的權(quán)重放大兩倍,會影響聚類結(jié)果。
我們可以通過關(guān)聯(lián)規(guī)則分析(Association Rules)發(fā)現(xiàn)并排除高度相關(guān)的特征,也可以通過主成分分析(Principal Components Analysis,簡稱PCA)進行降維。這里不詳細展開,有興趣的讀者可以自行了解。
Step 2 確定聚類個數(shù)
層次聚類是十分常用的聚類算法,是根據(jù)每兩個對象之間的距離,將距離最近的對象兩兩合并,合并后產(chǎn)生的新對象再進行兩兩合并,以此類推,直到所有對象合為一類。
Ward方法在實際應(yīng)用中分類效果較好,應(yīng)用較廣。它主要基于方差分析思想,理想情況下,同類對象之間的離差平方和盡可能小,不同類對象之間的離差平方和應(yīng)該盡可能大。該方法要求樣品間的距離必須是歐氏距離。
值得注意的是,在R中,調(diào)用ward方法的名稱已經(jīng)從“ward”更新為“ward.D”。
library(proxy)
Dist <- dist(data,method='euclidean') #歐式距離
clusteModel <- hclust(Dist, method='ward.D')
plot(clusteModel)
根據(jù)R繪制的層次聚類圖像,我們對該企業(yè)的客戶相似性有一個直觀了解,然而單憑肉眼,仍然難以判斷具體的聚類個數(shù)。這時我們通過輪廓系數(shù)法進一步確定聚類個數(shù)。
輪廓系數(shù)旨在對某個對象與同類對象的相似度和與不同類對象的相似度做對比。輪廓系數(shù)取值在-1到1之間,輪廓系數(shù)越大時,表示對應(yīng)簇的數(shù)量下,聚類效果越好。
library(fpc)
K <- 3:8
round <- 30 # 避免局部最優(yōu)
rst <- sapply(K,function(i){
print(paste("K=",i))
mean(sapply(1:round,function(r){
print(paste("Round",r))
result<- kmeans(data, i)
stats<- cluster.stats(dist(data), result$cluster)
stats$avg.silwidth
}))
})
plot(K,rst,type='l',main='輪廓系數(shù)與K的關(guān)系',ylab='輪廓系數(shù)')
在輪廓系數(shù)的實際應(yīng)用中,不能單純?nèi)≥喞禂?shù)最大的K值,還需要考慮聚類結(jié)果的分布情況(避免出現(xiàn)超大群體),以及從商業(yè)角度是否易于理解與執(zhí)行,據(jù)此綜合分析,探索合理的K值。
綜上,根據(jù)分析研究,確定K的取值為7。
Step 3 聚類
K-means是基于距離的聚類算法,十分經(jīng)典,簡單而高效。其主要思想是選擇K個點作為初始聚類中心, 將每個對象分配到最近的中心形成K個簇,重新計算每個簇的中心,重復(fù)以上迭代步驟,直到簇不再變化或達到指定迭代次數(shù)為止。K-means算法缺省使用歐氏距離來計算。
library(proxy)
library(cluster)
clusteModel <- kmeans(data, centers = 7, nstart =10)
clusteModel$size
result_df <- data.frame(data,clusteModel$cluster)
write.csv(result_df, file ="clusteModel.csv", row.names = T, quote = T)
Step 4 聚類結(jié)果分析
對聚類結(jié)果(clusteModel.csv)進行數(shù)據(jù)分析,總結(jié)群體特征:
cluster=1:當前價值低,未來價值高。(5.6%)
cluster=2:當前價值中,未來價值高。(5.4%)
cluster=3:當前價值高,未來價值高。(18%)
cluster=4:當前價值高,未來價值中低。(13.6%)
cluster=5:高價值,穩(wěn)定群。(14%)
cluster=6:當前價值低,未來價值未知(可能信息不全導(dǎo)致)。(2.1%)
cluster=7:某一特征的客戶群體(該特征為業(yè)務(wù)重點發(fā)展方向)。(41.3%)
根據(jù)分析師與業(yè)務(wù)團隊的討論結(jié)果,將cluster=1與cluster=6進行合并,最終得到6個客戶群體,并針對客戶群體制訂運營策略。
客戶分群與運營策略
(業(yè)務(wù)敏感信息打碼)