北京大學光華管理學院營銷系、商務統(tǒng)計與經(jīng)濟計量系
根據(jù)最近的一份調(diào)查數(shù)據(jù)顯示,美國互聯(lián)網(wǎng)媒體的市值已達10890億美元,是傳統(tǒng)媒體的3倍,類似的在中國,根據(jù)艾瑞咨詢發(fā)布的2014年第二季度網(wǎng)絡經(jīng)濟核心數(shù)據(jù)顯示,截止2014年6月30日,中國主要上市互聯(lián)網(wǎng)公司市值前五的為騰訊(1405.6億美元)、百度(654.5億美元)、京東(389.7億美元)、奇虎360(120.9億美元)、唯品會(111.9億美元)。與此同時,以Facebook,Twitter,微博,微信等為代表的社交網(wǎng)絡應用正蓬勃發(fā)展,開啟了互聯(lián)網(wǎng)時代的社交概念。據(jù)全球最大的社會化媒體傳播咨詢公司W(wǎng)e Are Very Social Limited分析指出,目前社交類軟件使用的人數(shù)已達25億——占世界總?cè)藬?shù)約的35%,另據(jù)艾瑞咨詢發(fā)布的2014年第二季度社區(qū)交友數(shù)據(jù)顯示,2014年5月,社區(qū)交友類服務月度覆蓋人數(shù)達到4.7億,在總體網(wǎng)民中滲透率為92.5%;2014年5月社交服務在移動App端月度覆蓋人數(shù)為1.9億人,其中微博服務在移動端優(yōu)勢較為明顯,月度覆蓋人數(shù)達到1.1億人;互聯(lián)網(wǎng)媒體和社交網(wǎng)絡是Web2.0時代兩個非常重要的應用,那么一個自然的問題是這兩個領域?qū)绾位影l(fā)展?本報告主要從數(shù)據(jù)分析(非財務、非戰(zhàn)略)的角度嘗試探討網(wǎng)絡結(jié)構(gòu)會給互聯(lián)網(wǎng)媒體帶來什么樣的機遇和挑戰(zhàn)。具體而言,我們根據(jù)自己的研究經(jīng)驗只關注以下幾個方面:新聞、影音和搜索,根據(jù)艾瑞咨詢發(fā)布的2013網(wǎng)絡經(jīng)濟核心數(shù)據(jù)顯示,這三部分的收入占到中國市值TOP20互聯(lián)網(wǎng)企業(yè)總市值的32.16%,其重要性不可忽視。我們通過具體的案例并結(jié)合理論前沿做探索性的研討。
一、音樂推薦
根據(jù)《2013中國網(wǎng)絡音樂市場年度報告》顯示,2013年底,我國網(wǎng)絡音樂用戶規(guī)模達到4.5億。其中,手機音樂用戶人數(shù)由2012年的0.96億增長到2013年的2.91億,年增長率達203%。從網(wǎng)絡音樂用戶規(guī)模的飛躍式增長可以看到音樂流媒體服務蘊含著巨大的商機。在國外,科技巨頭爭奪音樂市場的野心也初露端倪,今年年初,蘋果斥資30億美元買下Beats Electronics,而谷歌也隨后收購了流媒體音樂服務提供商Songza。
音樂產(chǎn)業(yè)在新媒體時代占據(jù)重要地位。本報告主要關注移動互聯(lián)網(wǎng)環(huán)境下在線音樂服務商(酷狗音樂、QQ音樂、天天動聽等)的發(fā)展現(xiàn)狀并且對當前的音樂個性化推薦提出我們的一些見解。
1.1 音樂推薦與社交網(wǎng)絡
根據(jù)國內(nèi)知名研究機構(gòu)CNIT-Research 8月份發(fā)布的《2014年第二季度中國手機音樂APP市場報告》的數(shù)據(jù)顯示,排名前三的手機音樂App為酷狗音樂、QQ音樂、天天動聽。他們所占的市場份額分別為:20.1%,17.0%以及15.8%。
酷狗音樂 QQ音樂 天天動聽
其中,酷狗音樂和天天動聽憑借在在線音樂領域長期積累的用戶資源、高品質(zhì)音質(zhì)、卓越的UI界面以及完美的下載體驗取勝。而QQ音樂主要依附強大的社交工具QQ應運而生,可謂是“社交音樂”領域的先驅(qū)者。從2014年第二季度手機音樂數(shù)據(jù)來看,QQ音樂增勢迅猛,連續(xù)三個月用戶下載量增速均超過行業(yè)增速水平,而酷狗音樂、天天動聽均增速低于市場行業(yè)增速,用戶市場份額有所下降。
根據(jù)速途研究院對手機音樂用戶愿景的調(diào)查顯示,有58%的用戶希望增強個性化音樂推薦的功能,這說明有很多用戶在收聽音樂時其實并不清楚自己喜歡什么類型的歌曲,如果音樂電臺能根據(jù)用戶的個人喜好“猜出”用戶喜歡什么歌曲并為其進行推薦,那將會給用戶帶來意想不到的完美體驗。目前的很多音樂軟件都支持推薦這一功能。以下是音樂App市場中常見的音樂產(chǎn)品的個性化推薦以及定制方式:
酷狗音樂 QQ音樂 天天動聽
根據(jù)研究,推薦模式主要分為以下幾種:(1) 熱點推薦,可以根據(jù)大眾的搜索記錄,通過排行榜的形式得到,也可以根據(jù)近期發(fā)生的音樂娛樂事件推薦,如中國好聲音、我是歌手等;(2)根據(jù)用戶的聽歌記錄推薦,包括用戶對每首歌的喜惡記錄;(3)根據(jù)地理位置信息結(jié)合用戶興趣進行推薦;(4)根據(jù)用戶喜歡的歌手信息進行推薦。但是,以上這些推薦模式都沒有能夠充分利用社交網(wǎng)絡的信息。在社交網(wǎng)絡風靡全球的時代,有越來越多的音樂服務商發(fā)現(xiàn),社交網(wǎng)絡可以幫助商家留住更多的用戶,同時,充分利用社交網(wǎng)絡信息將帶來更加卓越完美的用戶體驗??梢钥吹?,酷狗音樂和天天動聽都允許用戶使用第三方賬戶(微博、QQ)進行綁定登錄,并提供分享到微博、微信等選項;QQ音樂特設了“動態(tài)”專欄,用于顯示好友分享的音樂。另外,酷狗和QQ音樂都可以通過定位的方式推薦附近的志趣相投的好友。
酷狗音樂 QQ音樂 天天動聽
上述事實說明,社交音樂存在巨大的潛力和價值。那么,這一方面有無突出的企業(yè)呢?其中英國的Last.fm和中國的QQ音樂可以算得上是這方面的一個代表。
Last.fm QQ音樂
Last.fm是 Audioscrobbler 音樂引擎設計團隊的旗艦產(chǎn)品,有遍布232個國家超過1500萬的活躍聽眾。2007年被CBS Interactive以2.8億美元價格收購,目前,Last.fm是全球最大的社交音樂平臺。QQ音樂是中國互聯(lián)網(wǎng)領域領先的網(wǎng)絡音樂平臺及正版數(shù)字音樂服務提供商,在中國手機音樂市場所占份額躋身四大巨頭(其他三個分別是酷狗、天天動聽、酷我),月活躍用戶已達到3億,是中國社交音樂領域的領軍人物。
以QQ音樂為例,我們詳細分析它在利用社交網(wǎng)絡信息進行個性化推薦的優(yōu)勢與可能存在的不足。QQ音樂依附強大的社交工具QQ而生,長期以來受到廣大用戶的喜愛,這與QQ背后的億萬級用戶是無法割離的,可以說,QQ音樂是有先天的社交優(yōu)勢的。用戶登錄QQ音樂后,可以看到動態(tài)欄中顯示的好友音樂動態(tài),同時,它還允許用戶綁定自己的微博賬號,把音樂分享給微博好友。不僅如此,QQ音樂允許用戶自己編輯生成歌單,并分享給好友,這起到了一定的自媒體的作用。在“明星部落”這一功能中,QQ音樂允許粉絲之間交流互動,并形成一定的社交規(guī)模。從上述總結(jié)中,我們已經(jīng)可以看到,QQ音樂已經(jīng)有意識的把社交信息融合到產(chǎn)品設計和運營中,以增加客戶粘性。但是從數(shù)據(jù)分析的基礎和推薦算法的構(gòu)建上,是否真正做到有效利用社交網(wǎng)絡信息了呢?為此,使用QQ音樂于2012年全面更新升級的“猜你喜歡”功能,并發(fā)現(xiàn)了如下問題:當筆者沒有任何聽歌記錄時,這一模塊并不能為筆者推薦歌曲。根據(jù)提示內(nèi)容,目前該功能可能主要依靠用戶的歷史聽歌記錄進行推薦。同樣的問題出現(xiàn)在QQ音樂館的推薦欄中:大部分初始推薦音樂來源于當下熱門音樂歌曲,缺少個性化成分。
QQ音樂:猜你喜歡 QQ音樂館
以上事實說明音樂服務商在推薦算法上沒有充分利用社交網(wǎng)絡的信息。事實上,在獲得用戶個人綁定社交網(wǎng)絡賬號的基礎上,可以得到用戶的朋友關系,進一步可以獲得用戶好友的聽歌記錄,這些歌曲可以成為初始推薦曲目的備選項,將這些備選項通過一定規(guī)則(熱度、好友相似度)排序,可以用于音樂推薦;另外,眾所周知,社交網(wǎng)絡(如微博)是明星與粉絲互動的一個重要渠道,因此,可以重點提取用戶對于社交網(wǎng)絡中歌手以及音樂人的關注關系,以獲得對用戶偏好的推測。以上這些過程可以用下圖表示。
可以看到,在以社交網(wǎng)絡綁定的音樂社區(qū)中,每個人并不是孤立的個體,而是通過好友關系,以及粉絲與明星的關注關系聯(lián)系起來。音樂活動的多元化為QQ音樂的推薦場景帶來了新的挑戰(zhàn)。我們認為存在以下幾個需要處理的問題:(1)如何高效利用好友的音樂信息對用戶進行推薦?用戶的好友眾多,每個好友會留下很多音樂記錄,這些信息綜合起來的話數(shù)量極其龐大,如何迅速整合朋友及其收聽記錄并按照優(yōu)先程度排序?qū)τ脩暨M行推薦是提高用戶體驗的前提條件。(2)如何整合多種信息渠道進行推薦?隨著時間的推進,一個音樂賬戶留下的信息是多元化的。例如,用戶主動搜索的音樂記錄、用戶對歷史收聽音樂記錄的反饋,用戶選擇的電臺種類、用戶自己總結(jié)生成的歌單、用戶對朋友分享音樂的反饋信息等。因此,如何對這些異質(zhì)的信息來源進行有效整合,或者,在資源有限的情況下,如何判斷和篩選出對于提高推薦精度最有效的指標是提高音樂推薦效果的關鍵法寶。(3)如何整合當前音樂潮流趨勢與用戶個人興趣基因?音樂是充滿了潮流和娛樂性的產(chǎn)業(yè),因此,用戶的音樂興趣不僅受其自身興趣基因驅(qū)使,也受到當前音樂流驅(qū)使的影響。因此,如何結(jié)合用戶個人興趣以及音樂潮流趨勢對用戶進行有效推薦,是對于音樂這一特殊娛樂行業(yè)的特別要求。綜上我們認為QQ音樂雖然是利用社交關系進行音樂推薦的先驅(qū)者,但是在利用網(wǎng)絡數(shù)據(jù)的層面上仍有很大的改進和提升空間。
1.2 基于社交網(wǎng)絡的音樂推薦
在此我們給出如何利用網(wǎng)絡數(shù)據(jù)對用戶進行推薦的技術思想。由于音樂推薦場景實體的多元化,我們將常見的推薦場景列舉如下:推薦歌曲、推薦歌單、推薦電臺、推薦歌手、推薦用戶。接下來,我們將從音樂分類與結(jié)構(gòu)化、用戶信息整合、網(wǎng)絡結(jié)構(gòu)應用三個步驟詳細闡述我們的觀點。
音樂結(jié)構(gòu)化與歸一化
1.歌曲標簽化
首先,基于音樂的不同風格,我們需要對系統(tǒng)中存在的海量歌曲進行分類,通過打標簽的方式,使音頻信息通過文本的方式結(jié)構(gòu)化。分類的方法多種多樣,標準各異,從幾個音樂主流網(wǎng)站的標簽組織形式看來,主要從客觀、主觀兩個角度進行分析。從客觀的角度講,音樂可以按照流派、地域、年代、演奏樂器等方式分類,如“流行”、“搖滾”、“鄉(xiāng)村音樂”、“90后”、“鋼琴曲”等等,且大類下面可以設小類,如“流行”下可以設置“華語流行”、“歐美流行”等小類;從主觀的角度講,音樂風格與聽歌時的心情、場景高度相關,如分為“甜蜜”、“安靜”、“治愈”、“酒吧”、“咖啡館”等等,這種標簽使得用戶在聽音樂時仿佛有一種身臨其境的感覺,帶來更高的視聽享受。除此之外,標簽也可以由用戶自己生成,如用戶的熱搜關鍵詞記錄、用戶自行備注標簽等。這在一定程度上正是利用自媒體的形式擴充標簽庫,使之更能反應用戶興趣。
2.歌手信息提取
除了可以將歌曲標簽化,我們還可以進一步的對歌手信息進行提取。比如根據(jù)地域我們可以把歌手分為大陸、港臺、歐美等,根據(jù)年代可以分為60后、70后、80后歌手,根據(jù)他們的曲風可以分為搖滾、抒情、朋克等。通過打標簽的形式把歌手進行分類,從而形成結(jié)構(gòu)化的數(shù)據(jù)格式,方便以后快速清晰的定位用戶喜歡哪一類型的歌手。同樣的我們也可以對歌單、作詞者、作曲者進行標簽化處理,例如歌單的標簽可以模仿歌曲的形式,因為歌單是由歌曲組成,所以可以用歌曲的標簽來代表歌單的標簽。作詞者和作曲者的標簽可以參考歌手打標簽的方法,另外值得注意的是,由于音樂人之間形成合作、作曲、寫詞等合作關系,可以認為是一個社交網(wǎng)絡關系,常??梢砸姷降默F(xiàn)象是某些歌手與詞作者存在密切的合作關系,而這部分信息也可用于音樂的個性化推薦。例如,對于一些有特定合作的歌手和詞(曲)作者,我們應該特別留意,比如周杰倫和方文山這對組合。
3.歌詞的語義分析
歌曲的重要組成部分就是歌詞,由于歌詞屬于文本,我們不可能直接對其打標簽,所以首先要進行的是語義分析,通過語義分析我們可以大概知道歌詞的內(nèi)容,比如我們可以把歌詞切分成短語,然后對每一個短語進行歸納總結(jié),可以判斷短語的情感極性(如積極還是消極),對短語進行主題分類,由于歌詞數(shù)目龐大,可以利用自然語言處理的方式,如主題模型等預先提取主題,再通過人工加以校正。這樣就可以對歌詞進行標簽化處理了。下面我們以歌曲為例,簡要的說明具體標簽化過程。
通過標簽的形式我們可以對每個歌曲的主題予以分類和描述。用于描述一支單曲的標簽數(shù)目越多,對于音樂主題的描述就更加清晰、明朗;但同時,冗余和重復的信息也可能越多,處理的難度就越大。因此,我們要對標簽進行排序和篩選,一個比較簡單高效的辦法是選擇最熱門的N個標簽作為我們的目標詞庫,并且對該詞庫定期進行更新。具體來說,我們將所有標簽按照重要程度由高到低進行排序,選擇前p個標簽作為我們的標簽集合。給定一首歌曲t,我們用一個超高維向量Xt=(Xt1,…,Xtp)∈?p表示它的標簽信息,其中Xtj=1表示該歌曲含有第j個標簽,否則,該歌曲不含有第j個標簽。例如對于一首鋼琴曲演奏的純音樂,對其打的標簽可能是:鋼琴曲、安靜、咖啡館等。設鋼琴曲、安靜、咖啡館分別對應于標號為1、3、5的標簽,那么向量Xt可以表示為Xt=(1,0,1,0,1,0,…0) 。通過以上步驟,我們就可以把看似雜亂的音樂風格通過打標簽的形式進行結(jié)構(gòu)化,用一個只含0、1元素的超高維向量對每首歌曲進行分類。
對于歌單、電臺這些由歌曲集合而成的實體,我們也可以通過標簽的方式對其進行刻畫。例如,對于給定的一個歌單m,我們同樣用一個超高維向量Zm=(Zm1,…,Zmp)∈p表示它的標簽信息,假設歌單m包含第t首和第q首歌曲,那么計算Zm一個簡單的方法就是將Xt與Xq以某種方式進行組合(取平均等方式)。通過這種形式,我們將不同的音樂實體形式都歸一化到標簽的形式組織,并結(jié)構(gòu)化成標簽向量,用于建模和推薦。為了統(tǒng)一起見,將上述步驟處理過的歌曲、歌單、電臺等音樂實體統(tǒng)稱為“音樂”。所以本步驟的核心思想是:建立關鍵詞詞庫,將音樂標簽化,將形式歸一化。
用戶信息整合
在第一步中我們將音樂(歌曲、歌單等)進行了標簽化設置,這樣用戶聽到的推薦音樂其實背后都是有標簽的,用戶可以選擇喜歡(或不喜歡)推薦的音樂,有了標簽信息,我們就可以進一步的分析出對于一個特定的用戶,他喜歡聽含有哪些標簽信息的音樂?如果回答了這個問題,就解決了個性化推薦的問題。具體來說,假設有i= 1,2,…,n個用戶,對第i個用戶,推薦系統(tǒng)向其推薦過 首音樂。給定第k首音樂, 表示該音樂的標簽向量,這里定義1≤k≤ni 。用Yik代表用戶對音樂的反饋,其中,Yik=1代表用戶喜歡過該首音樂,否則用戶沒有喜歡過。在掌握這些數(shù)據(jù)的基礎上,我們試圖通過機器學習算法,建立Xik與Yik 的函數(shù)關系:
其中Yik=1 表示用戶i喜歡第k首音樂的概率。f(⋅)可以是一種合理的函數(shù)形式,而統(tǒng)計模型的任務就是根據(jù)已有的歷史數(shù)據(jù)對f(⋅) 進行估計,相應的參數(shù)估計(θi)便可理解成關于這個用戶的“基因”。例如,一個用戶的歷史瀏覽數(shù)據(jù)表明,他經(jīng)常收聽流行音樂,我們可以猜測“流行”這一標簽代表的基因?qū)υ撚脩舻臑g覽行為影響較大,那么就應該給他更多地推薦流行這一流派下的音樂。這樣我們把一個用戶的歷史收聽行為( Yik)和收聽的音樂信息( Xik)聯(lián)系起來,通過一部分的訓練數(shù)據(jù)集估計出相應的參數(shù),然后再根據(jù)統(tǒng)計模型來預測給定一首音樂(歌曲、歌單等),用戶選擇喜歡的概率有多大。這個步驟涉及統(tǒng)計模型的建立,具體需要的數(shù)據(jù)有:推薦音樂的標簽信息,用戶的歷史收聽行為。
網(wǎng)絡結(jié)構(gòu)應用
除了系統(tǒng)記錄的用戶歷史收聽數(shù)據(jù),我們還能利用哪些數(shù)據(jù)對用戶偏好進行預測呢?在以上模型中,對一個具體的用戶(例如: =張三)做推薦的時候,我們只用了張三自己的數(shù)據(jù)(即:Xik),而沒有用到其好友的數(shù)據(jù)。在音樂的社交性趨勢逐漸明顯的情形下,利用好友收聽數(shù)據(jù)對用戶偏好做推斷是一種可行措施。在具體實施過程中,音樂服務商已經(jīng)允許用戶在社交網(wǎng)絡上分享歌曲、創(chuàng)建歌單,并且對朋友的音樂分享予以反饋。這為從社交網(wǎng)絡數(shù)據(jù)入手分析和預測用戶偏好提供了現(xiàn)實基礎。而事實上,物以類聚,人以群分。信息傳播的定律告訴我們,一旦流行趨勢由點出發(fā),通過朋友網(wǎng)絡將極快的覆蓋整個用戶群體。這就意味著我們可以根據(jù)用戶好友的偏好來對用戶的偏好進行預測,同時更加準確的把握流行趨勢的信息融合;不僅如此,在社交網(wǎng)絡中,用戶與明星的關注關系對于推斷用戶的音樂興趣偏好也起著重要作用,例如用戶張三在微博上上關注了周杰倫,那么可以推測他在現(xiàn)實生活中也是周杰倫的粉絲,在推薦系統(tǒng)中,我們就可以更多的給他推薦周杰倫或者與之風格相似歌手的歌曲我們將網(wǎng)絡結(jié)構(gòu)數(shù)據(jù)引入到傳統(tǒng)的推薦算法中,可以幫助我們更準確的進行預測。那么如何獲取網(wǎng)絡結(jié)構(gòu)數(shù)據(jù)呢?
具體地,A=(ai1i2)∈?N×N用 代表網(wǎng)絡結(jié)構(gòu)數(shù)據(jù),其中,ai1i2=1表示用戶I1與I2 是朋友關系,否則 與 不是朋友關系。一般來說,朋友的音樂興趣與用戶的音樂興趣存在一定的相關關系。那么,我們通過獲取用戶i的朋友的收聽數(shù)據(jù),以及用戶在社交網(wǎng)絡上關注的歌手信息。進而對當前用戶的歷史收聽數(shù)據(jù)進行有效補充。在此基礎上,可以改善上述模型:
其中, i表示用戶的朋友集合,即i={j;aij=1} ,i代表用戶關注的歌手集以及與這些歌手合作密切的歌手、作曲人、詞作者集合??梢钥吹剑陨夏P筒粌H用到用戶i的信息,并且用到了其好友j的信息,以及其關注的歌手信息,作為解釋性變量輸入系統(tǒng)。進一步,在信息得到增強的情形下,對于用于表征用戶基因的參數(shù) 的估計將更加準確。甚至,在某些情境下,即使系統(tǒng)不能獲得用戶i的歷史收聽記錄 ,推薦系統(tǒng)仍然能夠根據(jù)朋友信息及其關注的歌手信息進行有效推薦。這種推薦模式在用戶剛剛綁定QQ音樂并沒有產(chǎn)生閱讀行為時,起著舉足輕重的作用。這就為解決推薦系統(tǒng)的冷啟動問題提供了一種可行的解決方案。所以本步驟的關鍵是獲取用戶的好友關系并獲取好友相關的信息,這可能需要獲得微博、微信這樣的產(chǎn)品授權,由此提供網(wǎng)絡信息,然后利用這些信息進行更精準的推薦。
個性化推薦
現(xiàn)有個性化推薦算法的核心是通過產(chǎn)品以及用戶的歷史數(shù)據(jù)對消費者的偏好給予學習以及預測。但是,這樣的做法有以下重大缺陷。
第一、處理不了冷啟動問題。也就是說,對于一個新的用戶,我們沒有歷史數(shù)據(jù),如何推薦?這就可能出現(xiàn)前文中提到的問題,系統(tǒng)會提示用戶通過收聽歌曲增加歷史記錄。這在一定程度上會導致用戶體驗下降和流失。但是,如果我們擁有該用戶的社交網(wǎng)絡信息,在他的現(xiàn)有好友中能夠找到歷史數(shù)據(jù)充分的用戶,那么就可以基于上面討論的問題作出合理推薦,極大地解決冷啟動問題。
第二、無法適應用戶興趣的改變。隨著用戶的年齡、境遇以及經(jīng)歷的改變,用戶對于音樂的偏好程度是可能隨著時間變化的。但是如果只根據(jù)歷史記錄對用戶進行推薦,系統(tǒng)學習到用戶興趣的改變的速率可能是緩慢的。通過社交網(wǎng)絡的推薦可以使用戶接觸到的音樂范圍增加,給了用戶更多發(fā)現(xiàn)音樂的機會。QQ音樂的歌單、關注歌手等功能都是強社交性產(chǎn)品的一種表現(xiàn),利用用戶對朋友分享音樂的反饋,可以使系統(tǒng)敏感的檢測到用戶興趣的改變。
第三、推薦系統(tǒng)無法自適應的學習。音樂產(chǎn)業(yè)是一個充滿了潮流趨勢與個性化因素的產(chǎn)業(yè),正因如此,推薦系統(tǒng)除了學習用戶個人興趣之外,還需要不斷適應流行趨勢。比如,在“中國好聲音”和“我是歌手”流行之時,如果只利用歷史數(shù)據(jù),推薦系統(tǒng)在不進行人工干預的情形下很難為用戶主動推薦相關歌曲;但是,這種流行趨勢卻可以從朋友的主動分享和動態(tài)中擴散開來,因此,利用社交網(wǎng)絡信息進行推薦可以幫助推薦系統(tǒng)自適應地結(jié)合用戶個人興趣以及流行趨勢。
簡單總結(jié)一下。我們相信,卓越的產(chǎn)品設計理念、高精度個性化音樂推薦以及優(yōu)秀的用戶體驗是息息相關的。并且,在某種程度上,他們是可以相互增強的。QQ音樂在產(chǎn)品設計中融合了多元化的社交網(wǎng)絡理念,這為社交網(wǎng)絡信息在數(shù)據(jù)分析中的應用提供了堅固的基石,反過來,通過高精度的個性化音樂推薦又不斷增速產(chǎn)品的更新迭代,以及用戶體驗的升級。我們認為,在把握好用戶對音樂基本需求的基礎上,個性化推薦將是未來音樂市場的一把利器。其中,有效融合社交理念,夯實數(shù)據(jù)基礎,提升推薦精度,將為未來音樂服務市場帶來巨大商機。
二、新聞推薦
本報告所關注的新聞主要指以文本為主要展現(xiàn)方式的門戶綜合網(wǎng)站(如新浪、騰訊、搜狐等)、專業(yè)新聞報道網(wǎng)站(如和訊網(wǎng),21世紀經(jīng)濟報道等)以及相關新聞類App(如今日頭條,無覓閱讀等),具體分析內(nèi)容如下。
2.1 新聞推薦與社交網(wǎng)絡
根據(jù)App Store新聞類免費排行榜顯示,移動端排名最靠前的三大新聞類App是騰訊新聞,網(wǎng)易新聞,新浪新聞。
對于每一個App而言,為了增加客戶的粘性和用戶的體驗,除了每個App自設的一些新聞頻道外,他們常常會對用戶推薦一些新聞信息,常見的推薦展現(xiàn)形式有:
騰訊新聞 網(wǎng)易新聞 新浪新聞
根據(jù)我們的研究經(jīng)驗,我們認為其推薦的機制有:(1)大眾熱點推薦;(2)根據(jù)用戶以前看過的內(nèi)容(或點贊、收藏的內(nèi)容)進行推薦;(3)根據(jù)看過類似新聞的人還看過什么來對用戶進行推薦??梢愿惺艿降氖悄壳暗耐扑]機制仍有很大的提升空間,對于絕大多數(shù)用戶來說,他們并不會在這些新聞類App上提供自己的社交信息,因此這些推薦都沒有利用到來自好友的信息,假設我們可以了解到用戶的社交網(wǎng)絡,那么可以有以下重要的好處:當用戶使用微博賬號或QQ賬號登錄App時,就可以獲取該用戶的好友關系,通過分析你的好友最近在關注的內(nèi)容,可以預測你感興趣的內(nèi)容,這樣就可以解決個性化推薦中一個非常重要的問題:冷啟動。在這方面有無可以關注的重要企業(yè)呢?其中美國的Flipboard和中國的今日頭條可以算得上是這方面的一個代表。
特別值得關注的是,這兩個App目前做的都非常成功,例如,作為一直以將社交網(wǎng)絡等社會化媒體整合著稱的Flipboard于2013年底宣告用戶總數(shù)突破1億大關,并獲得5000萬美元的C輪融資,估值約為8億美元;于2012年創(chuàng)立的后起之秀今日頭條目前也擁有1.2億激活用戶,2014年,今日頭條一舉拿下1億美元融資,增勢迅猛,不可小覷。這兩個App的一個共同之處是他們允許用戶使用他們當前的社交網(wǎng)絡賬號綁定(如Facebook、微博等),如下圖所示。
以今日頭條為例,我們詳細分析他們在數(shù)據(jù)層面的優(yōu)勢,例如,當用戶為今日頭條綁定了微博賬號時,他們就可以輕松獲取用戶在微博上的個人信息及好友情況,可以知道用戶的好友在微博上都了些什么,由此一來,看似獨立的今日頭條個體用戶,通過微博賬號的綁定,就變成了有網(wǎng)絡結(jié)構(gòu)的群體,下圖就生動形象的展現(xiàn)了這一數(shù)據(jù)層面的轉(zhuǎn)變。
可以看到在傳統(tǒng)的登錄方式中,用戶被當成了獨立的個體,他們每一個人只是今日頭條的一個獨立用戶而已,如果綁定了微博賬號之后,我們就可以獲得好友關系(例如上圖右側(cè)小人之間的連線表明二者是好友關系)和好友的動態(tài)(如云狀對話框里展示了好友最近的關注動態(tài)),中國有句古話叫“物以類聚,人以群分”,我們會發(fā)現(xiàn)通常情況下越是相似的人,他們關注的話題也就越相似,如此一來,我們就可以根據(jù)用戶的好友關注情況為該用戶進行新聞推薦,這在一定程度上能夠解決許多此類應用的冷啟動問題。
2013年,張一鳴在接受采訪時對今日頭條的推薦系統(tǒng)構(gòu)建進行了簡述:今日頭條會在用戶綁定微博后的 5 秒鐘之內(nèi)為用戶建立起一個 DNA 興趣圖譜。同時他也允許用戶使用多社交網(wǎng)站的賬號進行綁定,在個人動態(tài)中會滾動出現(xiàn)這些好友的一些信息動態(tài)。以上這些都是今日頭條的優(yōu)勢所在,但是我們認為能真正的做好這幾點今日頭條仍然面臨著一些挑戰(zhàn):①推薦的時候能否進行快速的線上計算是決定推薦速度的一個重要因素;②如何進行多賬號之間的數(shù)據(jù)融通和整合對充分挖掘好友關系并進行精準推薦具有重要作用;③如何應用好友對我的影響進行動態(tài)推薦信息中的排序是提高用戶體驗的另一個重要方式??偨Y(jié)以上優(yōu)勢和挑戰(zhàn),我們認為今日頭條雖然是利用社交關系進行新聞推薦的先驅(qū)者,但是在利用網(wǎng)絡數(shù)據(jù)的層面上仍有很大的改進和提升空間。
2.2 基于社交網(wǎng)絡的新聞推薦
在此我們結(jié)合自己的知識和研究經(jīng)驗,給出如何利用網(wǎng)絡數(shù)據(jù)對用戶進行推薦的技術思想。接下來,我們將從新聞分類與結(jié)構(gòu)化、用戶信息整合、網(wǎng)絡結(jié)構(gòu)應用三個步驟詳細闡述我們的觀點。
新聞結(jié)構(gòu)化
首先,我們要對系統(tǒng)中存在的海量文章進行分類,使看似紛繁復雜的文本信息結(jié)構(gòu)化。為此我們需要對每篇文章的主題進行總結(jié)并分類。分類的方法多種多樣,比如我們可以先將主題分為幾個大類,大類下面增設小類,每個小類包含不同關鍵詞集合。例如,“體育”是一個大類,在“體育”大類下可分為“足球”、“籃球”、“游泳”等小類,在標為“足球”的小類下又可包括“羅納爾多”、“國安”等這樣的關鍵詞信息。根據(jù)關鍵詞信息,我們可以對每一篇文章打上標簽。但是,由于主題和關鍵詞數(shù)目眾多,我們不可能把所有的關鍵詞拿來作為目標詞庫,一個比較簡單高效的辦法是選擇最熱門的N個關鍵詞作為我們的目標詞庫,并且對該詞庫定期進行更新。具體來說,我們將所有關鍵詞按照重要程度由高到低進行排序,選擇前p個關鍵詞作為我們的關鍵詞集合。給定一篇文章t,我們用一個超高維向量 Xt=(Xt1,…,Xtp)∈?p表示它的標簽信息,其中Xtj=1表示該文章含有第j個關鍵詞,否則,該文章不含有第j個關鍵詞。例如一篇描述旅游攻略的文章,對其打的標簽可能是:旅游、美食、驢友等。設旅游、美食、驢友分別對應于標號為1、3、5的關鍵詞,那么向量 Xt=(1,0,1,0,1,0,…,0)可以表示為 。通過以上步驟,我們就可以把看似雜亂無章的文本信息通過打標簽的形式進行結(jié)構(gòu)化,用一個只含0、1元素的超高維向量對每篇文章進行分類。所以本步驟的核心思想是:建立關鍵詞詞庫,將文章標簽化。
用戶信息整合
在第一步中我們將每篇文章進行了標簽化設置,這樣用戶看到的推薦文章其實背后都是有標簽的,用戶可以選擇閱讀(或不閱讀)推薦的文章,有了標簽信息,我們就可以進一步的分析出對于一個特定的用戶,他喜歡閱讀含有哪些標簽信息的文章?如果回答了這個問題,就解決了個性化推薦的問題。具體來說,假設有i= 1,2,…,n個用戶,對第i個用戶,推薦系統(tǒng)向其展示過ni篇文章。給定第k篇文章, Xik表示該文章的標簽向量,這里定義1≤k≤ni 。用Yik代表用戶對文章的反饋,其中,Yik=1代表用戶閱讀過該篇文章,否則用戶沒有閱讀過。在掌握這些數(shù)據(jù)的基礎上,我們試圖通過機器學習算法,建立Yik與 Xik的函數(shù)關系:
其中 P(Yik=1)表示用戶i喜歡第k篇文章的概率。 f(⋅)可以是一種合理的函數(shù)形式,而統(tǒng)計模型的任務就是根據(jù)已有的歷史數(shù)據(jù)對f(⋅) 進行估計,相應的參數(shù)估計(θi)便可理解成關于這個讀者的“基因”。例如,一個用戶的歷史瀏覽數(shù)據(jù)表明,他經(jīng)常瀏覽娛樂新聞,我們可以猜測“娛樂”這一標簽代表的基因?qū)υ撚脩舻臑g覽行為影響較大,那么就應該給他更多地推薦娛樂相關的新聞。這樣我們把一個用戶的歷史瀏覽行為(Yik)和瀏覽的文章信息(Xik)聯(lián)系起來,通過一部分的訓練數(shù)據(jù)集估計出相應的參數(shù),然后再根據(jù)統(tǒng)計模型來預測給定一篇文章,用戶選擇閱讀的概率有多大。這個步驟涉及統(tǒng)計模型的建立,具體需要的數(shù)據(jù)有:推薦文章的標簽信息,用戶的歷史瀏覽行為。
網(wǎng)絡結(jié)構(gòu)應用
除了系統(tǒng)記錄的用戶歷史瀏覽數(shù)據(jù),我們還能利用哪些數(shù)據(jù)對用戶偏好進行預測呢?在以上模型中,對一個具體的用戶(例如:i =張三)做推薦的時候,我們只用了張三自己的數(shù)據(jù)(即:Xik ),而沒有用到其好友的數(shù)據(jù)。大量的實證分析表明,在網(wǎng)絡中緊密相連的個體是高度相關的,具有很多的相似性。這就意味著我們可以根據(jù)用戶好友的偏好來對用戶的偏好進行預測,我們將網(wǎng)絡結(jié)構(gòu)數(shù)據(jù)引入到傳統(tǒng)的推薦算法中,可以幫助我們更準確的進行預測。那么如何獲取網(wǎng)絡結(jié)構(gòu)數(shù)據(jù)呢?
具體地,用 A=(ai1,i2)∈?N×N代表網(wǎng)絡結(jié)構(gòu)數(shù)據(jù),其中,ai1,i2=1 表示用戶i1與i2 是朋友關系,否則i1與i2 不是朋友關系。一般來說,朋友的閱讀興趣與用戶的閱讀興趣存在一定的相關關系。那么,我們通過獲取用戶i的朋友的閱讀數(shù)據(jù),進而對當前用戶的歷史閱讀數(shù)據(jù)進行有效補充。在此基礎上,可以改善上述模型:
其中, Ni表示用戶的朋友集合,即i={j;aij=1} ??梢钥吹?,以上模型不僅用到用戶i的信息,并且用到了其好友j的信息,作為解釋性變量輸入系統(tǒng)。進一步,在信息得到增強的情形下,對于用于表征讀者基因的參數(shù) 的估計將更加準確。甚至,在某些情境下,即使系統(tǒng)不能獲得用戶i的歷史閱讀信息Xik ,推薦系統(tǒng)仍然能夠根據(jù)朋友信息進行有效推薦。這種推薦模式在用戶剛剛綁定今日頭條并沒有產(chǎn)生閱讀行為時,起著舉足輕重的作用。這就為解決推薦系統(tǒng)的冷啟動問題提供了一種可行的解決方案。所以本步驟的關鍵是獲取用戶的好友關系并獲取好友相關的信息,這可能需要今日頭條與微博、微信這樣的產(chǎn)品合作,由合作企業(yè)提供網(wǎng)絡信息,然后今日頭條利用這些信息進行更精準的推薦。
個性化推薦
現(xiàn)有個性化推薦算法的核心是通過產(chǎn)品以及用戶的歷史數(shù)據(jù)對消費者的偏好給予學習以及預測。但是,這樣的做法有以下重大缺陷。
第一、處理不了冷啟動問題。也就是說,對于一個新的用戶,我們沒有歷史數(shù)據(jù),如何推薦?但是,如果我們擁有該用戶的社交網(wǎng)絡信息,在他的現(xiàn)有好友中能夠找到歷史數(shù)據(jù)充分的用戶,那么就可以基于上面討論的問題作出合理推薦,極大地解決冷啟動問題。
第二、用戶的興趣是改變的。過去用戶喜歡體育類新聞,可能以后不喜歡。另外,用戶的興趣隨著社會重大事件也會改變。一個對金融財經(jīng)沒有任何興趣的用戶,可能在金融風暴時期高度關注金融財經(jīng)新聞。而這些改變是很難在該用戶的歷史數(shù)據(jù)中被學習到的。但是,如果有社交網(wǎng)絡,那么這些大的趨勢就有可能首先被表達在他的朋友中。這就給了我們一個獨特的機會通過其朋友的變化,預知該用戶的興趣改變,并作出相應的推斷。
簡單總結(jié)一下。用戶體驗是產(chǎn)品設計的核心,而高精度推薦與用戶體驗息息相關。而社交網(wǎng)絡為新聞的高精度個性化推薦提供了一個新的信息來源,充滿機遇。相應的對網(wǎng)絡結(jié)構(gòu)的數(shù)據(jù)分析提出了挑戰(zhàn)。綜合上述三種途徑,我們認為,良好的數(shù)據(jù)結(jié)構(gòu)化方案是數(shù)據(jù)建模的基石,用戶信息的有效整合是數(shù)據(jù)建模的必備條件,合理利用網(wǎng)絡結(jié)構(gòu)是提高推薦精度的重要途徑。三輛馬車并駕齊驅(qū),必將帶來巨大的商業(yè)價值。
三、 基于社交網(wǎng)絡的其他應用
3.1 基于社交網(wǎng)絡的個性化標簽模型
近年來,社交網(wǎng)絡在全球范圍內(nèi)風靡,著名的社交網(wǎng)絡社區(qū)Facebook、Twitter對人們來說早已耳熟能詳。2014年,中國倍受歡迎的社交網(wǎng)絡平臺新浪微博在納斯達克上市,截至2014年3月,其月活躍用戶1.438億,日活躍用戶6660萬。社交網(wǎng)絡在帶來更多商業(yè)價值的同時也引發(fā)了更多的研究熱點,本部分主要探討微博中個性化標簽與社交網(wǎng)絡的關系建模。
3.1.1 社交網(wǎng)絡中的個性化標簽
那么,什么是社交網(wǎng)絡中的個性化標簽呢?個性化標簽是社交網(wǎng)絡用戶對于自身興趣、愛好、特征進行的短語描述。例如,上圖中的“社會關系網(wǎng)絡”、“教授”、“商務統(tǒng)計學”等短語就是用戶Jack的個性化標簽,從標簽中我們可以推測出用戶的職業(yè)、興趣、生活方式等。
社交網(wǎng)絡中的個性化標簽不僅可以用于表示用戶特征,另一方面,合理利用個性化標簽信息將在市場營銷等領域帶來巨大的商業(yè)價值。具體地,例如,帶有“美食”標簽的用戶極有可能對美食信息的促銷及優(yōu)惠活動產(chǎn)生興趣以及購買行為,因此,將類似促銷信息投放給這些潛在用戶將為企業(yè)帶來更高的轉(zhuǎn)化率及利潤率。
3.1.2 利用社交網(wǎng)絡信息進行標簽推斷
但是,盡管個性化標簽存在著巨大的商業(yè)價值,對于個性化標簽信息的直接利用仍然存在著一些問題。首先,用戶的個性化標簽可能是缺失的,例如,一個帶有“旅行”標簽的用戶可能同時也喜歡“美食”,但是“美食”這一標簽并沒有出現(xiàn)在用戶自注標簽的行列之中;其次,標簽信息可能是不準確的,例如,一個貼有“炒股專家”標簽的用戶并實際上不一定股市牛人,那么,如何鑒定用戶標簽的真實性呢?
社交網(wǎng)絡的信息可以幫助我們有效的解決這兩點問題。其特有的朋友關注信息是對標簽信息的有效補充,這一點可以用上圖中在相互關注的好友之間進行標簽補充看到。例如,一個喜歡“美食”的用戶雖然沒有把“美食”標簽納入自己的標簽集中,但是,從她的關注關系我們可以看到她關注了許多美食營銷賬號,如“下廚房”、“舌尖上的中國”等。通過這一信息我們可以推斷,該用戶對“美食”也有著濃厚的興趣。同時,利用社交網(wǎng)絡信息還可以幫助我們有效的鑒別用戶標簽信息真?zhèn)?。例如,如果從關注關系看到一個貼有“炒股專家”標簽的用戶沒有關注任何炒股公眾微博號,他的粉絲中也沒有炒股發(fā)燒友,那么,從一定程度上,我們可以推斷該用戶的“炒股專家”的標簽可能存在一定的謬誤。
然而,微博中有著上億的用戶,我們不可能用肉眼鑒別和推斷每一個用戶的標簽。有沒有一種高效并且易于計算的統(tǒng)計模型表征這一過程呢?在一篇最近研究社交網(wǎng)絡個性化標簽的文章中,采用了兩種估計方法(極大似然估計與條件極大似然估計),其主要思想是,假設社交網(wǎng)絡中的用戶之間的行為是成對獨立的,社交網(wǎng)絡中的對稱關系(互相關注和互不關注)與這一對用戶在標簽上表現(xiàn)的相似程度有關,例如,一對用戶都具有“美食”這一標簽,那么在此條件下他們有更高的概率成為朋友。具體地,可以把給定標簽下對稱關系的條件概率用標簽回歸的形式表達出來,通過估計回歸系數(shù)我們可以得知對應的標簽在推斷朋友關系中的重要程度;另一方面,改進上述估計方法,可以提高模型的計算復雜度。利用網(wǎng)絡稀疏性的特質(zhì),該文章提出了條件極大似然估計方法。社交網(wǎng)絡的稀疏性質(zhì)可以用下圖表示,可以看到大部分的用戶之間都是不存在相互關注關系的(Null Pair)。在給定網(wǎng)絡中的一對存在連接的用戶(也就是說,一對用戶之間存在雙向關注或者單向關注關系)的條件下,計算極大似然函數(shù)并估計參數(shù),可以大大降低了計算復雜度。
3.1.3 實際案例
為了闡述上述模型的建模效果,我們用一個實際案例加以說明。數(shù)據(jù)集由北大光華MBA的4554的微博賬戶信息組成,同時記錄了他們的關注關系。選擇標簽數(shù)目排名前10名的標簽作為我們的標簽集。 我們關心的問題是:哪些標簽對于推斷用戶好友關系的影響最大?
通過數(shù)據(jù)分析,得知鄰接矩陣的密度為0.41%,互相關注的密度約為0.22%??梢钥闯鲞@是一個高度稀疏的社交網(wǎng)絡關系。通過運用條件極大似然估計模型,我們得到如下的估計結(jié)果。
可以看到,其中,回歸系數(shù)(用條件似然方法估計)的估計值最高的幾個分別是:管理、MBA、營銷。這表明這幾個標簽在推斷用戶的朋友關系中起著重要作用。從這幾個標簽的字面意義上我們可以看到,人們通過興趣愛好、職業(yè)發(fā)展的一致性可以形成朋友關系,反過來說,這種朋友關系對于推斷用戶的興趣愛好也至關重要。數(shù)據(jù)分析結(jié)果從一定程度上也印證了該數(shù)據(jù)集的性質(zhì):MBA學生群。
綜上所述,我們認為,社交網(wǎng)絡結(jié)構(gòu)在微博個性化標簽建模中起著重要作用;反過來,利用標簽信息進行社交網(wǎng)絡結(jié)構(gòu)推斷也具有著潛在的應用價值。
3.2 基于社交網(wǎng)絡評估個體影響力
隨著明星等公眾人物在社交網(wǎng)絡上的活躍程度的日益增加,微博等社交網(wǎng)絡的“極化”現(xiàn)象也越來越明顯:一些主要的明星、大號掌握了主要的話語權以及控制輿論的能力。這是社交網(wǎng)絡影響力的表現(xiàn)之一,本部分主要探討如何利用網(wǎng)絡信息評估網(wǎng)絡中個體的影響力。
3.2.1 網(wǎng)絡影響力
社交網(wǎng)絡中的信息紛繁雜亂,網(wǎng)絡中的個體也表現(xiàn)出異質(zhì)性的特征。少數(shù)公眾人物的微博動態(tài)時時都受到關注,其一舉一動甚至可能影響整個輿論的走向。各大社交網(wǎng)絡平臺也紛紛推出熱力榜單等應用來對公眾人物的影響力進行排名,下圖是微博“明星勢力榜”排名結(jié)果:
我們不禁要問,評估人物影響力,有何價值呢?正因為少數(shù)用戶具有巨大的影響力,我們才更應該合理利用其影響力,而避免其巨大的影響力闡釋負面影響。例如,可以利用明星影響力推廣公益活動,那么將會在公眾中收到更好的宣傳效果;另一方面,又要防止有影響力的明星肆意傳播虛假、負面信息,造成不良影響。因此,關注具有影響力個體對于提升營銷效果、控制輿論信息等有巨大的作用。
關注高網(wǎng)絡影響力的個體不僅在社交網(wǎng)絡平臺中有著巨大應用,在其他的網(wǎng)絡關系中也有著舉足輕重的地位。例如,在移動通訊網(wǎng)絡中,某些個體通話量的提升能夠帶動整個通信網(wǎng)絡中總體電話量的提升,那么這些個體就應被鎖定為具有網(wǎng)絡影響力的個體。通訊公司應對其采取特別的營銷策略,以期留住這些核心用戶,從某種程度上說,這正也是利用了這些核心用戶的影響力,來防止更多的客戶流失。如下圖所示,可以看到核心用戶的流失對于移動通信服務商可能造成巨大損失,因為與核心用戶聯(lián)系緊密的用戶也可能隨之流失轉(zhuǎn)為其他服務。
核心用戶流失前 核心用戶流失后
3.2.2 評估網(wǎng)絡影響力
以通訊網(wǎng)絡中的個體影響力評估為例,計算在個體通話量中最有影響力的用戶。從直覺上說,移動通訊網(wǎng)絡中最有影響力的個體,應該與網(wǎng)絡中的大多數(shù)個體都有較大的相似性。這個現(xiàn)象用統(tǒng)計語言描述,就是最有影響力的個體與網(wǎng)絡中其他個體具有較大的協(xié)方差。假設網(wǎng)絡中共有p個個體,則協(xié)方差矩陣如下圖所示
估計協(xié)方差的方法多種多樣,最常用的是通過樣本協(xié)方差矩陣進行估計。但是這種經(jīng)驗方法在個體眾多的移動通信網(wǎng)絡中卻不適用,通常來說,移動通信網(wǎng)絡中個體個數(shù)都是數(shù)以萬計的,而對每個個體的觀測個數(shù)(如使用月數(shù))卻是有限的,因此經(jīng)典的協(xié)方差估計方法并不適用。
那么,在觀測值不足的情形下,是不是我們就束手無策了呢?一個沒有利用的信息來源就是網(wǎng)絡中存在的網(wǎng)絡結(jié)構(gòu)信息。大量研究表明,網(wǎng)絡中直接相連的個體(朋友關系)存在著一定相關性,回歸到這個問題,一個人的通話量可能與其好友的通話量存在著極大地相關性。設想一種極端的情形,假如當前用戶的朋友全部離開當前通訊網(wǎng)絡,那么該用戶極有可能也會離開當前通訊網(wǎng)絡。因此,利用社交網(wǎng)絡中的網(wǎng)格信息建模有利于更加準確的估計協(xié)方差矩陣。
假設網(wǎng)絡中存在i= 1,2,…,p個用戶。具體地,用A=(ai1,i2)∈?P\TIMESP 代表網(wǎng)絡結(jié)構(gòu)數(shù)據(jù),其中,ai1,i2=1表示用戶i1 與i2 存在通話,否則不然。我們稱A為鄰接矩陣。那么可以利用鄰接矩陣A的信息來推斷協(xié)方差矩陣Σ 的信息。在推斷過程中,不僅用到直接相連的朋友關系,我們可以大膽猜測,甚至于朋友的朋友的通話量對于估計協(xié)方差矩陣也起到一定作用。其中,“朋友的朋友”這種二度連接關系可以用鄰接矩陣的平方 A2表示。以此類推,協(xié)方差矩陣可能與 A,A2,?,Ad相關。因此,可以將協(xié)方差估計問題描述成一個協(xié)方差回歸問題:
因此,估計協(xié)方差就轉(zhuǎn)變成回歸系數(shù)β0,β1,?,βd 的參數(shù)估計問題。最近的一篇關于利用社交網(wǎng)絡信息估計協(xié)方差矩陣的學術文章對這個問題進行了探索,其主要思想在于在保證協(xié)方差矩陣正定的前提下,分別采用了最小二乘以及最大似然的方法對協(xié)方差矩陣進行估計。同時,該文章建議用BIC準則選擇模型的階數(shù)d。
3.2.3 實際案例
在此,我們結(jié)合實際案例,說明如何通過網(wǎng)絡信息尋找最有影響力個體。數(shù)據(jù)來源是四川大學大一學生的校園網(wǎng)絡,共包含6856個學生。記錄他們每人在2012年1月份的通話量,并且獲取他們相互之間的通話關系。
通過BIC的準則選擇模型的階,結(jié)果顯示模型最優(yōu)階為2,這表明截止到2度的連接關系都對協(xié)方差估計產(chǎn)生顯著影響,根據(jù)極大似然估計的結(jié)果如下:
通過上述結(jié)果我們可以看到,隨著階數(shù)的增加,鄰接矩陣的貢獻在此案例中減小,這也表明直接連接具有更大的價值和實際意義。定義網(wǎng)絡影響指數(shù),即個體j的網(wǎng)絡影響力是指該個體與其他個體的所有協(xié)方差之和。按照上述回歸結(jié)果,對影響力指數(shù)進行排序,結(jié)果顯示前22.8%的個體占據(jù)了整個網(wǎng)絡50%的影響力。這表明,移動通信企業(yè)可以有的放矢的針對不同用戶的影響力進行不同的營銷策略,主要留住具有核心影響力的用戶,將對通信企業(yè)的未來發(fā)展具有戰(zhàn)略性意義。
3.3 基于網(wǎng)絡結(jié)構(gòu)數(shù)據(jù)的客戶關系管理
客戶關系管理(Customer Relationship Management)一直都是企業(yè)營銷管理中的一個重要部分,客戶價值作為企業(yè)的一種無形資產(chǎn)備受管理者的關注,企業(yè)越來越意識到獲取新客戶固然重要,但是如何能最大程度的留住老顧客也是幫助企業(yè)提升客戶價值的一個重要途徑。老客戶對于企業(yè)有一定的忠誠度和粘性,如果企業(yè)能夠及時察覺到潛在的流失客戶并對其進行一定的挽留,那么花費的成本要比獲取新客戶花費的成本要少得多,所以建立必要的客戶流失預警體系對于保留有價值的客戶是十分必要的。有關客戶流失的研究在營銷領域并不是一個新的議題,以往有關客戶流失的研究主要是根據(jù)客戶自身的特征信息(如年齡、性別、收入、購買行為等)來預測他流失的概率。在沒有網(wǎng)絡數(shù)據(jù)時,我們認為這種預測方法已經(jīng)很好了,但是現(xiàn)在有了網(wǎng)絡數(shù)據(jù),我們認為在預測一個客戶流失可能性的時候要充分考慮他朋友的信息,因為個體并不是獨立存在于這個世界上的,朋友之間的互動會大大影響一個人在某個圈子的去留。最近在我們進行的一項有關手機用戶離網(wǎng)率的研究中發(fā)現(xiàn)了一些有趣的現(xiàn)象。
我們選取了國內(nèi)某大型通訊公司5萬左右的VIP用戶近3個月的基礎通話信息數(shù)據(jù)并對其離網(wǎng)率進行分析。我們關心的問題是什么樣的客戶更容易離網(wǎng)?對此我們有以下發(fā)現(xiàn),首先對于一些比較傳統(tǒng)的指標我們發(fā)現(xiàn):年齡越大的用戶越不容易離網(wǎng),入網(wǎng)時間越長的人越不容易離網(wǎng),延遲繳費的人越容易離網(wǎng)。在這些指標上,我們又引入了網(wǎng)絡信息的變量,具體的我們定義了測量一個用戶網(wǎng)絡結(jié)構(gòu)的三個指標:網(wǎng)絡中心度、網(wǎng)絡緊密度和網(wǎng)絡平衡度。其中網(wǎng)絡中心度用與該用戶有過通話的人數(shù)進行測量,我們發(fā)現(xiàn)一個用戶的網(wǎng)絡中心度越高,越不容易流失,因為他的好友很多,如果一旦離網(wǎng),會給他帶來很高的轉(zhuǎn)換成本。網(wǎng)絡緊密度我們用人均通話時長進行測量,分析結(jié)果表明人均通話時長越長,越不容易流失,這說明用戶的網(wǎng)絡緊密度越高,他在網(wǎng)絡中的粘性越大,也就越不容易離開。最后的網(wǎng)絡平衡度測量的是和一個人通話的所有人中通話時長的分布,簡單來說我們想看看一個人所有通話中他的通話時長是如何分布,是不是都集中在某幾個人身上,還是和每個人的通話時長都差不多,如果這個值越大,說明和他通話的人越集中(也就是說這個人只和那么有限的幾個人通話),如果這個值越小,說明和他通話的人越分散。我們發(fā)現(xiàn)該指標越大的人越容易流失,說明和他通話的人越集中,那么他要離網(wǎng)的話,成本并不高,因為只需通知幾個人即可。在具體的預測中我們也發(fā)現(xiàn)加入了這些網(wǎng)絡信息變量的模型要比傳統(tǒng)模型的預測精度有所提高。
在這個研究中我們比較感興趣的就是網(wǎng)絡平衡度這個概念,為此我們看上圖這個簡單的例子,假設左右兩邊的目標客戶他們的基本通話數(shù)據(jù)都一致,以往我們很少去關注一個人的通話分布,現(xiàn)在我們會發(fā)現(xiàn)左邊的客戶明顯有一個經(jīng)常聯(lián)系的對象(其中連線越粗表示二者聯(lián)系越緊密),而右邊的客戶基本和所有通話好友處于一個比較平均的狀態(tài).所以我們可以推斷左邊的目標客戶比右邊的目標客戶更容易離網(wǎng).
從該案例中我們可以看到網(wǎng)絡結(jié)構(gòu)數(shù)據(jù)可以幫助我們做傳統(tǒng)的客戶流失預測,從而幫助企業(yè)更好的進行客戶關系管理。
3.4 網(wǎng)絡結(jié)構(gòu)數(shù)據(jù)的抽樣與計算
在大數(shù)據(jù)風靡的這個時代人們普遍有兩種觀點,一是隨著存儲能力的提升我們在進行數(shù)據(jù)分析時可以不需要抽樣,二是隨著計算能力的提升,我們可以不依賴筆記本電腦,而在大型服務器上進行我們想要的計算。但是最為一個普通的科研工作者或是一家小型企業(yè)來說,購買大量的服務器進行存儲和計算顯然不是一件劃算的事情,即便是騰訊、百度這樣的大型互聯(lián)網(wǎng)企業(yè)也不可能每次都耗時耗力的把所有數(shù)據(jù)拿來算一遍。網(wǎng)絡數(shù)據(jù)更是非常龐大復雜,如何對其進行有效的抽樣和巧妙的計算是十分值得關注和研究的問題。我們在網(wǎng)絡數(shù)據(jù)的抽樣與計算上做了一點小小的嘗試,得出了自己的一些見解,在我們最近的一篇有關“基于抽樣網(wǎng)絡數(shù)據(jù)的空間自回歸系數(shù)的估計”的研究中,我們的研究發(fā)現(xiàn)通過滾雪球抽樣的方法可以提高對參數(shù)估計的精度,并且通過一些巧妙的計算方法可以使得看似繁雜的計算變得簡單易行。
網(wǎng)絡結(jié)構(gòu)信息可以幫助我們對用戶的行為進行推斷,推斷的基礎來源于我們認為“物以類聚、人以群分”,相似的個體之間會受到影響,例如,如果你的周圍都是信用記錄良好的人,那么你的信用應該也不會差,相反,如果你的周圍都是一些經(jīng)常欠賬不還的人,那么你有很大的可能信用也不會好。正如下圖所示,如果有了網(wǎng)絡結(jié)構(gòu)信息,那么我們就可以基于好友的行為對圖中兩個問號的個體的一些偏好進行推斷.
在此之前我們需要對一個群體中人與人之間的相互影響程度做一個判斷,將其定義為人與人之間的相互依賴度,這是我們關心的參數(shù),記為 。根據(jù)我們所獲得網(wǎng)絡結(jié)構(gòu)信息,利用空間自回歸模型對 進行估計,這里我們用一個網(wǎng)絡模型來簡單描述個體的偏好是如何形成的,如下圖,左側(cè)是一個高度簡化的網(wǎng)絡結(jié)構(gòu),其中紅線代表互相關注,藍線代表單向關注,如果有關注關系則在右側(cè)的的單元格里記為“1”,否則記為“0”。其中Y代表個體的偏好,我們認為好友的影響是有限的,所以如果我有四個好友,那么我受到的影響將是他們的平均影響, 則是我們關心的參數(shù):人與人之間的依賴程度。
我們將以上的描述用數(shù)學模型的形式展現(xiàn)出來,這就應用到了空間自回歸模型,如下圖所示,其中