
徐小良:
接下來我們有請(qǐng)王錦鵬博士,王博士是北京大學(xué)網(wǎng)絡(luò)和信息系統(tǒng)的研究生,他是在讀的博士,他跟我們分享的是《網(wǎng)絡(luò)短文本中用戶意圖發(fā)現(xiàn)及其在商品推薦中的應(yīng)用》,掌聲有請(qǐng)!
王錦鵬:
謝謝大家,剛才聽到幾位大咖的演講受益匪淺,我班門弄斧,講一個(gè)我們最近在做的小應(yīng)用,就是微博和數(shù)字營銷相結(jié)合的應(yīng)用,是做商品精準(zhǔn)推薦的。
大家知道電子商務(wù)現(xiàn)在火的一塌糊涂,在電子商務(wù)中有一項(xiàng)比較重要的技術(shù),就是商品的推薦。下面這兩個(gè)圖,是在亞馬遜和京東上面的商品推薦圖。當(dāng)一個(gè)用戶在這些網(wǎng)站上進(jìn)行消費(fèi),我再次來到這個(gè)網(wǎng)站,這個(gè)網(wǎng)站給我做一些相關(guān)的推薦。
比如說這里我買了一個(gè)相機(jī),我國際天上這個(gè)網(wǎng)站,它給我推薦儲(chǔ)存卡等等。商品推薦的好處,它可以提升用戶體驗(yàn),有時(shí)候用戶不知道自己想買什么東西,但是網(wǎng)站就給我推薦一些東西出來,我一看很合適,然后我就買了。
另外一個(gè)好處非常明顯,它可以盤活電子商務(wù)網(wǎng)站的流量,也可以給電子商務(wù)網(wǎng)站帶來很多銷量的提升,這個(gè)好處非常的明顯。但是我們這里也意識(shí)到它的問題,就是電子商務(wù)網(wǎng)站它的推薦系統(tǒng)是集成在自己網(wǎng)站上的。也就是說,當(dāng)一個(gè)用戶他在這個(gè)網(wǎng)站上的時(shí)候,我可以給他推薦。但是如果他沒有來我這個(gè)網(wǎng)站,我沒法給他推薦,這就帶來一個(gè)問題。比如說現(xiàn)在我們很多人上網(wǎng)并不是每天都會(huì)去電子商務(wù)網(wǎng)站,我可能瀏覽是用郵箱,我可能用微信或者是微博,把我大多數(shù)在互聯(lián)網(wǎng)的時(shí)間都投入在社交網(wǎng)站上,而不是在電子商務(wù)網(wǎng)站上面。
這樣就帶來一個(gè)問題,比如說一個(gè)用戶我在社交網(wǎng)站上有買東西的意圖,這時(shí)候電子商務(wù)網(wǎng)站無法給精準(zhǔn)的推薦,這就錯(cuò)失了營銷的機(jī)會(huì)。我們也知道社交網(wǎng)站它的瀏覽量比電子商務(wù)網(wǎng)站高很多。
也有研究表明,用戶在社交網(wǎng)站上傾向于表達(dá)自己的意圖。大家可以想一想,很多人會(huì)在微博上表達(dá),我想買某種手機(jī),我想買攝影機(jī)讓大家來推薦,或者是大家看了某一部電視劇受到里面的影響,突發(fā)奇想跟朋友表達(dá)說,我也想買這樣的商品。
還有一個(gè)問題,在社交網(wǎng)站上面,可能會(huì)有很多用戶注冊(cè)的信息,用戶在網(wǎng)站上面會(huì)填寫自己的興趣、愛好、職業(yè)等等。用戶經(jīng)常說一些自己關(guān)注的話題等等。這些信息都是非常有用的,可以用來做精準(zhǔn)的營銷。
這是我們總結(jié)出的,目前傳統(tǒng)電商網(wǎng)站商品推薦的一點(diǎn)不足。在這樣一個(gè)實(shí)踐中,我們做了嘗試想聯(lián)合在線的社交網(wǎng)站,比如說微博、FaceBook等等來做精準(zhǔn)推薦,增大產(chǎn)品的曝光受眾率。
它的好處是在這些社交網(wǎng)站上,用戶的意圖能夠及時(shí)的捕獲進(jìn)來,進(jìn)而推薦,這兩類網(wǎng)站聯(lián)合也可以擴(kuò)大受眾面。這里有一個(gè)好處,就是可以大大的增大用戶的沖動(dòng)消費(fèi),用戶一旦在社交網(wǎng)站表露自己的意圖,我們馬上做精準(zhǔn)的推薦,讓他有更多的機(jī)會(huì)做沖動(dòng)消費(fèi)提升銷量。
目前我們做的嘗試就是在微博和京東做推薦,左邊這個(gè)圖是微博上用戶的信息。還有就是用戶表達(dá)說想買一個(gè)手機(jī),比如說這里所說的,他想給他媽媽買一個(gè)手機(jī),還提了要求。另外一個(gè)微博是受霧霾的影響,他想買口罩,我們可以用這些信息做精準(zhǔn)推薦,用戶的意圖也可以從文本里面捕獲。
還有一個(gè)很重要的特點(diǎn),微博它的更新量非常大,每天都是實(shí)時(shí)更新的,我們能夠非常及時(shí)的來捕獲用戶的意圖,這是很重要的點(diǎn)。右邊這個(gè)圖是京東上的用戶購買之后的商品評(píng)論,我們可以看到用戶可能會(huì)對(duì)它做一些評(píng)價(jià),它非常耗用等等各種特性,這是用戶的口碑評(píng)價(jià)。如果我們能夠把這些特性,以及用戶在微博上提的要求匹配上來,可以做更好的推薦。
另外一個(gè)很重要的點(diǎn),用戶說剃須刀是給她老公買的,我們從從評(píng)論里面推測(cè)到這樣一個(gè)商品,它的受眾是怎樣的群體??赡苓@個(gè)剃須刀是給中年人用的,有的是給老年人用的,我們可以從商品評(píng)論里面提取很多信息,一方面是商品的特性,一方面是商品的受眾。我們想聯(lián)合利用這兩種信息,利用商品的特性做精準(zhǔn)營銷,把用戶在微博上的注冊(cè)信息和商品的受眾進(jìn)行聯(lián)合,這樣兩層信息的聯(lián)合來做非常精準(zhǔn)的推薦。
先來看一下我們現(xiàn)在做的系統(tǒng),左邊這個(gè)圖是很多用戶發(fā)表的微博,里面有一些微博是平時(shí)的吐槽或者是帶有購買意圖的。比如說第二個(gè)微博,說他兒子想給他買一個(gè)手機(jī),他不知道買什么,想讓大家做一個(gè)推薦,這里我們提取他的需求,看他的注冊(cè)信息,他是一位年長(zhǎng)者,他想買一部手機(jī),他沒有提其他的需求。我們根據(jù)他的需求從京東購買評(píng)論里面做分析,分析哪一類手機(jī)適合這個(gè)年齡段的人來使用。從分析里面,我們發(fā)現(xiàn)偏暗色的手機(jī)比較適合年長(zhǎng)者使用,字體要大,而且是非智能手機(jī)。右下角的圖是我們給用戶推薦的商品列表,可以看到這些手機(jī)都是比較適合的。
第二個(gè)例子,這是一個(gè)人看了一部電影,他說他想買一部手機(jī),兩到三千塊錢,黑色的,這里我們提取它的需求,我們看這個(gè)人的注冊(cè)信息,他是金融男生,他想買手機(jī),還有他對(duì)顏色、價(jià)格都提出了一些需求恩,我們這邊進(jìn)而做一些推薦,這是非常符合他的需求的。
還有一個(gè)例子,這是一個(gè)男生,他想給他的女朋友買手機(jī),這不是他本人想買,是給他的女朋友買的。我們從評(píng)論里面挖掘,發(fā)現(xiàn)哪一類手機(jī)是適合女生使用的,進(jìn)而給他做一個(gè)推薦。目前我們支持一些偏自然語言和偏口語查詢的檢索,我們可以把這樣一個(gè)查詢,給女朋友的漂亮手機(jī)進(jìn)行查詢,最后反饋出來商品的檢索列表。
可以看到這里的查詢,我們把女朋友也擴(kuò)展到媳婦和女友的查詢?cè)~,外形好看也擴(kuò)展到了美觀或者是漂亮形容詞,增大檢索的效果。
這是京東的案例,它目前不支持這樣的口語化查詢,這是我們系統(tǒng)的技術(shù)點(diǎn),我可能不會(huì)講的太詳細(xì),系統(tǒng)主要由三部分構(gòu)成,一部分是微博用戶的意圖識(shí)別,我們需要實(shí)時(shí)識(shí)別出用戶的購買意圖,對(duì)那些有購買意圖的微博進(jìn)行商品推薦。最下面這部分是我們對(duì)每個(gè)商品和用戶綠色信息做一些挖掘儲(chǔ)存下來,以供在線推薦使用,中間這部分是在線推薦部分。
下面我們稍微點(diǎn)一下,在購買意圖識(shí)別方面,我們之前也做過很多的技術(shù)嘗試,我們最早是通過規(guī)則來做,后來我們發(fā)現(xiàn)規(guī)則有一些不足,用戶語言多邊有很多新的詞,后來我們用了自動(dòng)學(xué)習(xí)規(guī)則的技術(shù)來解決意圖識(shí)別的事情。
對(duì)擁護(hù)和商品信息的挖掘,我們這里是對(duì)大量的微博用戶信息和京東的購買記錄進(jìn)行挖掘的。比如說第一個(gè)圖是微博用戶信息,第二個(gè)是京東購買記錄里面的受眾信息。我們通過這兩種信息提取出各種屬性出來,最后對(duì)這兩種屬性進(jìn)行匹配,我們對(duì)三星手機(jī)做了受眾挖掘,可以發(fā)現(xiàn)這一部手機(jī)是白色的,可能是比較適合女生的。最后一個(gè)技術(shù)點(diǎn)是在線推薦部分,這是我們用一些決策樹分類排序做商品的排序和推薦,這是主要的工作。
最后做一個(gè)總結(jié),在小的嘗試中,我們實(shí)時(shí)檢測(cè)用戶微博中的購買意圖,對(duì)他進(jìn)行商品推薦。這是跨兩類網(wǎng)站的系統(tǒng),在線的社交引擎和商品,這兩類網(wǎng)站的推薦。它的技術(shù)其實(shí)不止適用于微博,也適合很多其他的場(chǎng)景。比如說QQ聊天場(chǎng)景、微信或者其他很多社交網(wǎng)站都是同樣適用的,我主要講這些內(nèi)容,謝謝大家。
提問:
在京東和微博上怎么樣識(shí)別這是同一個(gè)顧客呢?
王錦鵬:
如果能夠識(shí)別這兩個(gè)網(wǎng)站是同一個(gè)人,可以大大的增強(qiáng)推薦的效果。但是目前的數(shù)據(jù)是非常困難的,我們很難有一家公司同時(shí)能夠擁有這兩類網(wǎng)站的數(shù)據(jù),很難識(shí)別是同一個(gè)用戶,我們做的推薦其實(shí)是基于用戶注冊(cè)信息。比如說用戶他的專業(yè)或者是他的年齡、性別,我們采取這些注冊(cè)信息跟商品受眾進(jìn)行匹配,用這樣的信息來匹配做推薦,目前沒有做同一個(gè)用戶的匹配,我們避開了這個(gè)問題。
提問:
推薦系統(tǒng)很好,我問兩個(gè)問題,一個(gè)是你怎么評(píng)估你推薦的成功率,第二個(gè)是你如何做優(yōu)化提高推薦的效果呢?
王錦鵬:
目前我們所做的是離線評(píng)測(cè)的方法,舉一個(gè)例子,我們有京東大概幾億條購買數(shù)據(jù),我們只用幾千萬條來做訓(xùn)練,用后面的一個(gè)多億條做測(cè)試,來做離線的模擬,模擬推薦的效果好不好。目前我們正在跟一些公司談合作,如果成功以后我們可以做線上的測(cè)試,直接在真實(shí)的場(chǎng)景下來看看這個(gè)系統(tǒng)效果好不好。
第二個(gè)問題是增強(qiáng)推薦效果,目前我們主要是根據(jù)離線的實(shí)驗(yàn),以及比較好的基礎(chǔ)模型做對(duì)比看看效果好不好,以及增大用戶購買意圖的識(shí)別和特征提取等等這樣一些手段來提升推薦效果。
徐小良:
為什么王博士那么年輕站到第九屆雙年會(huì)重要的舞臺(tái)上,為什么在寶潔論文獎(jiǎng)里面設(shè)有學(xué)生組和專業(yè)組,不僅僅是因?yàn)檫@些年輕的精英對(duì)這塊有興趣和研究,同時(shí)也是我們行業(yè)的前輩們,他們?yōu)槲覀冃袠I(yè)培養(yǎng)新鮮血液,引領(lǐng)一些人愛上研究、癡迷研究,不斷的為我們這個(gè)行業(yè)輸送優(yōu)秀人才,發(fā)展和壯大我們的行業(yè),我們共同為行業(yè)的前輩們和年輕的新生代們鼓掌。