徐小良:
接下來我們請出的是北京大學(xué)計算機研究院的萬小軍教授,萬教授是北京大學(xué)語言計算和互聯(lián)網(wǎng)挖掘研究室的負責(zé)人,目前主要從事語義計算、文本生成與社交媒體挖掘方面的研究工作,他給我們介紹的是《面向社交媒體的情感分析技術(shù)和應(yīng)用》,同時他會介紹他們在這些方面取得的研究成果,掌聲有請萬教授!
萬小軍:
大家上午好!
我是學(xué)計算機的,是技術(shù)宅男,剛才聽到市場行業(yè)各種大咖的演講,我覺得他們的PPT做的很漂亮,宣傳片做的很漂亮。因為是技術(shù)宅男,所以更加側(cè)重技術(shù),在PPT的設(shè)計方面可能沒有太多的美化,我們還是具體來探討一下背后的技術(shù),我要講的是情感分析的關(guān)鍵技術(shù)。
互聯(lián)網(wǎng)讓我們知道大數(shù)據(jù),數(shù)據(jù)主要有兩種類型,一種是事實型的,比如說維基百科和新聞,因為它表達的是客觀的事實。另一種是社交媒體網(wǎng)站上的數(shù)據(jù),這些文本都是用戶生成文本,在用戶生成文本中,這里面的用戶,在文本中會表達針對各種各樣的觀點。為什么社交媒體上有很大的商業(yè)價值,主要是社交媒體上有海量的觀點文本。通過觀點文本的挖掘和分析,我們可以獲得海量用戶針對某一個特定對象,比如說針對一個產(chǎn)品的喜好和業(yè)務(wù),我們不需要再做一些調(diào)查、提一些問卷、打電話、詢問,當(dāng)然你的樣本量很小。所以我們認為海量的關(guān)鍵信息是社交媒體信息的核心價值之一,關(guān)鍵數(shù)據(jù)是社交媒體最重要的特色。
我們怎么樣獲取關(guān)鍵信息,從產(chǎn)品評論中或者從貼吧的貼子中,都可以看到這個人的分析,知道這個作者他對某個對象表達了特定的態(tài)度。我們不能全部用人工分析,因為工作量太大。我們怎么樣用計算機自動獲取這樣的關(guān)鍵信息,因為計算機的計算能力很強,它可以一天24小時不停的工作,它可以替代人來做這件事情。這里面的核心技術(shù),就是我們的情感分析和觀點挖掘技術(shù),這也是我們從2004年之后逐步發(fā)展起來的一門技術(shù),在自然語言里面處理很火的技術(shù)。
傳統(tǒng)的自然語言處理主要是研究句法和語義分析,對一個句子和文本了解它的主語和謂語是什么,我們需要用情感分析和觀點挖掘技術(shù),才能獲得這樣的信息。情感分析和觀點挖掘,它有幾種不同的子類技術(shù),最直接是褒貶的傾向分析,比如說文本、貼吧的貼子或者是博客,可以分為整體的傾向是褒義的、貶義的還是中性的。比如說把一個微博的帖子分為這樣七類,他可能表現(xiàn)其他的情緒,或者是厭惡的情緒或者是憤怒的情緒等等。
還有就是觀點抽取技術(shù),不光要判斷一個文本整體的傾向性。比如說這是有人對《港囧》發(fā)表的一篇微博,整體的傾向是貶義的。但是在這個文本中對不同的對象進行了評價,我用一個紅色的圓圈標(biāo)識出來,對片子有評價,對徐崢和趙薇、包貝爾都有評價,這是非常細膩的情感分析技術(shù)。
主要的方法,當(dāng)然這里面有很多不同的方法,計算機領(lǐng)域的人有很多在研究這樣的方法。主要有技術(shù)規(guī)則的方法,可以人工寫一些模板,寫一些規(guī)則,然后來判斷我們這樣的文本情緒,褒貶傾向。另外一個是機器學(xué)習(xí)的方法,人工標(biāo)注大量的數(shù)據(jù),較給機器學(xué)習(xí)的模型,讓他學(xué)習(xí)到分類器或者是觀點抽取的模型,用這樣的模型對海量的位置數(shù)據(jù)可以快速的做我們的情感分析和觀點的抽取。
這幾年發(fā)展的比較快的技術(shù),事實上技術(shù)深度的學(xué)習(xí)方法,也是我們基于機器學(xué)習(xí)方法的特例。深度學(xué)習(xí)這幾年特別火,這也是有很多人研究的。整體的情感分析技術(shù)水平,這個技術(shù)要根據(jù)不同的領(lǐng)域和不同的數(shù)據(jù)來決定。
比如說針對淘寶上的產(chǎn)品評論做的效果好一些,針對微博上的評論做的效果差一些。整體來講效果是70%到90%之間,針對不同的數(shù)據(jù)會有不同的結(jié)果。所以說不能籠統(tǒng)的說情感分析達到了90%或者說達到了70%,這是不對的,我們要給出特定的領(lǐng)域和特定的數(shù)據(jù),才能說出我們情感分析整體的效果。
情感分析的應(yīng)用其實有很多,大家有做市場研究的知道的比我多。我搜集了一些,也拍腦袋想了一些,有用戶畫像與精準(zhǔn)營銷、產(chǎn)品比較與推薦、個人與機構(gòu)聲譽分析、電視節(jié)目滿意度分析、用戶反饋分析、互聯(lián)網(wǎng)輿情分析語危機公關(guān)、未來的預(yù)測,你要預(yù)測一個電影票房,預(yù)測奧斯卡獎都是可以預(yù)測的。預(yù)測里面有一個重要的指標(biāo),就是情感分析的結(jié)果,把情感分析的數(shù)據(jù),結(jié)合其他的線索,我們可以準(zhǔn)確的預(yù)測到很多方面的情況。
舉例來說,這是關(guān)于IBM軟件的帖子,IBM研究院認為現(xiàn)在我們在做在線營銷效果不太好,主要還是做一些簡單的消費者年齡、性別,按這樣簡單的分類來做。實際上真正重要的是影響人們購買需求,我們要找到用戶深層的特寫,包括他們的人格特質(zhì)、價值觀和需求,我們需要利用情感分析的技術(shù),才能很好的找到他們的語音習(xí)慣和情感色彩,這樣可以刻劃他們的性格,這樣我們做精準(zhǔn)營銷就可以更加精準(zhǔn)了。
這個圖顯示對奧巴馬帖子分析的結(jié)果,越往上紅色部分代表的是越正面,越往下代表越負面,這是隨著時間演化的圖。我們可以看到不同的時間點,網(wǎng)民對于奧巴馬的評價可能是不一樣的,有的時候比較正面一點,有的時候比較負面一點,這個可以分析奧巴馬的支持率,通過這樣的技術(shù)手段可以分析。
在產(chǎn)品的比較和推薦中,我們也可以做出這樣的系統(tǒng),我們可以對汽車的產(chǎn)品評論抓下來做一個分析,分析我們評論中針對汽車是哪個方面,首先是評價,是滿意,還是不滿意。最左側(cè)是對于汽車的油耗、安全性、空間、動力各個方面做了統(tǒng)計分析,滿意的有多少條,不滿意的有多少條,這樣對購車來講很方便。如果你關(guān)注的是油耗,你看一下大家對油耗是不是滿意,這個可以很方便幫助大家購物,因為它專門針對汽車評論來做,這個領(lǐng)域比較窄,所以它做的效果比較好。
雅虎早期推出人物搜索,也可以對網(wǎng)上某一個人物的評論進行分析,分析出針對這個人物的好評或者是差評,這是針對周杰倫一些評論的帖子,它可以分析出帖子中對周杰倫好評的有多少條,差評的有多少條。比如說周杰倫是一個自戀的男生,這一條分析的結(jié)果是差評,因為這里面有自戀,可能是一個貶義詞,總體來說會基于情感分析的結(jié)果會得出關(guān)于某個人物的結(jié)果。
這是電視節(jié)目滿意度的調(diào)查,也通過了情感分析的技術(shù),當(dāng)然還有其他的因素來做這樣的事情,我們也參與到其中一屆滿意度的調(diào)查。高校微實力排行榜結(jié)果的分析,也會利用情感分析的結(jié)果,對高校在微信或者是微博上的互動,以及對它的評價來做一些分析。
我們需要有微博爬蟲或者是微信爬蟲,我們需要有觀點挖掘工具。微博用戶的情緒檢測,比如說我們從這個圖中,這是李開復(fù)的微博,分析他每一條微博的情緒,他是憤怒,還是高興,還是悲傷,還是憂愁,最后可以知道李開復(fù)整體的情緒,哪種情緒最多,哪種情緒占的比較少一點。我們可以知道李開復(fù)在什么時候它的情緒有些波動,它遇到的事情會導(dǎo)致它的情緒有波動。
微博評論的褒貶分析,然后分析每一條評論的褒獎,也做出這樣的環(huán)狀圖來,得到一個比例的結(jié)果。當(dāng)然我們可以把最重要的褒義、貶義的評論列出來作為代表性的評論。
在微博的觀點抽取上,我們也做了一個工具,我們把微博評論都抓下來,把主要的評價對象抓下來,然后再分析我們用戶這些帖子,針對每一個評價對象的評價結(jié)果。比如說這是畢福劍的一條微博,很多人會發(fā)表評論,這里面我們抽到很多相關(guān)的評價對象,比如說畢福劍,類似這樣的評價對象,我們最終對每一個對象有評價的結(jié)果進行分析。
用戶立場分析,我們要分析針對給定的對象,我們要分析一個微博的用戶,針對這個它的立場是什么,是支持,還是反對。這個跟前面的情感分析有點不一樣,比如說有一個人,用戶發(fā)表了一個帖子崔永元我支持你,我們分析這個帖子對轉(zhuǎn)基因的態(tài)度,他是支持轉(zhuǎn)基因,還是反對轉(zhuǎn)基因,他的立場是什么。我們需要分析崔永元屬于哪個派別,農(nóng)業(yè)部方舟子又是哪個派別,我們可以得到這個用戶的立場,這個也是挺有用的技術(shù)。
最后一個技術(shù)是用戶行動檢測,它不同于情感分析,有的時候我們需要判斷,微博是不是包含行動信息。比如說光盤行動號召,我們要判斷一個微博中,是不是包含跟光盤行動號召直接相關(guān)的行動,這里有兩個例子,藍色代表的是有行動的,它中午吃光了一大盤炒飯,這是光盤行動,我們把行動信息和關(guān)聯(lián)信息區(qū)別開來。
最終結(jié)合我們的技術(shù)也做了微博可視化分析平臺,把各種情感分析、用戶的各種屬性分析,以及關(guān)鍵詞的分析都做在同一個界面上,可以很方便的看到各個方面的情況,這個是放大之后。這是微博轉(zhuǎn)發(fā)的圖,這是針對透明計算帖子的轉(zhuǎn)發(fā),當(dāng)時轉(zhuǎn)發(fā)特別火,有一些比較重要的轉(zhuǎn)發(fā)節(jié)點,從圖上可以看的比較清楚,謝謝大家。
提問:
我想問一下,你最大的處理量和最小的處理量,告訴我一個區(qū)間范圍,曾經(jīng)用語義文本分析的模型。
萬小軍:
應(yīng)該有幾十萬都可以處理,你讓計算機跑,如果數(shù)據(jù)量大用多臺計算機都是可以的,它跟算法是沒有關(guān)系的,我們用多臺服務(wù)器都是可以的。但是有的技術(shù)不能實時的反饋結(jié)果,要等一段時間才能反饋結(jié)果。
提問:
因為我覺得語義分析是最難的一件事,你做明星的微博分析,最小數(shù)據(jù)量處理的是多少?
萬小軍:
一條都可以處理。
提問:
一條就沒有意義了。
萬小軍:
我們從算法的角度考慮,它需要處理一條,還是需要處理十萬條、一千萬條,只要用戶把數(shù)據(jù)拿過來都可以處理,對于算法來講沒有任何的差別,一條也好,幾十萬條也好都是一個算法,只不過放在不同的服務(wù)器上,讓服務(wù)器多跑一點時間。
提問:
如果這樣的話,你最多處理的是幾十萬條,你處理的時間需要多長時間,從原數(shù)據(jù)到出來的時候,需要大概的時長是多少?
萬小軍:
一臺機器跑的話可能得一天,如果想快用多臺機器,把數(shù)據(jù)分塊就可以了。
提問:
萬教授你好,我是貝恩公司的施雷,你剛才講到有開發(fā)微博和微信的爬蟲。我想問一下,除了微博和微信以外,其他哪些平臺你們也有檢測,包括國外和國內(nèi)。
萬小軍:
比如說貼吧和每個網(wǎng)站的評論,其實最難的是微博和微信,我們自己從外圍想辦法爬,這兩個是最難的,因為微信沒有開放的接口,把這兩個解決了,其他的很簡單。因為API有很多限制,所以我們沒有用API,比如說每天限制你爬多少條,不能滿足這樣的需求,所以我們會模擬手機瀏覽的過程,從外圍去爬這樣的技術(shù),沒有采用它的API,因為有很多限制。
徐小良:
謝謝萬教授。在市場研究行業(yè)近三十年的歷程里面,其實有不少的前輩曾經(jīng)做過我們自身擁有的市場研究專業(yè)技術(shù)和商業(yè)生意結(jié)合的實踐,有一些失敗的案例,也有一些成功的案例。