徐小良:
接下來我們有請張洪忠教授,他是北京師范大學(xué)新聞傳播學(xué)院的副院長,傳播效果實驗室主任,他給我們演講的題目是《網(wǎng)絡(luò)數(shù)據(jù)挖掘應(yīng)用和限制》,大家掌聲歡迎!
張洪忠:
非常感謝劉德寰教授的邀請,能夠到這里來跟大家一起交流。前面的專家、學(xué)者,他們從信息技術(shù)的角度探討問題。今天我想從社會科學(xué)角度來看待大數(shù)據(jù)。
今天我們所說的很多大數(shù)據(jù),其實是基于網(wǎng)絡(luò)發(fā)展而產(chǎn)生興起的。真正的大數(shù)據(jù),比如說人口數(shù)據(jù)等等,真正的大數(shù)據(jù)之前都存在,但是在網(wǎng)絡(luò)技術(shù)之前沒有把它提出來。今天我想講《網(wǎng)絡(luò)技術(shù)的應(yīng)用于限制》。
我們所說的網(wǎng)絡(luò)數(shù)據(jù)可以分為五種類型,今天能夠從互聯(lián)網(wǎng)上拿到的數(shù)據(jù),一種是傳統(tǒng)的調(diào)查,我們有三種方式獲得樣本,我們以導(dǎo)流量的方式獲得樣本。我們直接從淘寶和微博里面入口端導(dǎo)流量,這個流量是很大的。但是它有一個很大的問題,我們的量大、速度很快,但是我們不知道總體在哪里,我們沒有推斷性,它是非概念的樣本。剛好這幾周我正在上研究方法的課,講抽樣和概念的問題,我讓同學(xué)們把互聯(lián)網(wǎng)上的評論找出來,各個公司所發(fā)布的數(shù)據(jù)90%是非概念的大數(shù)據(jù),號稱大數(shù)據(jù),其實也不是大數(shù)據(jù),是沒有推斷性的。
雖然這個數(shù)據(jù)很大,我們經(jīng)常導(dǎo)流量樣本,但是都是非概念的,它沒有任何的推斷性,只能說樣本怎么樣,不能說網(wǎng)民怎么樣,也不能說別人怎么樣。
從樣本庫中獲得數(shù)據(jù),樣本庫里面號稱有七百萬的樣本庫,通過郵件來抽樣得到,這些僅僅可以得到總體,但是總體是六百萬或者是七百萬推斷。但是總體本身的質(zhì)量怎么樣,樣本庫里面,比較好的方法,我們是做追蹤的研究、比較的研究。但是我們對總體的推斷,其實也是有效的。
我們通過滾雪球的方式,我們所謂的互聯(lián)網(wǎng)數(shù)據(jù),我們從互聯(lián)網(wǎng)的調(diào)查來獲得樣本。網(wǎng)絡(luò)的點擊量,我們通過PV、UV值,通過這些來得到數(shù)據(jù)。比如說點擊量怎么樣,自媒體的排行榜,其實就是PV、UV的點擊量。但是我們也是基于某一個網(wǎng)站,我們不知道藍海在什么地方。
社交媒體數(shù)據(jù)的應(yīng)用,我們通過社交媒體來挖掘社會關(guān)系,但是這種社交媒體的挖掘,我們僅僅是挖掘就算了,我們不知道怎么分析它。比如說長安馬自達,我們具體做的時候要畫圈,是哪些樣本,這些樣本會不會購買馬自達,怎么購買,我們一個一個篩出來,這就是社交媒體數(shù)據(jù)的挖掘。
我們網(wǎng)民語言數(shù)據(jù),微博和微信里面、新聞里面、評論、論壇信息,我們一般有兩種方法,我們采用的是傳統(tǒng)的內(nèi)容分析的編碼方法。第二種是自然語言的處理,我們通過數(shù)據(jù),比如說我們做騰訊汽車指數(shù)的時候,2012年給我們一個評論數(shù)量有一千多萬字,一臺機器是拉不動的。傳統(tǒng)的方法進行概念的抽樣,進行分析和編碼,然后形成整個圖譜進行分析。
第二種是情緒分析,但是自然語言的處理,有一個很重要的問題,自然語言的處理,我始終是懷疑,我們從來不知道我們的情緒是怎么樣的,恐懼怎么樣,憤怒怎么樣,高興怎么樣。我們不知道它的解釋性有多大。所以我們也曾經(jīng)這樣做過一個測試,我們做自然語言處理以后,我們做人工編碼進行人工的內(nèi)容分析,我們發(fā)現(xiàn)其實有時候我們做結(jié)果比較接近,有時候差異是很大的,自然語言處理的時候我們面臨一個很大的問題,這是搖號的情緒分析。
網(wǎng)頁內(nèi)容的信息數(shù)據(jù),新聞網(wǎng)站、垂直網(wǎng)站發(fā)布的內(nèi)容,我們把內(nèi)容進行分析。第一種也是我們采用內(nèi)容分析傳統(tǒng)的方法進行編碼、處理、抽樣,第二種也是自然語言的處理,我們做關(guān)鍵詞情緒的分析等等。
也就是說,到目前我們所說的互聯(lián)網(wǎng)數(shù)據(jù)大概有五種數(shù)據(jù)的來源,這種來源里面,它各有各的缺陷,每種數(shù)據(jù)它的解釋都是有邊界的。網(wǎng)絡(luò)數(shù)據(jù)的應(yīng)用傳播,這些都是常用的案例。我們要解釋一些相關(guān)性,我們通過貼標(biāo)簽找到客戶,我們的需求,做預(yù)測等等,通過相關(guān)性的檢測進行分析,對時間緯度、空間緯度進行分析。
比如說騰訊汽車頻道,當(dāng)時我們團隊在2012年3月份,我們把騰訊所有的頻道十多萬條的信息,包括它的PV、UV、網(wǎng)址鏈接全部發(fā)給我們實驗室,我們把它架構(gòu)成一個模型,我們做一個騰訊汽車指數(shù),我們每個月會發(fā)布,這個指數(shù)是總的指數(shù)。我們還做了具體的細分市場的分析。比如說我們的排名,每一個品牌,每一款車,每個月可能有幾千張圖表,它發(fā)布的時候只發(fā)布前十名的圖表,這是簡單的應(yīng)用。
我們面臨這樣的應(yīng)用,我們說網(wǎng)絡(luò)的大數(shù)據(jù),我想跟大家分享的是,我們所說的目前所見到的網(wǎng)絡(luò)數(shù)據(jù),它存在哪些問題,我們在應(yīng)用的時候要反思。這是我們做網(wǎng)絡(luò)數(shù)據(jù)分析的時候面臨的理論模型問題。我們提出網(wǎng)絡(luò)數(shù)據(jù)的時候美國的連線雜志提出一個概念叫第四范式,我們以前遠古的時候鉆木取火,我們有神農(nóng)嘗百草,通過親身的體驗來感知這個世界,這是第一范式。
第二范式是我們發(fā)現(xiàn)有規(guī)律性的東西,于是有理論范式,由已知推測未知。后來隨著計算機科學(xué)的發(fā)展,我們到了第三范式,就是仿真科學(xué)的發(fā)展,我們通過仿真模擬和認(rèn)識世界。在08年的時候,美國的連線雜志提出數(shù)據(jù)洪流成為第四范式,也就是說這個時候我們不需要模擬,也不需要去理論它,我們直接從數(shù)據(jù)里面探索世界的本身,這是第四范式的產(chǎn)生。所有的理論假設(shè)已經(jīng)不需要了,我們直接從總體中得到一種結(jié)果。所以這里面提出這么一個問題,這個問題的提出對我們是極大的誤導(dǎo),為什么是誤導(dǎo)呢?
我們總體的問題,我們總是說抓數(shù)據(jù)是總體,這其實是誤導(dǎo),我前面講了有五種來源,其實這些數(shù)據(jù)都是有缺陷的,網(wǎng)絡(luò)上的數(shù)據(jù),它不是真正的大數(shù)據(jù),它是偽大數(shù)據(jù)的概念。即使在騰訊,它能夠推總體嗎?今天我們同樣在犯當(dāng)年的錯誤,我們拿到一個互聯(lián)網(wǎng)數(shù)據(jù),我們就說大數(shù)據(jù),這是對我們極大的誤差,因為我們實驗室也經(jīng)常做,我們在2014年連續(xù)做了三個月,我們把互聯(lián)網(wǎng)的數(shù)據(jù),我們做了數(shù)據(jù)分析,再做同樣的抽樣比較,我們發(fā)現(xiàn)差距有時候是很大的,所以總體性的問題我們要特別注意。
因果關(guān)系的問題也是這樣的,我們只需要相關(guān),不需要因果,這是極大的偏差,效率性的問題,我們都知道做數(shù)據(jù),數(shù)據(jù)清理是很大的問題,你清理到什么程度,怎么個清理水平,這里面又是一個問題,在大數(shù)據(jù)里面這些都沒有交代清楚。以及線上線下的差異問題,我們?nèi)魏蔚臄?shù)據(jù)都是有邊界的,包括大數(shù)據(jù),數(shù)據(jù)背后解釋也是需要分析的,我們需要有第二范式和第三范式結(jié)合的探討才是有效的。
這是騰訊指數(shù),這是所謂的頻道,每個頻道下面有很多數(shù)據(jù),當(dāng)時我們怎么做,我們眾多的數(shù)據(jù)來源,一大堆數(shù)據(jù)堆在實驗室,我們怎么取舍這些數(shù)據(jù),我們怎么做架構(gòu)這些數(shù)據(jù),我們用了TPB模型,一個人在互聯(lián)網(wǎng)上要產(chǎn)生購物的行為,學(xué)術(shù)界就開始研究,為什么會產(chǎn)生購物,有哪些緯度、哪些指標(biāo),每一種指標(biāo)的權(quán)重有多大。我們把這個模型再變形因為,我們再做出模型 提取指數(shù),這就是我們做的騰指指數(shù)。
大數(shù)據(jù)與模型的關(guān)系,磚廠與建筑師的關(guān)系,我經(jīng)常說互聯(lián)網(wǎng)產(chǎn)生了很多數(shù)據(jù),但是這個數(shù)據(jù)就像我們生產(chǎn)的磚廠一樣,生產(chǎn)了很多的磚,但是這個磚不是房子,我們要用模型來架構(gòu),我們要用磚,我們需要建筑師,我們要把它建成一個教堂,還是建成體育館,還是建成一座酒店,這就是同樣需要模型的架構(gòu)極其的重要。我們所有的數(shù)據(jù)分析,在一個很淺顯的層面,我們對社會沒有穿透力,而且數(shù)據(jù)的解釋力也是極其有限的。肆意我們在網(wǎng)絡(luò)快速發(fā)展的時候,其實現(xiàn)在更缺乏的是設(shè)計圖紙的建筑師,我們更加缺乏這些,我就跟大家分享這些,謝謝大家。