
6月27日,由財視傳媒、傳播達人匯主辦的2017全球大數(shù)據(jù)傳播大會在京舉行。
中國傳媒大學新聞學院教授、大數(shù)據(jù)挖掘與社會計算實驗室主任沈浩博士出席大會,并發(fā)表以“大數(shù)據(jù)時代的可視化傳播”為主題的演講。
甫一開場,沈浩跟現(xiàn)場觀眾分享了一個他非常喜歡的視頻,一個人形機器人在跟著名主播聊天,主播問它,你有靈魂嗎?它說,我思故我在。他以此來解釋大數(shù)據(jù)通過語音識別對語義進行理解,形成豐富的知識庫。
提到大數(shù)據(jù)領(lǐng)域最熱的人工智能,沈浩舉例,兩個阿爾法狗下圍棋,輸贏不重要,重要的是它們要把所有的棋譜路徑都走完,互相訓練生成的對抗神經(jīng)網(wǎng)絡。
沈浩表示,深度學習技術(shù)會是一種新的算法革命,這種算法革命實際上得益于大數(shù)據(jù)的基礎發(fā)展。
作為中國傳媒大學新聞學院教授,沈浩還提到大數(shù)據(jù)在新聞業(yè)的應用。他透露,中國傳媒大學最早創(chuàng)建數(shù)據(jù)新聞專業(yè),今年第二次招生有4000多人報名。數(shù)據(jù)新聞是基于數(shù)據(jù)去發(fā)現(xiàn)新聞的一種模式,新聞后面的那些受眾并非都是博士、碩士,要讓人們瞬間理解大數(shù)據(jù)所呈現(xiàn)的東西,也是大數(shù)據(jù)的應用情景,很多人不做大數(shù)據(jù),但是能理解大數(shù)據(jù)。
他應用自己為新書《爆發(fā)》所寫的推薦語:這是一個令人興奮的時代,也是一個大數(shù)據(jù)的時代,數(shù)據(jù)科學讓我們越來越多地從數(shù)據(jù)中觀察到人類社會的復雜行為模式。以數(shù)據(jù)為基礎的技術(shù)決定著人類的未來,但并非是數(shù)據(jù)本身改變了我們的世界,起決定作用的是我們對可用知識的增加。
沈浩提到,人類行為的93%是可預知的。微博等社交媒體重塑了用戶的社會關(guān)系,基于社交媒體的社會關(guān)系重構(gòu),讓每個人的行為特征得以被追蹤。
沈浩還提醒用戶,微博轉(zhuǎn)發(fā)不要太隨意,理論上能夠知道任何一個人轉(zhuǎn)發(fā)和傳播過程中的角色、位置和作用。利用大數(shù)據(jù)建模技術(shù),他曾分析過雅安地震時在中國紅十字會微博下面大量讓它“滾”的用戶,因為想知道什么人在說“滾”,有沒有什么團伙。
他把大數(shù)據(jù)分成四個領(lǐng)域,一是數(shù)據(jù)科學,其中有人們關(guān)注的文本挖掘技術(shù)、情感挖掘技術(shù)、語義挖掘技術(shù);二是網(wǎng)絡科學,特別是人與人鏈接在一起的社會網(wǎng)絡或者是復雜網(wǎng)絡;三是空間地理科學的發(fā)展,特別是在GIS和智慧交通、智慧城市的發(fā)展上;四是可視化技術(shù),數(shù)據(jù)、信息、交互等方面的可視化。
最后,沈浩總結(jié)道,大數(shù)據(jù)領(lǐng)域有一種說法叫軟件定義一切、數(shù)據(jù)驅(qū)動未來、算法統(tǒng)治世界。而媒體現(xiàn)在會說,軟件定義媒體、數(shù)據(jù)驅(qū)動新聞,算法重構(gòu)人們挖掘新聞事件的渠道。如何從海量的數(shù)據(jù)中尋找隱藏在數(shù)據(jù)中的模式、知識和相關(guān)性,都需要更好的數(shù)據(jù)洞察能力。
附沈浩演講全文(經(jīng)財視media 編輯整理):
大家上午好!我的演講題目是“大數(shù)據(jù)時代的可視化傳播”,前段時間有一個大數(shù)據(jù)的報告,正好是一個十大最有影響力的大數(shù)據(jù)學者,我為什么想表達這樣一個概念呢——因為我在傳媒大學新聞學院,人家總說做新聞的、做傳播的老師怎么會懂大數(shù)據(jù)呢?
我想給大家分享一個我非常喜歡的視頻,一個人形機器人在跟著名主播聊天,主播問它,你有靈魂嗎?它說,我思故我在。
像這樣一個人形機器人它是怎么實現(xiàn)的呢?首先,今天在大數(shù)據(jù)支撐下,視頻已經(jīng)可以識別我在跟人聊天,在這個視頻上,這個機器人的臉、肌肉已經(jīng)有表情了。
當視頻,也就是圖像可以識別的時候,語音也可以識別。當語音能識別的時候,文本也就可以識別了,就能夠?qū)φZ義進行理解,形成豐富的知識庫。
今天大數(shù)據(jù)最熱的是AI人工智能,人工智能如何產(chǎn)生數(shù)據(jù)呢?對于文本,可以給它幾百萬的語料進行訓練。實際上現(xiàn)在有一種叫生成對抗的神經(jīng)網(wǎng)絡,讓兩個機器人互相聊天、互相訓練,這時候所有的數(shù)據(jù)是機器自己生成的。
大家想一想,如果一個阿爾法狗A跟阿爾法狗B一起下圍棋,這時候誰贏不重要,重要的是它們倆把所有棋譜的路徑都走完。所以這種生成的對抗神經(jīng)網(wǎng)絡,通過一個解碼,一個判別分析,可以生成更多的人工智能的改變。
所以我一直感覺深度學習技術(shù)是一種新的算法革命,而這種新的算法革命,實際上得益于我們大數(shù)據(jù)的基礎。
但是到底什么是大數(shù)據(jù)?媒體更熱的實際上像數(shù)據(jù)新聞、AR、VR,特別是現(xiàn)在能實現(xiàn)新聞或者叫機器人新聞寫作。因為機器表達對某一個專業(yè)知識領(lǐng)域的知識圖譜的建構(gòu),以及寫詩,特別是新聞的東西,也許這件事情馬上就會成功,特別是對中文。
這張圖上,全球每個地方只要有人發(fā)Twitter就有一個亮點,我們立刻可以感知到這個社會。我用了一個“感知”,你會發(fā)現(xiàn)很多人不做大數(shù)據(jù),但是會理解大數(shù)據(jù)。
大數(shù)據(jù)最能夠讓傳媒大學最早創(chuàng)建數(shù)據(jù)新聞專業(yè),今年第二次自主招生4000多人來報名。數(shù)據(jù)新聞是基于數(shù)據(jù)發(fā)現(xiàn)新聞的一種模式,新聞后面的那些受眾不都是博士、碩士,人們需要瞬間能夠理解大數(shù)據(jù)所呈現(xiàn)的東西,這個也是大數(shù)據(jù)的情景。
其實今天不光是我們?nèi)祟愃傻臄?shù)據(jù),現(xiàn)在還有各種傳感器在生成數(shù)據(jù),一個街區(qū)每一個點的傳感器。
前段時間有一本書叫《爆發(fā)》,當時他們請我寫推薦語:這是一個令人信服的時代,也是大數(shù)據(jù)時代,數(shù)據(jù)科學讓我們越來越多觀察到人類行為的復雜模式。以數(shù)據(jù)為基礎的數(shù)據(jù)決定著我們的未來,但不是數(shù)據(jù)本身,而是我們在數(shù)據(jù)的基礎上擁有更多可用數(shù)據(jù)的增加。
人類行為的93%是可預知的,大家相信這句話嗎?所以微博出現(xiàn)的時候,我對我的學生說,你可要好好寫微博,將來你的雇主在雇傭你之前都會仔細看你的微博,由此了解你的性格、消費習慣、品牌愛好、生活方式、甚至是你的價值觀。
其實微博等社交媒體重塑了我們的社會關(guān)系,對于這樣一個基于社交媒體的社會關(guān)系的重構(gòu),使得我們可以更好地去感知到一個人的行為特征。
在這個過程中,我們需要大數(shù)據(jù)的各種建模技術(shù),比如雅安地震時中國紅十字會發(fā)表的一條微博,下面大量的人讓它滾,我做了這張分析圖,主要是想知道什么人在這里說滾,有沒有什么團伙。其實我經(jīng)常說在微博上你不要隨便轉(zhuǎn),理論上我們知道任何一個人這次轉(zhuǎn)發(fā)和傳播過程中的角色、位置和作用。
左邊這個圖是2012年我制作的一張經(jīng)典的傳播路徑圖,這是杜蕾斯的一條營銷廣告叫“女性勵志”,它傳播以后我把它抓下來,可以看到這條信息傳播非常值得解讀,包含像物理學的分形理論、小世界理論、強關(guān)系、弱關(guān)系、橋連接等等概念。
我把大數(shù)據(jù)分成四個領(lǐng)域,一個是我們看到的數(shù)據(jù)科學,當然今天我們更關(guān)注的是文本的挖掘技術(shù)、情感挖掘的技術(shù)、語義挖掘的技術(shù)。另外兩個是網(wǎng)絡科學,特別是人與人鏈接在一起的社會網(wǎng)絡或者是復雜網(wǎng)絡。今天大數(shù)據(jù)已經(jīng)帶來了空間地理科學的發(fā)展,特別是在GIS和智慧交通、智慧城市發(fā)展上。比如說我們整個中國,當然包括整個全球,每一條公路,每一條自行車道,我們該如何獲得這些數(shù)據(jù)呢?當然大數(shù)據(jù)有一個很重要的特征,就是要看得見。
這里第一張海報是在圖像識別技術(shù)中可以立刻搜出所有跟這個海報形式差不多的圖像,這時候個性化推薦完全不再需要用戶的信息,完全基于海報的形式。右邊是我根據(jù)拿到上萬個煙草盒的圖片,敲定一個圖片的種子,它可以找到和這張圖片一樣模式的,這是深度學習,基于網(wǎng)絡圖像識別技術(shù),給人一種非常興奮的感覺。
前段時間我把特朗普的性格分析了一下,基于他的需求、價值觀、社會行為和130種消費行為特征,我們可以構(gòu)建出特朗普的團隊行為。還有世界各國政要的性格分析。從這一塊看特朗普在結(jié)構(gòu)上非常穩(wěn)定。其實我們今天也可以分析任何一個人在微博上的性格特征,當然也包括給消費者打標簽。
實際上我們可以不斷的追蹤這種比較大量的比特幣的交易網(wǎng)絡,追蹤它的交易時間。其實對于移動電信大量的發(fā)紅包過程,如果我們擁有這個數(shù)據(jù),我們可以從網(wǎng)絡科學的角度追蹤其整個發(fā)展的脈絡。
當然今天我們也可以對任何一篇新聞稿,通過自然語言的實體命名,抓出來這些人與人之間的關(guān)系。我們可以解決誰對誰,在什么時間,什么地點,發(fā)生了什么重要的事情,我們正在做一個全球新聞事件。當然我們愿意做全球新聞事件助力“一帶一路”,監(jiān)控全球每天發(fā)生的新聞事件,關(guān)注它發(fā)生的地理位置,報道之間的邏輯關(guān)系,看到這個社會的熱點,去監(jiān)控這個世界所發(fā)生的一些事情。
包括通過自然語言的處理,我們也可以給一個人打上標簽,幾個字你就知道我是做什么的。我們可以用少量的關(guān)鍵詞代表一篇文章、一個人的語言表征?;谶@些關(guān)鍵詞,我們可以找到同樣的文本,實現(xiàn)新聞的自動分類。當然我們也可以對各種事件進行相應的自動聚類分析。
我們也可以做一些可視化的東西,以更好的方式去呈現(xiàn)形態(tài),我們通過算法可以立刻圈出這些人在什么地方,將來在重大事件安全中,我們可以監(jiān)控誰在二環(huán)內(nèi),誰在三環(huán)內(nèi)。
這個圖是我做的,上海基于這個點上,可以把城市基于這個位置上的時間以及它覆蓋的商圈分析出來。而這樣一個過程是蜂窩化的,因此如果城市蜂窩化、網(wǎng)格化,那么管理就可以精細化,我們可以在這樣的網(wǎng)格上更精細地去部署多少警力、多少選址或者多少個麥當勞等等。這樣一些實時的運算,基于地理空間的信息,我們可以獲取各個小區(qū),甚至建筑樓宇,也可以看到人群在這些環(huán)境中的活動范圍。
當然,大數(shù)據(jù)中很重要的一點是,我們需要實時感知信息的脈絡,所以我們提出大數(shù)據(jù)需要有輿情作戰(zhàn)室、有大數(shù)據(jù)的駕駛艙,這些就對今天的我們提出了更高的要求。
所以在這里做一個總結(jié),實際上在大數(shù)據(jù)領(lǐng)域有一種說法叫“軟件定義一切”,數(shù)據(jù)驅(qū)動未來,算法統(tǒng)治世界。但是今天用在媒體領(lǐng)域,我們會說“軟件定義媒體”,數(shù)據(jù)驅(qū)動新聞,我們基于數(shù)據(jù)可以找到新聞事件,挖掘線索或者新聞本身,當然算法重構(gòu)渠道,例如今日頭條等等,這些都可能在未來帶來更多的發(fā)展。
這是我給大數(shù)據(jù)時代這本書寫的推薦語:大數(shù)據(jù)時代已經(jīng)來臨,我們?nèi)绾螐暮A康臄?shù)據(jù)中尋找隱藏在數(shù)據(jù)中的模式、知識和相關(guān)性都需要我們擁有更好的數(shù)據(jù)洞察。謝謝大家。