劉立豐:
下面我們有請北京大學教授劉德寰先生做演講,他演講的題目是《數(shù)據(jù)科學整合與細分》。
劉德寰:
今天跟大家談的題目是數(shù)據(jù)科學,原來一般來說我們談的都是調研,但是自從大數(shù)據(jù)這個詞出來以后,數(shù)據(jù)已經(jīng)成為一個非常明確的科學領域。在這當中很少有人詳細的探討數(shù)據(jù)科學的結構和它面臨的問題,包括我們行業(yè)面臨的問題。
實際上有三個非常重要的層次,一個是數(shù)據(jù)的獲取,一個是數(shù)據(jù)的描述,一個是數(shù)據(jù)分析,這三件事是不同的,不要把它混淆了。在這個過程當中,你會發(fā)現(xiàn)這三個層次當中獲取出現(xiàn)了非常重要的問題點。也就是說,原來數(shù)據(jù)是稀缺的,我們稀缺這個數(shù)據(jù),在稀缺的過程當中,只要我拿到數(shù),我就會有議價能力,而這個時候當時是調研業(yè)的天下。所以面對很多公司,尤其是研究公司,可以通過獲取數(shù)據(jù)來獲得高額利潤。但是早期的質量出現(xiàn)問題之后,導致了積壓,于是行業(yè)就出現(xiàn)了非常大的非良性循環(huán),我沒有叫惡性循環(huán)。非良性循環(huán)它有非常重要的產(chǎn)業(yè)鏈,一個是從設計開始利潤率高,研究公司更多的通過獲取數(shù)據(jù)來獲得利潤,而不是通過研究。然后咨詢公司整體利潤下降,接下來數(shù)據(jù)在獲取各個當中的作弊就不是一個點發(fā)狀態(tài),而是面發(fā)的狀態(tài)。
接下來客戶一定會對這種數(shù)據(jù)表示不滿,但是由于數(shù)據(jù)稀缺,沒有辦法。這個過程再蔓延下來的時候,你會發(fā)現(xiàn)研究公司接下來,因為客戶不滿了,研究公司就開始利潤攤薄。執(zhí)行公司就會更加艱難,作弊必然會蔓延。而這個時候整體客戶的滿意度處于大幅度的下降。在這個過程當中,又正好趕上了一個新的時代,也就是說機器話數(shù)據(jù)橫空出世,突然之間,甚至一夜之間數(shù)據(jù)不再稀缺了。單靠獲得數(shù)據(jù),你能拿到高額利潤的可能性微乎其微,這樣就必然導致執(zhí)行公司如果要繼續(xù)作弊必死無疑,未來五年內我們可以清楚的看到,研究公司不好好做研究,也照樣是必死無疑,無論你是國際的,還是國內的,因為時代變了。所以獲取這一塊,要有非常清醒的認識。
在這個過程當中,數(shù)據(jù)獲取的生存環(huán)境,從機器化數(shù)據(jù)開始,它從開始的時候不結構,而且一直是孤島化結構。我們是在金礦里面挖金子,還是在沙里面淘金,這是完全不同的意義。在這個時候大數(shù)據(jù),正常的講叫機器化數(shù)據(jù)已經(jīng)被神話,而市場研究公司被積壓在這里,市場研究的結構化可以有洞察力的數(shù)據(jù),它必須滿足兩個條件,一是真的,二是價格是低的,這兩件事造成的后果是什么,我相信業(yè)內的所有公司都會有體會。
我們再看數(shù)據(jù)的描述,由于整個社會大環(huán)境巨大的變化,在描述環(huán)節(jié)上出現(xiàn)了非常大的問題,這個問題當中你會發(fā)現(xiàn)形成了新的不同的非良性的循環(huán)。為什么?數(shù)據(jù)不稀缺了,我們知道算點描述性統(tǒng)計,我們每個本科生都會。而在這個時候,機器化數(shù)據(jù)出來的東西做點頻率表,做點交互表很簡單。如果數(shù)據(jù)描述能夠替代數(shù)據(jù)分析,這個世界一定會毀掉,因為數(shù)據(jù)想騙人太容易了。
接下來的過程當中,機器化數(shù)據(jù)由于資料收集簡單,整理數(shù)據(jù)的過程非常容易。所以直接面向銷售,這個面向銷售就出現(xiàn)了充滿荊棘的歷程,賺錢嗎?賺錢,有真的嗎?哪一個機器化的數(shù)據(jù)拿出來說可以代表市場,因為都是數(shù)據(jù)孤島。
接下來我們再看研究公司的結構化數(shù)據(jù),大型公司由于沒有應對,我在行業(yè)這么多年,一直在這些時期,有機會就在呼吁洞察這個詞。實際上我們的研究員正在日益變成填數(shù)工具,而不是洞察。數(shù)據(jù)不再稀缺,你在機器化數(shù)據(jù)面前,你填數(shù)的過程當中,數(shù)據(jù)的真假還在存疑,這時候你不敗誰敗,必然敗。而且別忘了機器化數(shù)據(jù)的成本趨近于零,所以大中型研究公司的解體、兼并、重組在不遠的將來一定會重現(xiàn),這是沒有辦法的趨勢。
我們看一看現(xiàn)在數(shù)據(jù)科學有七個非常大的危險趨勢,這七個趨勢是:
一是重數(shù)據(jù)的抓取與擁有,直接把簡單的結果拿出來混淆視聽。所以現(xiàn)在你會發(fā)現(xiàn),你打開互聯(lián)網(wǎng),每天有無數(shù)的數(shù)據(jù)撲面而來,你辨不清哪些是真的,哪些是假的。所以這個世界非常的危險,在這點上。
二是極其重要的危險趨勢,所謂的分析變成了資料整理,變成了數(shù)據(jù)可視化。大量的在傳播沒有真正研究價值的數(shù)據(jù),但是它正在統(tǒng)領我們這個時代。
三是很長時間一直說的一句話,就是數(shù)據(jù)的公關,從來不談抽樣和推斷,也從來不談適用范圍,拿出來一個排名接一個排名,這些排名用于什么,用于融資,用于宣傳,用于老板高興。這個過程對整個社會,對整個數(shù)據(jù)科學,對研究的危害是致命的。
四是很多公司現(xiàn)在已經(jīng)不再關心真實,而且甚至不想要真實,因為真實的東西是你排名靠后,我干嗎要真實。所以這時候誰還好好的做基礎性研究,我們跟美國最大的差距就是我們的基礎研究薄弱,我們的應用研究一點都差,但是基礎研究呢?剛才孫老師說了,我們能造出蘋果手機嗎?我們能超越蘋果手機這個產(chǎn)品嗎?拿出來一個試試,基礎研究嚴重不足,市場研究行業(yè)也是如此。
五是以為分析就是算法,一個學計算機的人,就可以建一個黑箱,這不是笑話嗎?天大的笑話,想問的問題很清楚,這個算法到底是適應人類行為的哪種規(guī)律了,你能驗證嗎?在這個時代,這是一個偽命題。
六是研究者為了追求速度,嚴重犧牲了深度和質量,無論學界或者是商業(yè)界都是這樣,很少有專家型的人才,而且大家不愿意去做。應該說這是整個數(shù)據(jù)分析和數(shù)據(jù)建模領域最大的痛,現(xiàn)在哪個公司能做。
七是正在神化年輕人,以為年輕就有用,數(shù)據(jù)研究可不是這回事,沒有三五年根本不行。所以這代年輕群體,他絕對不是壓垮的,而是夸垮的。所以在這個領域當中,后面的風險就出來了,什么是分析,我先從最簡單的,我課堂上一定要說的東西。
簡單的不能再簡單,我想問一下這個數(shù)據(jù)的結果,由誰這么做過嗎?在座的這么多家公司,我們可以看一下,這個位置意味著什么,老年人比年輕人更喜歡這個東西。實際的結果呢?老年人和年輕人沒有任何差異。
高中文化之間有差別嗎?所有的結果都顯示高文化程度的比低文化程度的人更喜歡,總體上它就是相同的,這是我在講本科課程當中必講的內容,我們的研究人員真的這么做了嗎?我沒有看到,也許我孤陋寡聞。
大家看一下藍領比白領的敏感意識更強,大家看一下我有任何措施嗎?跟抽樣無關,跟推斷方式無關,數(shù)據(jù)本身的結構就是這樣的。我給大家一個更加實際的案例,我們知道房價是怎么算的,房價是加權算術平均數(shù)。我們所有的算法無論國家,還是地方都是這么算的。
大家看一下實際的案例,現(xiàn)在大家看一看房價,房子的均價跟房子的成交價格沒有關系,跟什么有關系,跟銷售結構優(yōu)關系。所以在這個時候,房價的均價大約是這樣的,我告訴大家房價在下一個解讀全面上漲10%,但是銷售結構略微有一點變化。房價下跌2.63%,大看清楚定價了嗎?任何一個地方都上漲了10%,接下來銷售結構一定會再變,房價又漲了10%,房價又下跌了,但是統(tǒng)計數(shù)字會告訴你下跌4%。大家知道數(shù)據(jù)要想騙人,玩死你。
我1998年做過一個模型,讓大家看一下我獲寶潔論文獎的時候得到的模型。我現(xiàn)在還看不太多的人能做出來,現(xiàn)在我把一個系列跟大家拿出來。表面上一大堆無差別、無差異的情況,導致了什么情況呢?看起來沒有差異,一個是男的比女的喜歡,一個是女的比男的喜歡,整體上沒有差異這是我1998年獲得寶潔論文獎里面那張圖,表面上不同年齡的人沒有差異,但是差別大嗎?規(guī)律性強嗎。
我們隨便看看現(xiàn)在的研究,這是趕集網(wǎng)的用戶群,表面上看不同年齡的人沒有差異,真的沒有差異嗎?這是同時用地圖導航人的特點,有規(guī)律嗎?這個規(guī)律非常清楚。我們再看,這是詞典翻譯類的APP用戶的特點,規(guī)律很清楚,放到年齡段上沒有差異。
這是回應剛才孫老師說的中國的股市,那是什么市,你看一下用戶群就知道了,用戶群特點是反橄欖型,造成的后果大家可想而知是什么樣的。我們再看一下在線教育的趨勢,清楚嗎?趨勢特別明確嗎?但是哪一個人分析的時候這么分析,都告訴你不同年齡之間的人沒有差異。我們再看一個,表面上看還是沒有差異。
我跟大家接著來第三大類案例,我們在2011年用的詞叫蘋果熟透了,蘋果在一個領域發(fā)展。2012年我在互聯(lián)網(wǎng)大會上,在我們這個會場上我都說過華為將崛起。2013年我說過三星必然下滑,去年2014年也是一樣的,這兩個大會我都說過小米將面臨問題,我不是神,但是模型能。2015年什么情況?我不想對任何一個品牌現(xiàn)在來說,大家關注我們要發(fā)布的手機人報告,那個時候我再開會,我詳細的把這個結果告訴大家。
但是我讓大家看一個結果,模型的基點預測點是這張圖,講到這里,這不是萬眾創(chuàng)新,是萬眾期待,我本人真的絕對可以做到。你只要復制了我這個模型,我馬上給你五千塊錢,我個人給。我們看一下,但是限期一年,要求是研究公司的研究員,這張圖我會放在微信公眾號上,讓大家做出來,誰能把這個模型復制出來。同時把圖做出來,把分析做出來,我拉幾個大佬我相信能獎給你十萬塊錢,但是你能不能做出來,這就是我為什么一直在說,中國調查業(yè)從來不缺數(shù)據(jù),從來不缺所謂的描述,只缺分析。如果被這些互聯(lián)網(wǎng)公司,被碼農(nóng)牽著走,那不是笑話嗎?他們能代表中國的分析能力嗎?中國的分析能力不是他們,而一定是我們。
在這個時候我做一個小的總結,有六個不難,六個不易,抓數(shù)據(jù)從來不難,一分鐘就抓到了。玩數(shù)據(jù)不容易,整理數(shù)據(jù)從來不是難事,如果找尋點相關難嗎?不難,你找一個真正的因果容易嗎?太難了,建立一個數(shù)學模型,分析一個結果,這事不容易。軟件做一個模型來計算,將洞察融入軟件,這件事難度可就大了。數(shù)據(jù)中看結果,這件事誰都會。在結果中想數(shù)據(jù)再分析出結果,這件事真的不容易。
在這個時候,實際上我們不要再談別的,你想一個人擁有了整個世界,如果失去了靈魂,對它有用嗎?如果數(shù)據(jù)都失去了分析,于人于國于公司,于哪兒有用嗎?都沒有用。所以我們要情形的看到數(shù)據(jù)科學的基本細分,找規(guī)律這件事什么方法都對,用什么方法都行,抽樣調查不可能被替代,它永遠是這當中一個步驟,它也不是全部。
在這個時候找到規(guī)律之后,如果能夠把它形成程序化的東西可以進行驗證證偽推斷和提高,這是沒有問題的。但是前提先把規(guī)律找到,沒找到規(guī)律你就想做精準營銷,那是天大的笑話。
在大小數(shù)據(jù)概念上如果要進行整合的話,抽樣調查、探索規(guī)律,現(xiàn)在的大數(shù)據(jù)將這種規(guī)律程序化。大數(shù)據(jù)發(fā)現(xiàn)了新的規(guī)律,然后它不斷的調整適應的規(guī)則來確認規(guī)則,大數(shù)據(jù)可以程序化。但是這幾條鏈條當中都有可能,第三條能成的可能性微乎其微,主要是第二條,我們可以隨便看一下,無論是像樂購,包括很多公司,它們真正在做的思想智能推送的前提是什么,實驗、抽樣調查,哪一個是大數(shù)據(jù),大數(shù)據(jù)真正要做起來,會編程的人和會分析、會思考的人結合在一起,這種人哪兒去找,找到一個基本上就是天才。我的演講結束了,我也推廣一下我的微信公眾號,劉德寰三個字,謝謝大家。
劉立豐:
非常感謝劉德寰的精彩分析,里面談到了很多陷井,談到了他們非常杰出的分析。