亚洲a∨无码精品色午夜,四虎永久在线精品视频,少妇丰满大乳被男人揉捏视频,熟女少妇丰满一区二区,少妇无码av无码专区在线观看

關(guān)注一起調(diào)研網(wǎng)微信
當(dāng)前位置: 首頁 » 資訊 » 行業(yè)資訊 » 正文

數(shù)據(jù)科學(xué)整合與細(xì)分 北京大學(xué) 劉德寰

放大字體  縮小字體 發(fā)布日期:2015-11-20  作者:17小編整理  瀏覽次數(shù):1008
核心提示:劉立豐:下面我們有請北京大學(xué)教授劉德寰先生做演講,他演講的題目是《數(shù)據(jù)科學(xué)整合與細(xì)分》。劉德寰:今天跟大家談的題目是數(shù)據(jù)
 

    劉立豐:
    下面我們有請北京大學(xué)教授劉德寰先生做演講,他演講的題目是《數(shù)據(jù)科學(xué)整合與細(xì)分》。
    
    劉德寰:
    今天跟大家談的題目是數(shù)據(jù)科學(xué),原來一般來說我們談的都是調(diào)研,但是自從大數(shù)據(jù)這個(gè)詞出來以后,數(shù)據(jù)已經(jīng)成為一個(gè)非常明確的科學(xué)領(lǐng)域。在這當(dāng)中很少有人詳細(xì)的探討數(shù)據(jù)科學(xué)的結(jié)構(gòu)和它面臨的問題,包括我們行業(yè)面臨的問題。
    實(shí)際上有三個(gè)非常重要的層次,一個(gè)是數(shù)據(jù)的獲取,一個(gè)是數(shù)據(jù)的描述,一個(gè)是數(shù)據(jù)分析,這三件事是不同的,不要把它混淆了。在這個(gè)過程當(dāng)中,你會(huì)發(fā)現(xiàn)這三個(gè)層次當(dāng)中獲取出現(xiàn)了非常重要的問題點(diǎn)。也就是說,原來數(shù)據(jù)是稀缺的,我們稀缺這個(gè)數(shù)據(jù),在稀缺的過程當(dāng)中,只要我拿到數(shù),我就會(huì)有議價(jià)能力,而這個(gè)時(shí)候當(dāng)時(shí)是調(diào)研業(yè)的天下。所以面對很多公司,尤其是研究公司,可以通過獲取數(shù)據(jù)來獲得高額利潤。但是早期的質(zhì)量出現(xiàn)問題之后,導(dǎo)致了積壓,于是行業(yè)就出現(xiàn)了非常大的非良性循環(huán),我沒有叫惡性循環(huán)。非良性循環(huán)它有非常重要的產(chǎn)業(yè)鏈,一個(gè)是從設(shè)計(jì)開始利潤率高,研究公司更多的通過獲取數(shù)據(jù)來獲得利潤,而不是通過研究。然后咨詢公司整體利潤下降,接下來數(shù)據(jù)在獲取各個(gè)當(dāng)中的作弊就不是一個(gè)點(diǎn)發(fā)狀態(tài),而是面發(fā)的狀態(tài)。
    接下來客戶一定會(huì)對這種數(shù)據(jù)表示不滿,但是由于數(shù)據(jù)稀缺,沒有辦法。這個(gè)過程再蔓延下來的時(shí)候,你會(huì)發(fā)現(xiàn)研究公司接下來,因?yàn)榭蛻舨粷M了,研究公司就開始利潤攤薄。執(zhí)行公司就會(huì)更加艱難,作弊必然會(huì)蔓延。而這個(gè)時(shí)候整體客戶的滿意度處于大幅度的下降。在這個(gè)過程當(dāng)中,又正好趕上了一個(gè)新的時(shí)代,也就是說機(jī)器話數(shù)據(jù)橫空出世,突然之間,甚至一夜之間數(shù)據(jù)不再稀缺了。單靠獲得數(shù)據(jù),你能拿到高額利潤的可能性微乎其微,這樣就必然導(dǎo)致執(zhí)行公司如果要繼續(xù)作弊必死無疑,未來五年內(nèi)我們可以清楚的看到,研究公司不好好做研究,也照樣是必死無疑,無論你是國際的,還是國內(nèi)的,因?yàn)闀r(shí)代變了。所以獲取這一塊,要有非常清醒的認(rèn)識。
    在這個(gè)過程當(dāng)中,數(shù)據(jù)獲取的生存環(huán)境,從機(jī)器化數(shù)據(jù)開始,它從開始的時(shí)候不結(jié)構(gòu),而且一直是孤島化結(jié)構(gòu)。我們是在金礦里面挖金子,還是在沙里面淘金,這是完全不同的意義。在這個(gè)時(shí)候大數(shù)據(jù),正常的講叫機(jī)器化數(shù)據(jù)已經(jīng)被神話,而市場研究公司被積壓在這里,市場研究的結(jié)構(gòu)化可以有洞察力的數(shù)據(jù),它必須滿足兩個(gè)條件,一是真的,二是價(jià)格是低的,這兩件事造成的后果是什么,我相信業(yè)內(nèi)的所有公司都會(huì)有體會(huì)。
    我們再看數(shù)據(jù)的描述,由于整個(gè)社會(huì)大環(huán)境巨大的變化,在描述環(huán)節(jié)上出現(xiàn)了非常大的問題,這個(gè)問題當(dāng)中你會(huì)發(fā)現(xiàn)形成了新的不同的非良性的循環(huán)。為什么?數(shù)據(jù)不稀缺了,我們知道算點(diǎn)描述性統(tǒng)計(jì),我們每個(gè)本科生都會(huì)。而在這個(gè)時(shí)候,機(jī)器化數(shù)據(jù)出來的東西做點(diǎn)頻率表,做點(diǎn)交互表很簡單。如果數(shù)據(jù)描述能夠替代數(shù)據(jù)分析,這個(gè)世界一定會(huì)毀掉,因?yàn)閿?shù)據(jù)想騙人太容易了。
    接下來的過程當(dāng)中,機(jī)器化數(shù)據(jù)由于資料收集簡單,整理數(shù)據(jù)的過程非常容易。所以直接面向銷售,這個(gè)面向銷售就出現(xiàn)了充滿荊棘的歷程,賺錢嗎?賺錢,有真的嗎?哪一個(gè)機(jī)器化的數(shù)據(jù)拿出來說可以代表市場,因?yàn)槎际菙?shù)據(jù)孤島。
    接下來我們再看研究公司的結(jié)構(gòu)化數(shù)據(jù),大型公司由于沒有應(yīng)對,我在行業(yè)這么多年,一直在這些時(shí)期,有機(jī)會(huì)就在呼吁洞察這個(gè)詞。實(shí)際上我們的研究員正在日益變成填數(shù)工具,而不是洞察。數(shù)據(jù)不再稀缺,你在機(jī)器化數(shù)據(jù)面前,你填數(shù)的過程當(dāng)中,數(shù)據(jù)的真假還在存疑,這時(shí)候你不敗誰敗,必然敗。而且別忘了機(jī)器化數(shù)據(jù)的成本趨近于零,所以大中型研究公司的解體、兼并、重組在不遠(yuǎn)的將來一定會(huì)重現(xiàn),這是沒有辦法的趨勢。
    我們看一看現(xiàn)在數(shù)據(jù)科學(xué)有七個(gè)非常大的危險(xiǎn)趨勢,這七個(gè)趨勢是:
    一是重?cái)?shù)據(jù)的抓取與擁有,直接把簡單的結(jié)果拿出來混淆視聽。所以現(xiàn)在你會(huì)發(fā)現(xiàn),你打開互聯(lián)網(wǎng),每天有無數(shù)的數(shù)據(jù)撲面而來,你辨不清哪些是真的,哪些是假的。所以這個(gè)世界非常的危險(xiǎn),在這點(diǎn)上。
    二是極其重要的危險(xiǎn)趨勢,所謂的分析變成了資料整理,變成了數(shù)據(jù)可視化。大量的在傳播沒有真正研究價(jià)值的數(shù)據(jù),但是它正在統(tǒng)領(lǐng)我們這個(gè)時(shí)代。
    三是很長時(shí)間一直說的一句話,就是數(shù)據(jù)的公關(guān),從來不談抽樣和推斷,也從來不談適用范圍,拿出來一個(gè)排名接一個(gè)排名,這些排名用于什么,用于融資,用于宣傳,用于老板高興。這個(gè)過程對整個(gè)社會(huì),對整個(gè)數(shù)據(jù)科學(xué),對研究的危害是致命的。
    四是很多公司現(xiàn)在已經(jīng)不再關(guān)心真實(shí),而且甚至不想要真實(shí),因?yàn)檎鎸?shí)的東西是你排名靠后,我干嗎要真實(shí)。所以這時(shí)候誰還好好的做基礎(chǔ)性研究,我們跟美國最大的差距就是我們的基礎(chǔ)研究薄弱,我們的應(yīng)用研究一點(diǎn)都差,但是基礎(chǔ)研究呢?剛才孫老師說了,我們能造出蘋果手機(jī)嗎?我們能超越蘋果手機(jī)這個(gè)產(chǎn)品嗎?拿出來一個(gè)試試,基礎(chǔ)研究嚴(yán)重不足,市場研究行業(yè)也是如此。
    五是以為分析就是算法,一個(gè)學(xué)計(jì)算機(jī)的人,就可以建一個(gè)黑箱,這不是笑話嗎?天大的笑話,想問的問題很清楚,這個(gè)算法到底是適應(yīng)人類行為的哪種規(guī)律了,你能驗(yàn)證嗎?在這個(gè)時(shí)代,這是一個(gè)偽命題。
    六是研究者為了追求速度,嚴(yán)重犧牲了深度和質(zhì)量,無論學(xué)界或者是商業(yè)界都是這樣,很少有專家型的人才,而且大家不愿意去做。應(yīng)該說這是整個(gè)數(shù)據(jù)分析和數(shù)據(jù)建模領(lǐng)域最大的痛,現(xiàn)在哪個(gè)公司能做。
    七是正在神化年輕人,以為年輕就有用,數(shù)據(jù)研究可不是這回事,沒有三五年根本不行。所以這代年輕群體,他絕對不是壓垮的,而是夸垮的。所以在這個(gè)領(lǐng)域當(dāng)中,后面的風(fēng)險(xiǎn)就出來了,什么是分析,我先從最簡單的,我課堂上一定要說的東西。
    簡單的不能再簡單,我想問一下這個(gè)數(shù)據(jù)的結(jié)果,由誰這么做過嗎?在座的這么多家公司,我們可以看一下,這個(gè)位置意味著什么,老年人比年輕人更喜歡這個(gè)東西。實(shí)際的結(jié)果呢?老年人和年輕人沒有任何差異。
    高中文化之間有差別嗎?所有的結(jié)果都顯示高文化程度的比低文化程度的人更喜歡,總體上它就是相同的,這是我在講本科課程當(dāng)中必講的內(nèi)容,我們的研究人員真的這么做了嗎?我沒有看到,也許我孤陋寡聞。
    大家看一下藍(lán)領(lǐng)比白領(lǐng)的敏感意識更強(qiáng),大家看一下我有任何措施嗎?跟抽樣無關(guān),跟推斷方式無關(guān),數(shù)據(jù)本身的結(jié)構(gòu)就是這樣的。我給大家一個(gè)更加實(shí)際的案例,我們知道房價(jià)是怎么算的,房價(jià)是加權(quán)算術(shù)平均數(shù)。我們所有的算法無論國家,還是地方都是這么算的。
    大家看一下實(shí)際的案例,現(xiàn)在大家看一看房價(jià),房子的均價(jià)跟房子的成交價(jià)格沒有關(guān)系,跟什么有關(guān)系,跟銷售結(jié)構(gòu)優(yōu)關(guān)系。所以在這個(gè)時(shí)候,房價(jià)的均價(jià)大約是這樣的,我告訴大家房價(jià)在下一個(gè)解讀全面上漲10%,但是銷售結(jié)構(gòu)略微有一點(diǎn)變化。房價(jià)下跌2.63%,大看清楚定價(jià)了嗎?任何一個(gè)地方都上漲了10%,接下來銷售結(jié)構(gòu)一定會(huì)再變,房價(jià)又漲了10%,房價(jià)又下跌了,但是統(tǒng)計(jì)數(shù)字會(huì)告訴你下跌4%。大家知道數(shù)據(jù)要想騙人,玩死你。
    我1998年做過一個(gè)模型,讓大家看一下我獲寶潔論文獎(jiǎng)的時(shí)候得到的模型。我現(xiàn)在還看不太多的人能做出來,現(xiàn)在我把一個(gè)系列跟大家拿出來。表面上一大堆無差別、無差異的情況,導(dǎo)致了什么情況呢?看起來沒有差異,一個(gè)是男的比女的喜歡,一個(gè)是女的比男的喜歡,整體上沒有差異這是我1998年獲得寶潔論文獎(jiǎng)里面那張圖,表面上不同年齡的人沒有差異,但是差別大嗎?規(guī)律性強(qiáng)嗎。
    我們隨便看看現(xiàn)在的研究,這是趕集網(wǎng)的用戶群,表面上看不同年齡的人沒有差異,真的沒有差異嗎?這是同時(shí)用地圖導(dǎo)航人的特點(diǎn),有規(guī)律嗎?這個(gè)規(guī)律非常清楚。我們再看,這是詞典翻譯類的APP用戶的特點(diǎn),規(guī)律很清楚,放到年齡段上沒有差異。
    這是回應(yīng)剛才孫老師說的中國的股市,那是什么市,你看一下用戶群就知道了,用戶群特點(diǎn)是反橄欖型,造成的后果大家可想而知是什么樣的。我們再看一下在線教育的趨勢,清楚嗎?趨勢特別明確嗎?但是哪一個(gè)人分析的時(shí)候這么分析,都告訴你不同年齡之間的人沒有差異。我們再看一個(gè),表面上看還是沒有差異。
    我跟大家接著來第三大類案例,我們在2011年用的詞叫蘋果熟透了,蘋果在一個(gè)領(lǐng)域發(fā)展。2012年我在互聯(lián)網(wǎng)大會(huì)上,在我們這個(gè)會(huì)場上我都說過華為將崛起。2013年我說過三星必然下滑,去年2014年也是一樣的,這兩個(gè)大會(huì)我都說過小米將面臨問題,我不是神,但是模型能。2015年什么情況?我不想對任何一個(gè)品牌現(xiàn)在來說,大家關(guān)注我們要發(fā)布的手機(jī)人報(bào)告,那個(gè)時(shí)候我再開會(huì),我詳細(xì)的把這個(gè)結(jié)果告訴大家。
    但是我讓大家看一個(gè)結(jié)果,模型的基點(diǎn)預(yù)測點(diǎn)是這張圖,講到這里,這不是萬眾創(chuàng)新,是萬眾期待,我本人真的絕對可以做到。你只要復(fù)制了我這個(gè)模型,我馬上給你五千塊錢,我個(gè)人給。我們看一下,但是限期一年,要求是研究公司的研究員,這張圖我會(huì)放在微信公眾號上,讓大家做出來,誰能把這個(gè)模型復(fù)制出來。同時(shí)把圖做出來,把分析做出來,我拉幾個(gè)大佬我相信能獎(jiǎng)給你十萬塊錢,但是你能不能做出來,這就是我為什么一直在說,中國調(diào)查業(yè)從來不缺數(shù)據(jù),從來不缺所謂的描述,只缺分析。如果被這些互聯(lián)網(wǎng)公司,被碼農(nóng)牽著走,那不是笑話嗎?他們能代表中國的分析能力嗎?中國的分析能力不是他們,而一定是我們。
    在這個(gè)時(shí)候我做一個(gè)小的總結(jié),有六個(gè)不難,六個(gè)不易,抓數(shù)據(jù)從來不難,一分鐘就抓到了。玩數(shù)據(jù)不容易,整理數(shù)據(jù)從來不是難事,如果找尋點(diǎn)相關(guān)難嗎?不難,你找一個(gè)真正的因果容易嗎?太難了,建立一個(gè)數(shù)學(xué)模型,分析一個(gè)結(jié)果,這事不容易。軟件做一個(gè)模型來計(jì)算,將洞察融入軟件,這件事難度可就大了。數(shù)據(jù)中看結(jié)果,這件事誰都會(huì)。在結(jié)果中想數(shù)據(jù)再分析出結(jié)果,這件事真的不容易。
    在這個(gè)時(shí)候,實(shí)際上我們不要再談別的,你想一個(gè)人擁有了整個(gè)世界,如果失去了靈魂,對它有用嗎?如果數(shù)據(jù)都失去了分析,于人于國于公司,于哪兒有用嗎?都沒有用。所以我們要情形的看到數(shù)據(jù)科學(xué)的基本細(xì)分,找規(guī)律這件事什么方法都對,用什么方法都行,抽樣調(diào)查不可能被替代,它永遠(yuǎn)是這當(dāng)中一個(gè)步驟,它也不是全部。
    在這個(gè)時(shí)候找到規(guī)律之后,如果能夠把它形成程序化的東西可以進(jìn)行驗(yàn)證證偽推斷和提高,這是沒有問題的。但是前提先把規(guī)律找到,沒找到規(guī)律你就想做精準(zhǔn)營銷,那是天大的笑話。
    在大小數(shù)據(jù)概念上如果要進(jìn)行整合的話,抽樣調(diào)查、探索規(guī)律,現(xiàn)在的大數(shù)據(jù)將這種規(guī)律程序化。大數(shù)據(jù)發(fā)現(xiàn)了新的規(guī)律,然后它不斷的調(diào)整適應(yīng)的規(guī)則來確認(rèn)規(guī)則,大數(shù)據(jù)可以程序化。但是這幾條鏈條當(dāng)中都有可能,第三條能成的可能性微乎其微,主要是第二條,我們可以隨便看一下,無論是像樂購,包括很多公司,它們真正在做的思想智能推送的前提是什么,實(shí)驗(yàn)、抽樣調(diào)查,哪一個(gè)是大數(shù)據(jù),大數(shù)據(jù)真正要做起來,會(huì)編程的人和會(huì)分析、會(huì)思考的人結(jié)合在一起,這種人哪兒去找,找到一個(gè)基本上就是天才。我的演講結(jié)束了,我也推廣一下我的微信公眾號,劉德寰三個(gè)字,謝謝大家。
    
    劉立豐:
    非常感謝劉德寰的精彩分析,里面談到了很多陷井,談到了他們非常杰出的分析。

 
 
[ 資訊搜索 ]  [ 加入收藏 ]  [ 告訴好友 ]  [ 打印本文 ]  [ 關(guān)閉窗口 ]

 
0條 [查看全部]  相關(guān)評論

 
推薦視頻
推薦資訊
點(diǎn)擊排行
?
 
分享按鈕