說在前面的話
認(rèn)識(shí)劉德寰教授,掐指算起來(lái)已經(jīng)快15年了,第一次認(rèn)識(shí)劉老師,是在市場(chǎng)研究協(xié)會(huì)舉辦的一個(gè)短期定性研究培訓(xùn)上,劉老師給培訓(xùn)班做了他對(duì)人群所做的研究(他簡(jiǎn)稱為“傻博士現(xiàn)象”)的講座。他獨(dú)特的思維和深刻的洞察力,以及妙趣橫生的演講能力,都給我留下了深刻印象。
之后幾年里,劉老師經(jīng)常受邀參加我們方向碩士研究生的畢業(yè)論文答辯,屢次與劉老師同為答辯老師,聽他對(duì)論文鞭辟入里的分析,每每覺得很是過癮。從劉老師身上能感到北大所傳承的嚴(yán)謹(jǐn)?shù)闹螌W(xué)和獨(dú)立的思考。感佩他深厚的學(xué)術(shù)積累和對(duì)研究方法嫻熟的掌握和運(yùn)用。從下面的訪談中,也同樣能感受到劉老師身上獨(dú)特的學(xué)術(shù)魅力。

劉德寰:北京大學(xué)社會(huì)學(xué)博士、北京大學(xué)新媒體研究院教授、北京大學(xué)新聞與傳播學(xué)院副院長(zhǎng)、北京大學(xué)市場(chǎng)與媒介研究中心副主任。入選北京市“百人工程”學(xué)者,著作《年齡論》榮獲教育部人文社會(huì)科學(xué)優(yōu)秀成果三等獎(jiǎng)。
著作包括:《年齡論:社會(huì)空間中的社會(huì)時(shí)間》、《沒有極限的未來(lái):手機(jī)人全面解構(gòu)產(chǎn)業(yè)》、《顛覆與重整:手機(jī)人的群落與游牧》、《正在發(fā)生的未來(lái):手機(jī)人的族群與趨勢(shì)》、《透視電商:網(wǎng)絡(luò)購(gòu)物消費(fèi)者研究》、《銀行業(yè)的互聯(lián)網(wǎng)之路》、《市場(chǎng)研究與應(yīng)用》、《現(xiàn)代市場(chǎng)研究》、《市場(chǎng)調(diào)查教程》、《市場(chǎng)調(diào)查》、《社會(huì)調(diào)查的理論基礎(chǔ)與實(shí)用方法》、《中國(guó)人讀書生活透視》、《希望工程調(diào)查》。
訪談實(shí)錄
01
大數(shù)據(jù)時(shí)代,方法變了?
現(xiàn)在很多人都在強(qiáng)調(diào)“新”,強(qiáng)調(diào)大數(shù)據(jù),強(qiáng)調(diào)大數(shù)據(jù)中一些比較炫的部分、比較簡(jiǎn)單的部分。但是實(shí)際上,研究方法的根是沒有變的:基于統(tǒng)計(jì)的推斷、分析的基本范式,這些其實(shí)并沒有變。所謂的“變”,只不過是加了一些炫的名詞和一些角度而已。純數(shù)據(jù)帶來(lái)不了任何東西,一定是數(shù)據(jù)的解讀和分析才具有意義。但是現(xiàn)在大家都強(qiáng)調(diào)對(duì)數(shù)據(jù)的擁有。我在全國(guó)范圍內(nèi)做一些關(guān)于“大數(shù)據(jù)隱憂”的研究,發(fā)現(xiàn)新聞傳播學(xué)科、包括其他一些學(xué)科,都還是偏重在方法中比較簡(jiǎn)單的部分,極少涉及方法中復(fù)雜的內(nèi)容,而且方法使用的錯(cuò)誤率極高。
都說大數(shù)據(jù)是金礦。可這是沙里淘金。絕大部分內(nèi)容是沙子,金子是很少的。大數(shù)據(jù)最大的麻煩是,你想在稻草里找這根針,問題是很多稻草和針長(zhǎng)的一模一樣。你怎么來(lái)判斷,這根是稻草,這根是針。這實(shí)際上是非常難的。大數(shù)據(jù)有數(shù)據(jù)并且數(shù)據(jù)收集簡(jiǎn)單。對(duì)于絕大部分不懂抽樣、不懂?dāng)?shù)據(jù)的人來(lái)說,“大”本身就是好。大數(shù)據(jù)在現(xiàn)有技術(shù)上,又把圖形化做的很好。這就是science and arts 中的arts。我曾經(jīng)看到過一個(gè)微博影響力的擴(kuò)散圖:一個(gè)一個(gè)擴(kuò)散出來(lái)的不同大小的同心圓。那真是好看。可是我一看結(jié)論,我明白了:誰(shuí)粉絲量大,誰(shuí)的圓就大,誰(shuí)的影響力大。這個(gè)事就不是那么嚴(yán)謹(jǐn)了。大數(shù)據(jù)現(xiàn)在絕大多數(shù)做的都是類似的事情。
中國(guó)現(xiàn)在在兩個(gè)大數(shù)據(jù)領(lǐng)域位于前列:一個(gè)是可視化,一個(gè)是所謂的智能化推送。可視化操作簡(jiǎn)單易上手,重要看審美。所謂的智能化推送,沒辦法驗(yàn)證分類差異的科學(xué)性。只要把人一分類就比不分類強(qiáng),很多人都是拿著國(guó)外的R包,拆解一下,換換數(shù)據(jù),調(diào)調(diào)權(quán)重,拼裝一個(gè),完全沒有基礎(chǔ)研究。原創(chuàng)幾乎沒有。商界真正在負(fù)責(zé)這部分的人很清楚這些,也在焦慮。
學(xué)習(xí)方法很簡(jiǎn)單?
02
現(xiàn)在,方法的簡(jiǎn)單部分普及度極高,甚至有人說:“人人都會(huì)數(shù)據(jù)分析”。這是我覺得特別可笑的一句話。這也是不可能的事,因?yàn)闆]有多年的積累,數(shù)據(jù)分析很難做好。
學(xué)生們很愿意學(xué)習(xí)通用線性模型,因?yàn)樗?jiǎn)單:無(wú)論是使用spss還是R語(yǔ)言,構(gòu)建線性模型都非常容易。我在教授計(jì)量等簡(jiǎn)單課程時(shí),基本上兩到三個(gè)小時(shí)就可以講完,但是一旦講到比較復(fù)雜的回歸分析時(shí),基本上需要9個(gè)小時(shí)左右。學(xué)生們也需要相當(dāng)長(zhǎng)的時(shí)間進(jìn)行課后學(xué)習(xí)。對(duì)學(xué)生們來(lái)說,他們沒有太多方法方面的基礎(chǔ),在教學(xué)過程中老師教抓取、教展示,雖然皆大歡喜,但是實(shí)際上與西方的距離越來(lái)越大。因?yàn)樗谧呦蚝?jiǎn)單化。我大概做了一個(gè)測(cè)算,每年把復(fù)雜建模學(xué)會(huì)的人大概占到選課人數(shù)的5~8%,而這些人最終還沒有留在學(xué)界。
我的課堂非常有意思?,F(xiàn)在是160人的課堂,涉及到3個(gè)系的碩士和博士。開始階段,160人肯定是坐滿的,大約還有20個(gè)左右站著或者拿著凳子的。這個(gè)情況一致持續(xù)到11月份。講到回歸比較難的部分的時(shí)候,所有凳子肯定是沒了。坐在座位上的人開始逐漸的減少,最后會(huì)少于選課的人數(shù)。走的那些人,覺得聽不懂了,也覺得累。因?yàn)榈鹊秸嬲5臅r(shí)候,估計(jì)連續(xù)得有一個(gè)月的時(shí)間,晚上睡覺得到凌晨三點(diǎn)左右。你要想學(xué)會(huì)百分之百就得如此。他認(rèn)為反正SPSS我也會(huì)了,線性模型我也會(huì)了,關(guān)鍵是他認(rèn)為發(fā)表文章已經(jīng)夠了??墒?,如果你想找到任何一個(gè)變量,控制其他變量之后,研究與某一現(xiàn)象的關(guān)系,我們稱為f(x),這個(gè)f(x)是無(wú)限的。找尋到這個(gè)越漸近真實(shí)的f(x)的過程是非常辛苦的,而且是沒有盡頭的。回歸分析難,難在殘差,但是基本上絕大多數(shù)人不講殘差分析??瓷先ズ孟駭?shù)據(jù)的結(jié)果都能出來(lái),可是其實(shí)出來(lái)的結(jié)果存在問題,這樣人家就會(huì)說:“你定量研究有問題。”但是實(shí)際上每一個(gè)分析,在分析到位的時(shí)候,都是社會(huì)生活的一個(gè)縮影。這一點(diǎn)是非常清晰的。
03
方法很淺顯?
學(xué)界現(xiàn)在有兩種人。一種人蔑視方法,注重實(shí)踐、注重所謂的理論。但是實(shí)際上,更多的是“拍腦袋”的理論。因?yàn)檎嬲睦碚?,還是需要一個(gè)基礎(chǔ)的建構(gòu)。還有一種人聲稱“重視方法”,卻只重視方法中最簡(jiǎn)單的部分。所有使用通用線性模式的線性問題都非常容易。聚類也不是簡(jiǎn)單算算就出來(lái)的,這個(gè)里面的門道特別多。我們?cè)谧鍪袌?chǎng)細(xì)分研究時(shí),聚類的過程是非常辛苦的,通常需要幾個(gè)月的時(shí)間。模型的建構(gòu)不可能是這么簡(jiǎn)單。
一個(gè)不懂方法的人看到方法的內(nèi)容,就會(huì)覺得“他是用數(shù)學(xué)來(lái)做的”,然后稍微學(xué)了點(diǎn)方法之后呢,基本上就是用那種最最簡(jiǎn)單的方式去展現(xiàn),錯(cuò)誤率特別特別高。在定量這一部分,如果哪一篇文章是用頻率表或交互表去做的研究,這個(gè)研究的正確率基本上到不了10%,基本上全是錯(cuò)的。但是,因?yàn)閮?nèi)容中有“數(shù)”,就特別容易被發(fā)表,而編輯隊(duì)伍中,懂分析的人又極少,所以越深入的量化研究越不容易發(fā)表。這樣就使得魚龍混雜,從這個(gè)角度看,有人評(píng)價(jià):“定量研究特別淺”,這沒問題。發(fā)表出來(lái)的內(nèi)容確實(shí)定量的使用特別淺。
當(dāng)一個(gè)學(xué)科稍微成熟的時(shí)候,一定是注意理論和方法的。在你沒有把復(fù)雜的內(nèi)容學(xué)會(huì),你就不可能知道還會(huì)存在錯(cuò)誤。當(dāng)你知道了復(fù)雜的之后,再回看自己原來(lái)寫的文章,有時(shí)候會(huì)后脊梁骨發(fā)涼,意識(shí)到“糟了,這個(gè)錯(cuò)了”。這是在強(qiáng)調(diào)簡(jiǎn)單化分析時(shí)無(wú)法做到的。
在談到因果模型的時(shí)候,基本上看不到非線性,看不到交互作用。好不容易看到一篇文章使用交互分析,還是錯(cuò)的,使用的是完全不符合邏輯的模型。即便如此,這種復(fù)雜模型的應(yīng)用在國(guó)內(nèi)已經(jīng)非常少見了,就只有快速而無(wú)效的文章。這導(dǎo)致對(duì)于復(fù)雜模型的需求減少了。絕大部分人不知道,他覺得自己所學(xué)的就是對(duì)的,認(rèn)為復(fù)雜的不需要。全面地走向簡(jiǎn)單化,走向好看,走向忽悠人,這是方法領(lǐng)域最危險(xiǎn)的事情。
研究社會(huì)生活中真實(shí)的1%
04
現(xiàn)在很多人做分析都喜歡強(qiáng)調(diào),“有20%的人喜歡,這已經(jīng)可以啦。”然后去分析這20%??墒巧鐣?huì)生活中有什么東西能夠有20%的人喜歡。如果一個(gè)產(chǎn)品有20%的中國(guó)人都喜歡,那它得什么樣啊?這是不可能的。絕大部分應(yīng)該是在百分之一左右。這才是真實(shí)的。那么我們就要研究這百分之一到底是什么樣的人,他們輻射的影響力又是怎樣的。
從2008年開始一直到現(xiàn)在,我的團(tuán)隊(duì)每年都會(huì)做一個(gè)特別大的研究,就是有關(guān)移動(dòng)互聯(lián)網(wǎng)的“手機(jī)人”系列研究。在這個(gè)研究里面,我們通過構(gòu)建多次項(xiàng)的四次方或者五次方模型,發(fā)現(xiàn)這些年來(lái)蘋果用戶在年齡分布上呈“M型”。M型的核心有兩個(gè),一個(gè)是年輕的果粉,一個(gè)是“技術(shù)紅顏”。“技術(shù)紅顏”是一個(gè)年齡在35歲到45歲、文化程度高、收入高的女性群體。她們買所有科技產(chǎn)品時(shí),都會(huì)選擇技術(shù)最全面、最先進(jìn)的產(chǎn)品,但使用其中不到10%的功能。這一群體只占整個(gè)移動(dòng)互聯(lián)網(wǎng)用戶比例0.67%。有誰(shuí)在乎這個(gè)群體呢?但是她的影響力是非常大的。蘋果用戶M型分布,這八年以來(lái)一直如此。它的發(fā)展在此,瓶頸也在此,很難突破,想把這部分人從市場(chǎng)中切走,也切不走。
有沒有一個(gè)說法,文化程度越高,某個(gè)現(xiàn)象越是怎么樣。在現(xiàn)實(shí)生活中,這是從來(lái)沒有存在過的。但是在統(tǒng)計(jì)上的顯著性幾乎是永遠(yuǎn)會(huì)存在的。原因很簡(jiǎn)單:在你調(diào)查的樣本中,某幾個(gè)部分占比例極低,直接進(jìn)入殘差,所以線性化色彩就會(huì)變得非常明顯。但是絕大部分真實(shí)的情況,變量與現(xiàn)象的關(guān)系是“N型”或者“U型”,比如“傻博士”現(xiàn)象。在撰寫《年齡論》時(shí),我總共在里面涉及了47個(gè)模型,來(lái)研究年齡影響人的各種各樣的方式。我認(rèn)為這還沒有弄完,肯定還有很多。我大概測(cè)算了一下,年齡變量對(duì)某一現(xiàn)象的影響,線性率可能只有百分之一。絕大部分是非線性的。非線性邏輯才是日常生活的本質(zhì)。
05
1%有著改變世界的力量
《七八月的孩子》源于偶然讀到了《異類:不一樣的成功啟示錄》。這本書中講述了一個(gè)驚人的發(fā)現(xiàn)。加拿大心理學(xué)家巴恩斯利通過搜集職業(yè)曲棍球運(yùn)動(dòng)員的出生日期,發(fā)現(xiàn)加拿大曲棍球運(yùn)動(dòng)有一項(xiàng)鐵的規(guī)律:1-3月出生的球員比例為40%,4-6月出生的球員比例為30%,7-9月出生的球員比例為20%,10-12月出生的球員比例為10%。其中道理其實(shí)很簡(jiǎn)單。因?yàn)樵诩幽么螅髑蚵?lián)賽的法定注冊(cè)時(shí)間是1月1日。這就意味著,一個(gè)9歲的男孩必須是在1月1日之前滿了9歲,才可以進(jìn)入9歲以上曲棍球聯(lián)賽。而同一年的12月份之前還沒滿10歲的男孩,卻只能暫時(shí)被晾在球場(chǎng)的另一邊——這個(gè)年齡正是發(fā)育的青春期,12個(gè)月的差距會(huì)給他們的體質(zhì)造成巨大的影響。
這種制度的影響給了我們一定的啟發(fā),于是在游戲研究的過程中加了一道題“你是幾月幾號(hào)出生的”。我們通過復(fù)雜建模得出結(jié)論:“七八月”出生的孩子更依賴網(wǎng)絡(luò)游戲,游戲涉入指數(shù)高于其他月份的孩子,沉迷風(fēng)險(xiǎn)更高。這是因?yàn)橹贫纫?ldquo;8月31日前須年滿6周歲才能入學(xué)”,所以9月1日出生的孩子和8月31日出生的孩子一起上學(xué),學(xué)齡卻整整相差了一歲。9月-12月出生的孩子更為成熟,往往會(huì)有班長(zhǎng)、學(xué)委等班內(nèi)職務(wù)。這部分孩子也因此更加自律。而7、8月出生的孩子本身年齡小,不成熟,他們更像是班中的“吉祥物”。這一點(diǎn)在男孩子身上的體現(xiàn)更為突出。這樣,對(duì)于9-12月出生的孩子而言,就形成了一個(gè)順著制度發(fā)展的上升路徑。更為重要的事實(shí)是,在發(fā)展機(jī)會(huì)方面,7-8月孩子進(jìn)入重點(diǎn)中學(xué)的比例最多比其他月份出生的孩子低23.3%。這種情況一直發(fā)展到博士。北大的博士生日在9-12月的比例遠(yuǎn)遠(yuǎn)高于7、8月。這個(gè)制度影響了一個(gè)人的一生。
《社會(huì)學(xué)研究》審這篇稿子審了整整一年。評(píng)審從理論和方法進(jìn)行全方位的審核。謝宇和他的學(xué)生還寫了文章來(lái)反駁我,對(duì)這個(gè)事情進(jìn)行反復(fù)的商榷。商榷本身就是理論視角的討論,是從不同的模式進(jìn)行解讀。之后就有一系列的人進(jìn)入了這個(gè)討論。這是非常好的事情,是我特別愿意看到的事情。
做學(xué)問是一個(gè)「門套門」的過程
06
做學(xué)問是一個(gè)“門套門”的過程。你入門之后,發(fā)現(xiàn)自己喜歡這個(gè)方向,那你開始往這個(gè)方向里鉆,這個(gè)方向里這一點(diǎn)有意思,然后再鉆進(jìn)去。這樣一步步深入。而不是站在第一個(gè)門的門口,以為這就是全部。
我受我父親影響特別大。我父親是做世界近現(xiàn)代史研究的。《辭?!分兴惺澜缃F(xiàn)代史的條目都是我父親做的。我父親退休之后花了20多年的時(shí)間寫了80多萬(wàn)字,研究日本公務(wù)員制度史。老人家電腦完全不會(huì),爬格子,一點(diǎn)一點(diǎn)寫。這20多年,就寫了這一本書。我也特別尊敬柯老師。無(wú)論風(fēng)向怎么變,柯老師也沒有變,一直在踏踏實(shí)實(shí)地做學(xué)問。學(xué)界的研究就應(yīng)該如此。即便是想要趕潮流,也要去談潮流存在的問題。
在我寫《年齡論》的時(shí)候,年齡這個(gè)變量我研究了11年的時(shí)間,就是每天在電腦上看年齡這個(gè)變量和其他的變量的關(guān)系會(huì)形成什么樣的模型,不斷探索理論模式。這11年我什么別的事都沒干,沒有發(fā)一篇文章。
很多人知道我主要做建模,也做田野調(diào)查,但是不知道我在博士開了一門課叫做“西方社會(huì)理論思想史”,專講西方思想史。理論和方法,這是一個(gè)學(xué)科的根本。方法應(yīng)該回歸方法的本身,如果一個(gè)學(xué)科對(duì)自己的方法沒有深刻的反思,那么只能走向泡沫化。這是我最擔(dān)心的事。
