說在前面的話
認識劉德寰教授,掐指算起來已經快15年了,第一次認識劉老師,是在市場研究協(xié)會舉辦的一個短期定性研究培訓上,劉老師給培訓班做了他對人群所做的研究(他簡稱為“傻博士現(xiàn)象”)的講座。他獨特的思維和深刻的洞察力,以及妙趣橫生的演講能力,都給我留下了深刻印象。
之后幾年里,劉老師經常受邀參加我們方向碩士研究生的畢業(yè)論文答辯,屢次與劉老師同為答辯老師,聽他對論文鞭辟入里的分析,每每覺得很是過癮。從劉老師身上能感到北大所傳承的嚴謹?shù)闹螌W和獨立的思考。感佩他深厚的學術積累和對研究方法嫻熟的掌握和運用。從下面的訪談中,也同樣能感受到劉老師身上獨特的學術魅力。

劉德寰:北京大學社會學博士、北京大學新媒體研究院教授、北京大學新聞與傳播學院副院長、北京大學市場與媒介研究中心副主任。入選北京市“百人工程”學者,著作《年齡論》榮獲教育部人文社會科學優(yōu)秀成果三等獎。
著作包括:《年齡論:社會空間中的社會時間》、《沒有極限的未來:手機人全面解構產業(yè)》、《顛覆與重整:手機人的群落與游牧》、《正在發(fā)生的未來:手機人的族群與趨勢》、《透視電商:網(wǎng)絡購物消費者研究》、《銀行業(yè)的互聯(lián)網(wǎng)之路》、《市場研究與應用》、《現(xiàn)代市場研究》、《市場調查教程》、《市場調查》、《社會調查的理論基礎與實用方法》、《中國人讀書生活透視》、《希望工程調查》。
訪談實錄
01
大數(shù)據(jù)時代,方法變了?
現(xiàn)在很多人都在強調“新”,強調大數(shù)據(jù),強調大數(shù)據(jù)中一些比較炫的部分、比較簡單的部分。但是實際上,研究方法的根是沒有變的:基于統(tǒng)計的推斷、分析的基本范式,這些其實并沒有變。所謂的“變”,只不過是加了一些炫的名詞和一些角度而已。純數(shù)據(jù)帶來不了任何東西,一定是數(shù)據(jù)的解讀和分析才具有意義。但是現(xiàn)在大家都強調對數(shù)據(jù)的擁有。我在全國范圍內做一些關于“大數(shù)據(jù)隱憂”的研究,發(fā)現(xiàn)新聞傳播學科、包括其他一些學科,都還是偏重在方法中比較簡單的部分,極少涉及方法中復雜的內容,而且方法使用的錯誤率極高。
都說大數(shù)據(jù)是金礦??蛇@是沙里淘金。絕大部分內容是沙子,金子是很少的。大數(shù)據(jù)最大的麻煩是,你想在稻草里找這根針,問題是很多稻草和針長的一模一樣。你怎么來判斷,這根是稻草,這根是針。這實際上是非常難的。大數(shù)據(jù)有數(shù)據(jù)并且數(shù)據(jù)收集簡單。對于絕大部分不懂抽樣、不懂數(shù)據(jù)的人來說,“大”本身就是好。大數(shù)據(jù)在現(xiàn)有技術上,又把圖形化做的很好。這就是science and arts 中的arts。我曾經看到過一個微博影響力的擴散圖:一個一個擴散出來的不同大小的同心圓。那真是好看??墒俏乙豢唇Y論,我明白了:誰粉絲量大,誰的圓就大,誰的影響力大。這個事就不是那么嚴謹了。大數(shù)據(jù)現(xiàn)在絕大多數(shù)做的都是類似的事情。
中國現(xiàn)在在兩個大數(shù)據(jù)領域位于前列:一個是可視化,一個是所謂的智能化推送??梢暬僮骱唵我咨鲜?,重要看審美。所謂的智能化推送,沒辦法驗證分類差異的科學性。只要把人一分類就比不分類強,很多人都是拿著國外的R包,拆解一下,換換數(shù)據(jù),調調權重,拼裝一個,完全沒有基礎研究。原創(chuàng)幾乎沒有。商界真正在負責這部分的人很清楚這些,也在焦慮。
學習方法很簡單?
02
現(xiàn)在,方法的簡單部分普及度極高,甚至有人說:“人人都會數(shù)據(jù)分析”。這是我覺得特別可笑的一句話。這也是不可能的事,因為沒有多年的積累,數(shù)據(jù)分析很難做好。
學生們很愿意學習通用線性模型,因為它簡單:無論是使用spss還是R語言,構建線性模型都非常容易。我在教授計量等簡單課程時,基本上兩到三個小時就可以講完,但是一旦講到比較復雜的回歸分析時,基本上需要9個小時左右。學生們也需要相當長的時間進行課后學習。對學生們來說,他們沒有太多方法方面的基礎,在教學過程中老師教抓取、教展示,雖然皆大歡喜,但是實際上與西方的距離越來越大。因為它在走向簡單化。我大概做了一個測算,每年把復雜建模學會的人大概占到選課人數(shù)的5~8%,而這些人最終還沒有留在學界。
我的課堂非常有意思?,F(xiàn)在是160人的課堂,涉及到3個系的碩士和博士。開始階段,160人肯定是坐滿的,大約還有20個左右站著或者拿著凳子的。這個情況一致持續(xù)到11月份。講到回歸比較難的部分的時候,所有凳子肯定是沒了。坐在座位上的人開始逐漸的減少,最后會少于選課的人數(shù)。走的那些人,覺得聽不懂了,也覺得累。因為等到真正建模的時候,估計連續(xù)得有一個月的時間,晚上睡覺得到凌晨三點左右。你要想學會百分之百就得如此。他認為反正SPSS我也會了,線性模型我也會了,關鍵是他認為發(fā)表文章已經夠了??墒牵绻阆胝业饺魏我粋€變量,控制其他變量之后,研究與某一現(xiàn)象的關系,我們稱為f(x),這個f(x)是無限的。找尋到這個越漸近真實的f(x)的過程是非常辛苦的,而且是沒有盡頭的。回歸分析難,難在殘差,但是基本上絕大多數(shù)人不講殘差分析??瓷先ズ孟駭?shù)據(jù)的結果都能出來,可是其實出來的結果存在問題,這樣人家就會說:“你定量研究有問題。”但是實際上每一個分析,在分析到位的時候,都是社會生活的一個縮影。這一點是非常清晰的。
03
方法很淺顯?
學界現(xiàn)在有兩種人。一種人蔑視方法,注重實踐、注重所謂的理論。但是實際上,更多的是“拍腦袋”的理論。因為真正的理論,還是需要一個基礎的建構。還有一種人聲稱“重視方法”,卻只重視方法中最簡單的部分。所有使用通用線性模式的線性問題都非常容易。聚類也不是簡單算算就出來的,這個里面的門道特別多。我們在做市場細分研究時,聚類的過程是非常辛苦的,通常需要幾個月的時間。模型的建構不可能是這么簡單。
一個不懂方法的人看到方法的內容,就會覺得“他是用數(shù)學來做的”,然后稍微學了點方法之后呢,基本上就是用那種最最簡單的方式去展現(xiàn),錯誤率特別特別高。在定量這一部分,如果哪一篇文章是用頻率表或交互表去做的研究,這個研究的正確率基本上到不了10%,基本上全是錯的。但是,因為內容中有“數(shù)”,就特別容易被發(fā)表,而編輯隊伍中,懂分析的人又極少,所以越深入的量化研究越不容易發(fā)表。這樣就使得魚龍混雜,從這個角度看,有人評價:“定量研究特別淺”,這沒問題。發(fā)表出來的內容確實定量的使用特別淺。
當一個學科稍微成熟的時候,一定是注意理論和方法的。在你沒有把復雜的內容學會,你就不可能知道還會存在錯誤。當你知道了復雜的之后,再回看自己原來寫的文章,有時候會后脊梁骨發(fā)涼,意識到“糟了,這個錯了”。這是在強調簡單化分析時無法做到的。
在談到因果模型的時候,基本上看不到非線性,看不到交互作用。好不容易看到一篇文章使用交互分析,還是錯的,使用的是完全不符合邏輯的模型。即便如此,這種復雜模型的應用在國內已經非常少見了,就只有快速而無效的文章。這導致對于復雜模型的需求減少了。絕大部分人不知道,他覺得自己所學的就是對的,認為復雜的不需要。全面地走向簡單化,走向好看,走向忽悠人,這是方法領域最危險的事情。
研究社會生活中真實的1%
04
現(xiàn)在很多人做分析都喜歡強調,“有20%的人喜歡,這已經可以啦。”然后去分析這20%??墒巧鐣钪杏惺裁礀|西能夠有20%的人喜歡。如果一個產品有20%的中國人都喜歡,那它得什么樣???這是不可能的。絕大部分應該是在百分之一左右。這才是真實的。那么我們就要研究這百分之一到底是什么樣的人,他們輻射的影響力又是怎樣的。
從2008年開始一直到現(xiàn)在,我的團隊每年都會做一個特別大的研究,就是有關移動互聯(lián)網(wǎng)的“手機人”系列研究。在這個研究里面,我們通過構建多次項的四次方或者五次方模型,發(fā)現(xiàn)這些年來蘋果用戶在年齡分布上呈“M型”。M型的核心有兩個,一個是年輕的果粉,一個是“技術紅顏”。“技術紅顏”是一個年齡在35歲到45歲、文化程度高、收入高的女性群體。她們買所有科技產品時,都會選擇技術最全面、最先進的產品,但使用其中不到10%的功能。這一群體只占整個移動互聯(lián)網(wǎng)用戶比例0.67%。有誰在乎這個群體呢?但是她的影響力是非常大的。蘋果用戶M型分布,這八年以來一直如此。它的發(fā)展在此,瓶頸也在此,很難突破,想把這部分人從市場中切走,也切不走。
有沒有一個說法,文化程度越高,某個現(xiàn)象越是怎么樣。在現(xiàn)實生活中,這是從來沒有存在過的。但是在統(tǒng)計上的顯著性幾乎是永遠會存在的。原因很簡單:在你調查的樣本中,某幾個部分占比例極低,直接進入殘差,所以線性化色彩就會變得非常明顯。但是絕大部分真實的情況,變量與現(xiàn)象的關系是“N型”或者“U型”,比如“傻博士”現(xiàn)象。在撰寫《年齡論》時,我總共在里面涉及了47個模型,來研究年齡影響人的各種各樣的方式。我認為這還沒有弄完,肯定還有很多。我大概測算了一下,年齡變量對某一現(xiàn)象的影響,線性率可能只有百分之一。絕大部分是非線性的。非線性邏輯才是日常生活的本質。
05
1%有著改變世界的力量
《七八月的孩子》源于偶然讀到了《異類:不一樣的成功啟示錄》。這本書中講述了一個驚人的發(fā)現(xiàn)。加拿大心理學家巴恩斯利通過搜集職業(yè)曲棍球運動員的出生日期,發(fā)現(xiàn)加拿大曲棍球運動有一項鐵的規(guī)律:1-3月出生的球員比例為40%,4-6月出生的球員比例為30%,7-9月出生的球員比例為20%,10-12月出生的球員比例為10%。其中道理其實很簡單。因為在加拿大,曲棍球聯(lián)賽的法定注冊時間是1月1日。這就意味著,一個9歲的男孩必須是在1月1日之前滿了9歲,才可以進入9歲以上曲棍球聯(lián)賽。而同一年的12月份之前還沒滿10歲的男孩,卻只能暫時被晾在球場的另一邊——這個年齡正是發(fā)育的青春期,12個月的差距會給他們的體質造成巨大的影響。
這種制度的影響給了我們一定的啟發(fā),于是在游戲研究的過程中加了一道題“你是幾月幾號出生的”。我們通過復雜建模得出結論:“七八月”出生的孩子更依賴網(wǎng)絡游戲,游戲涉入指數(shù)高于其他月份的孩子,沉迷風險更高。這是因為制度要求“8月31日前須年滿6周歲才能入學”,所以9月1日出生的孩子和8月31日出生的孩子一起上學,學齡卻整整相差了一歲。9月-12月出生的孩子更為成熟,往往會有班長、學委等班內職務。這部分孩子也因此更加自律。而7、8月出生的孩子本身年齡小,不成熟,他們更像是班中的“吉祥物”。這一點在男孩子身上的體現(xiàn)更為突出。這樣,對于9-12月出生的孩子而言,就形成了一個順著制度發(fā)展的上升路徑。更為重要的事實是,在發(fā)展機會方面,7-8月孩子進入重點中學的比例最多比其他月份出生的孩子低23.3%。這種情況一直發(fā)展到博士。北大的博士生日在9-12月的比例遠遠高于7、8月。這個制度影響了一個人的一生。
《社會學研究》審這篇稿子審了整整一年。評審從理論和方法進行全方位的審核。謝宇和他的學生還寫了文章來反駁我,對這個事情進行反復的商榷。商榷本身就是理論視角的討論,是從不同的模式進行解讀。之后就有一系列的人進入了這個討論。這是非常好的事情,是我特別愿意看到的事情。
做學問是一個「門套門」的過程
06
做學問是一個“門套門”的過程。你入門之后,發(fā)現(xiàn)自己喜歡這個方向,那你開始往這個方向里鉆,這個方向里這一點有意思,然后再鉆進去。這樣一步步深入。而不是站在第一個門的門口,以為這就是全部。
我受我父親影響特別大。我父親是做世界近現(xiàn)代史研究的?!掇o海》中所有世界近現(xiàn)代史的條目都是我父親做的。我父親退休之后花了20多年的時間寫了80多萬字,研究日本公務員制度史。老人家電腦完全不會,爬格子,一點一點寫。這20多年,就寫了這一本書。我也特別尊敬柯老師。無論風向怎么變,柯老師也沒有變,一直在踏踏實實地做學問。學界的研究就應該如此。即便是想要趕潮流,也要去談潮流存在的問題。
在我寫《年齡論》的時候,年齡這個變量我研究了11年的時間,就是每天在電腦上看年齡這個變量和其他的變量的關系會形成什么樣的模型,不斷探索理論模式。這11年我什么別的事都沒干,沒有發(fā)一篇文章。
很多人知道我主要做建模,也做田野調查,但是不知道我在博士開了一門課叫做“西方社會理論思想史”,專講西方思想史。理論和方法,這是一個學科的根本。方法應該回歸方法的本身,如果一個學科對自己的方法沒有深刻的反思,那么只能走向泡沫化。這是我最擔心的事。
