亚洲a∨无码精品色午夜,四虎永久在线精品视频,少妇丰满大乳被男人揉捏视频,熟女少妇丰满一区二区,少妇无码av无码专区在线观看

推廣 熱搜: 湖北  加油站  山東  滿意度  汽車  就業(yè)質量  大數(shù)據(jù)  移動  重慶  房地產 

大數(shù)據(jù)與小數(shù)據(jù): 民族志學者和數(shù)據(jù)科學家如何合作?

日期:2016-02-04     瀏覽:556    下載:0     體積:1M     評論:0    

Notice: Undefined variable: description in D:\websoft\www\diaoyan\wwwroot\file\cache\tpl\default\chip\content.php on line 161












 2001年,維基百科剛剛創(chuàng)立的時候,提出了令人頗為激動的目標口號:維基百科要為地球上的每一個人提供自由的百科全書——它是人們用自己選擇的語言書寫的、全世界知識的總和。那個時候,Web2.0的概念還沒出現(xiàn),從來沒有人這么隆重地提出要集結面目模糊的普通人的智慧去解決普通人的問題,而且方法如此巧妙。于是,這個公開、免費、純粹依靠自發(fā)群體協(xié)作,同時也有嚴謹?shù)膶W術要求的龐大知識系統(tǒng),也被人譽為“自由人的自由聯(lián)合”。

但是,正因為維基百科是開放、自由的,就意味著誰都可以編輯。那么既然有貢獻者,也就會有破壞者——萬一許多人的智慧結晶在一夕盡毀怎么辦?2004年,IBM的一項研究卻發(fā)現(xiàn)了一些“神奇”的現(xiàn)象:維基百科遭遇的破壞,頻繁得令人吃驚,但多數(shù)破壞活動5分鐘內就能被修復。2005年,麻省理工大學另一項研究又發(fā)現(xiàn),對于維基百科內容的大規(guī)模刪除,平均可以在2.8分鐘內被修正。而如果破壞分子在完全刪除后再加上淫穢內容,那么網(wǎng)頁被修復得更快——平均只要1.7分鐘。



我們并不知道是誰修復了網(wǎng)頁——正如我們不知道是誰破壞的、而當初又是誰貢獻的。以此類推,在維基百科這個龐大的群體協(xié)作系統(tǒng)里面,還有很多運作機制是我們不清楚的,比如都是些什么人熱衷于編輯詞條?他們的動機是什么?人們編輯詞條的時候引證的信源從哪里來?出處是真實的嗎?符合維基百科對于學術的要求嗎?——這些問題,也正是今天我們推送的文章作者——一位民族志(定性研究)專家和她的合作伙伴——一群數(shù)據(jù)科學家們所感興趣的。他們覺得,這些問題的答案可能就隱藏在維基百科浩瀚的數(shù)據(jù)背后、最后能夠還原為一個個散落在世界各處的人的具體行為。然而,這些研究者各自的研究方法都無法完整地透視這些現(xiàn)象,于是他們打破方法上的“定性”和“定量”區(qū)隔,選擇并肩合作——并不是那種各自做各自的、最后把結果綜合起來的合作,而是——互相學習對方的方法,使用對方的方法,把對數(shù)據(jù)的分析和對人的理解真正結合起來,以期獲得更廣闊的視域和更深刻的洞察。

聽起來好像挺容易——但這意味著一個專家要去別人的領域里從小學生做起——這是需要勇氣的。不過他們覺得,為了興趣、為了對人類現(xiàn)象更深刻的探尋,一切都是值得的。


這就是我們推薦這篇文章的原因。



民族志學者和數(shù)據(jù)科學家如何合作?
大數(shù)據(jù)與小數(shù)據(jù)

Heather Ford, University of Oxford, 1 St Giles, Oxford OX1 3JS, UK.
郵箱:heather.ford@oii.ox.ac.uk


摘要

近三年來,民族志學家,同時也是在讀博士的希瑟•福特(Heather Ford)一直致力于一項特殊的合作項目。她與來自明尼蘇達州的兩位數(shù)據(jù)科學家戴夫•莫斯坎特(Dave Musicant )和佘蘭德•沈(Shilad Sen)合作,旨在對維基百科的來源進行探究。在本文中,她提到他們三位是如何從相識到一起工作,以及在這段經歷中的寶貴收獲。通過此項合作,有三個主題變得顯而易見,而這也是他們合作成功的關鍵:數(shù)據(jù)科學家和民族志學家有很多共同之處;他們的研究方法是互補的;他們共同發(fā)掘數(shù)據(jù)而不是刻意區(qū)分研究任務。

關鍵詞

合作;跨學科;民族志學家;數(shù)據(jù)科學;大數(shù)據(jù);研究方法


2011年7月,在加州山景城(Mountain View)召開的開放式協(xié)作聯(lián)合國際研討會(WikiSym)上,我認識了來自明尼蘇達州的兩位計算機科學家。那時我以民族志學家的身份在非營利性科技公司Ushahidi(一個免費開放資源的平臺,是為了報道 2007 年肯尼亞一次有爭議選舉而創(chuàng)建的,允許用戶報道他們見證的新聞,然后把這些報道加載到一張在線地圖上,讓這些信息集中起來)工作,也曾經與計算機科學家在工具的構建和設計方面有所合作,但從沒有參與過專門針對于研究本身的項目。之所以被邀請來到研討會,是因為我們三個都對維基百科的來源和引用有所研究。

最近我們正在爭論到底是誰開啟了這個話題。作為卡爾特大學(Carleton College)的計算機科學家,戴夫•莫斯坎特(Dave Musicant)說,他喜歡做跨學科研究,但總是羞于做自我介紹。佘蘭德•沈(Shilad Sen)是麥卡利斯特學院(Macalester College)計算機科學方向的助理教授,與戴夫共同致力于數(shù)據(jù)集的研究工作,此數(shù)據(jù)集包含大約350萬維基百科中的6700萬源發(fā)布。佘蘭德隨后大方寫到:“當你來找我們討論時,我們的研究其實已經陷入了停滯狀態(tài)。我們一直在做大數(shù)據(jù)分析,但卻不知道應該如何處理這些數(shù)據(jù)。你救了我們!”

現(xiàn)在回想起來,我們后來的合作在很大程度上可以說是互相“拯救”。在研究過程中,我試圖描述維基人處理突發(fā)事件來源的方式,這有助于Ushahidi的軟件開發(fā)工程,但對于指引新方向的維基百科源,我一直沒能找到一個更廣闊的視角來透視維基百科的信息來源。同時對于戴夫和佘蘭德來說,他們想搞清楚是否可以推測維基百科上持久性信源的特性,以此來開發(fā)軟件工具,為維基人提供引文,但是關于信源應用或刪除的依據(jù),他們并沒有一個詳細的方案。



接下來的兩年,我們三個每幾個月就在Skype上碰頭,分享各自的發(fā)現(xiàn),然后提出新的分析觀點。我們還徹底檢驗了新的數(shù)據(jù)理論,最終在2013年為開放式協(xié)作聯(lián)合國際研討會撰寫出題為“到達信源(Getting to the source)”(福特等,2013)的論文。最近我去明尼蘇達州拜訪了他們二位,討論研究的未來發(fā)展方向,但合作形式將繼續(xù)保持非正式性和獨特性。盡管如此(或者說正因為如此),和他們二位的合作成為我早期研究生涯中一段非常愉快和有教育意義的經歷。在我看來,原因在于一方面我們在合作中性格相投,相處融洽,另一方面,擁有不同認知論和方法論的研究者在這種跨學科合作中,如果一直保持開放和創(chuàng)造性的思維方式,總會碰撞出不一樣的火花,得到令人興奮的研究成果。這里有三個特別值得注意的觀察結果:數(shù)據(jù)科學家和民族志學者有很多共同之處;他們的研究方法是互補的;他們共同發(fā)掘數(shù)據(jù)而不是刻意劃分研究任務。


民族志學家和數(shù)據(jù)科學家有很多共同之處

雖然乍看之下,大數(shù)據(jù)研究和人種學南轅北轍(畢竟,民族志學家擁有的研究基礎,是建立在與當代媒介化社會截然不同的社會中的)。但是,它們之間確實具有顯著的共性。兩門學科都承認,人類的行為(比起言語)是非常重要的研究對象,并且如果想深入理解研究課題,對數(shù)據(jù)的探索是必不可少的。正如珍娜•伯勒爾(Jenna Burrell)(2012)在《民族志概況 》(Ethnography Matters)中所寫:民族志學家采用勞動密集型的方式,通過出門采集,接觸第一手的資料來獲取信息。而研究大數(shù)據(jù)的專家卻不同,他們研究出捕獲短暫行為的方法。指的就是,某人點擊鏈接,設置個人偏好,在特定時間內從一個無線接入點轉到另一個等相關行為。伯勒爾認為,民族志學家和數(shù)據(jù)科學家只是在研究人類行為上的側重不同。例如,從現(xiàn)場對話和正式訪談中,民族志學家做了許多輔助性工作,將顯性行為和隱性含義聯(lián)系起來,而另一方面,數(shù)據(jù)科學家更傾向于進行行為數(shù)據(jù)的跟蹤。



然而,如果配合默契,民族志學家和數(shù)據(jù)科學家將攜手共進,共同找尋出普通問題的解決方案,進而展開更廣泛(在數(shù)據(jù)科學領域)和更深入(在人種學領域)的研究。在“到達信源”的合作中,我們三個人都懷有對維基百科信源的好奇,以及——在更廣泛的層面上——對維基百科運作模式的好奇,而正是這份共同的好奇心推動了研究的進展。我對維基百科“批量處理信源的方式很感興趣,我也曾經查閱過維基百科的相關政策,發(fā)現(xiàn)實際采用信源的方式和政策上所建議的非常不同。我好奇的是,信源選擇的狀況是否與政策上“學術源居多”的描述相矛盾。為了看看我的發(fā)現(xiàn)是否體現(xiàn)了更明顯的趨勢,我需要著手研究關于數(shù)據(jù)跟蹤的整個語料庫。佘蘭德和戴夫對信源的粘滯性感興趣,他們致力于探索某些信源在維基百科上長盛不衰的原因。因此,對他們來說,信源采集的過程,對于理解和評估數(shù)據(jù)庫中數(shù)據(jù)的流動路徑至關重要。我們認識到,相互分享各自不同領域的研究方法和知識,大家都將會受益匪淺。我需要學習分析整個語料庫的方法,而他們需要了解維基百科的日常實踐操作。

結果表明,除了一些常見問題和需要共享的專業(yè)知識,我們還擁有了研究方法上的共性。剛開始和佘蘭德、戴夫一起工作時,我便驚喜地發(fā)現(xiàn)我們都傾向于運用歸納性(對我們研究中數(shù)據(jù)的理論進行檢測),系統(tǒng)性(就所提供線索繼續(xù)追查,質疑之前的假設),以及合作性(平等地擔負責任,共同做決定,明確這些決策對整個項目產生的影響)強的研究方法。在開展此項合作之前,我認為,定量研究已經被廣泛運用 ,而定量研究人員如果再與定性研究人員合作,將收效甚微。但是,和戴夫、佘蘭德一起工作時,我發(fā)現(xiàn)我們有很多共同之處,這種合作會給數(shù)據(jù)科學家和民族志學家兩方都帶來有價值的成果。


我們的技能和經驗具有互補性



在維基百科研究的舞臺之上,一些大數(shù)據(jù)研究者采用訪談、參與觀察、編碼等方法,通過大規(guī)模分析來探索研究問題。例如,布萊恩•基根(Brian Keegan)的體系內大規(guī)模網(wǎng)絡路徑分析(large-scale network analyses of traces through a system)(基根等,2012)便是大數(shù)據(jù)研究的典范,然而他依然花費大量的時間參與維基百科內容的分類生產之中,通過在這個領域的學習,他更加了解到所收集的數(shù)據(jù)路徑的含義。然而,很少有像基根這樣的研究者,運用所掌握的多種必要的研究方法,試圖解答我們這個時代的重要問題?,F(xiàn)實中更常見的則是各種類型的合作,研究者們擁有多種專業(yè)研究技能和認知論,一起工作,為研究提供更廣泛的視角。研究者們相互學習,通過掌握自身并不熟悉的研究方法,不斷提升技能,積累經驗。

在此項關于維基百科來源研究的合作之中,戴夫和佘蘭德有足夠的能力和資源來提取350萬維基百科中的6700萬源發(fā)布。我在進行訪談后發(fā)現(xiàn),維基人從百科全書中選取、記錄信息源,因此,我提出分割數(shù)據(jù)的不同方法,以助于構建起一個嶄新的視野。戴夫和佘蘭德使用復雜軟件和數(shù)據(jù)加工軟件來處理龐大的數(shù)據(jù),而我更了解維基百科的實際操作,提供一些進行數(shù)據(jù)選擇的分析方式。例如,一個被訪的專家曾說,維基人經常通過本地來源獲取信息,但卻標注上西方來源,因此我們可以同地理相出處相聯(lián)系,來探究信源的多樣性。通過理解這種做法,我們可以發(fā)現(xiàn)在利用數(shù)據(jù)的過程中丟失了什么,也就是說,編輯們在輸入維基百科的引用時,并沒有標注出自己獲取信息的實際位置,而是展現(xiàn)了他們自以為讀者認可的出處。這個小細節(jié)對于我們總結來源和引用所展現(xiàn)的內容,以及在類似于維基百科的大眾群體信息生產社區(qū)開展合作的需求,具有重要的含義。經過反復討論,我與戴夫、佘蘭德最終找到一些驗證假設的方法,發(fā)展出了分析數(shù)據(jù)的不同視角 。我們都承認,在整個過程中,我們之間的能力和經驗具有很強的互補性。


共同發(fā)掘數(shù)據(jù)比區(qū)分任務效果更好



許多合作研究失敗的原因在于,按照不同類型、研究所認可的技能和專業(yè)知識來分配任務,而不是為研究設計一個更具創(chuàng)造性的方法。在這種傳統(tǒng)觀念影響下,民族志學家可能被要求去做訪談和人工編碼,而大數(shù)據(jù)分析師只能在沒有合作和研究經驗分享的前提下,進行數(shù)據(jù)的大規(guī)模分析。結果就是,他們彼此之間并沒有共享技能:數(shù)據(jù)科學家僅僅被當作操控數(shù)據(jù)的技術人員,而民族志學家扮演了用所寫東西進行填充內容的角色。如果兩類研究者希望不斷積累經驗,相互借力獲得高質量的研究成果,那么雙方就都需要承擔非熟悉領域的相關任務,或者至少全程參與某個特定數(shù)據(jù)的發(fā)掘過程。

盡管我自己就可以對項目的信息來源進行人工編碼,但戴夫和佘蘭德還是承擔了一部分任務,最終我們每個人都對編碼計劃的發(fā)展有所貢獻。在完成了自己的任務后,我們還相互檢查彼此的編碼,以確保其精確性。我是編碼計劃的主管,但戴夫和佘蘭德也會對我在項目的定義方面提出質疑,幫助我手工編碼隨機樣本,以及檢查我的編碼結果。通過這種方式,我們每個人都對項目本身和研究方法有了更深刻的理解——眾所周知,在研究方法的實踐過程中,我們所選擇的特定的視角,會顯著影響研究結果的產出形態(tài)。 我學會了大規(guī)模數(shù)據(jù)分析的操作方法,以及在獲得特定結果過程中進行選擇的方式。另一方面,佘蘭德已經開始把我們共同開發(fā)出的編碼方案,作為在麥卡利斯特學院方法課上的案例給學生講解。在整個項目的開展過程中,我們都竭盡全力,分擔非熟悉領域的任務,當然,和只完成自己所擅長領域的工作相比,收獲也更多。

總之,民族志學家從大數(shù)據(jù)來源的分析中收獲頗多,他們擁有獨特的視角,通過補充性的觀察,可以發(fā)現(xiàn)參與者在媒體平臺上互動的方式。相反,數(shù)據(jù)科學家從定性研究的角度,獲取缺失數(shù)據(jù)、不完整數(shù)據(jù)的含義,探索數(shù)據(jù)追蹤產生的社會意義。在合作中,民族志學家和數(shù)據(jù)科學家不僅得到了更加嚴謹?shù)难芯砍晒?,而且發(fā)掘出了更多的研究技能。通過此次合作,我對定量研究的良好效果贊嘆不已。這段經歷再次印證了那句話:無論我們管自己叫“定性研究者”還是“定量研究者”,一項好的研究都不會因此而受到影響。


參考文獻

1.Burrell J (2012) The ethnographer’s complete guide to big data: Answers.Ethnography Matters. Available at:www.ethnographymatters.net/blog/2012/06/11/the-ethnographers-complete-guide-to-big-data-part-ii-answers/ (accessed 9 July 2014).

2.Ford H, Sen S, Musicant DR, et al. (2013) Getting to the source: wher does Wikipedia get its information from? In: Proceedings of the 9th international symposium on open collaboration. New York, NY: ACM, pp. 9:1–9:10. doi:10.1145/2491055.2491064.

3.Keegan B, Gergle D and Contractor N (2012) Do editors or articles drive collaboration? Multilevel statistical network analysis of Wikipedia coauthorship. In:Proceedings of the ACM 2012 conference on computer supported cooperative work. New York, NY: ACM, pp. 427–436. doi:10.1145/2145204.2145271



原文鏈接:http://bds.sagepub.com/content/1/2/2053951714544337.full.pdf+html

本文由北京大學社會化媒體研究中心官方微信平臺“數(shù)洞社媒”獨家編譯,轉載請注明出處。
打賞
0相關評論
本類推薦
下載排行
網(wǎng)站首頁  |  關于我們  |  聯(lián)系我們  |  加入我們  |  認證企業(yè)  |  付款方式  |  友情鏈接  |  使用協(xié)議  |  版權隱私  |  網(wǎng)站地圖  |  排名推廣  |  廣告服務  |  積分換禮  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  京ICP備15049263號
Processed in 1.659 second(s), 544 queries, Memory 6.59 M