前言
自18個(gè)月前上一次調(diào)查以來,大數(shù)據(jù)分析工具取得了穩(wěn)步進(jìn)展;這表明試點(diǎn)項(xiàng)目和概念證明繼續(xù)轉(zhuǎn)變?yōu)樯a(chǎn)環(huán)境應(yīng)用程序,41%的企業(yè)聲稱部署了一種生產(chǎn)應(yīng)用程序,而上一次只有10%。
- 與所有主要的企業(yè)技術(shù)采用生命周期一樣,客戶部署軟件的能力受制于吸收消化復(fù)雜軟件的能力。
- 具體來說,阻礙內(nèi)部部署型Hadoop更快發(fā)展的兩大限制因素是龐大的管理開銷和需要專門技能。
兩個(gè)隱含的重大影響造成了廠商號(hào)稱100%的增長(zhǎng)與實(shí)際現(xiàn)狀之間出現(xiàn)脫節(jié)。
- 許多沒有使用的軟件堆積在客戶的“庫(kù)存”中――就像上世紀(jì)90年代中后期企業(yè)資源規(guī)劃(ERP)和企業(yè)互聯(lián)網(wǎng)基礎(chǔ)設(shè)施采用方面出現(xiàn)泡沫那樣;在前期收入少得多的訂閱軟件盛行的時(shí)代下,廠商可能竭力推銷用戶目前吃不消的單子,以期抵消直銷活動(dòng)的高昂成本。
- 隱藏的挑戰(zhàn),尤其是隨著Hadoop進(jìn)入主流:由于管理和技能方面的開銷要求比較低,Hadoop即服務(wù)以及來自AWS、Azure和谷歌的云原生服務(wù)更容易“消費(fèi)”。
概要
來自廠商和研究公司的夸大說法聲稱Hadoop廠商的收入增長(zhǎng)率高達(dá)三位數(shù);聲稱對(duì)參與大數(shù)據(jù)分析生態(tài)系統(tǒng)的另外許多企業(yè)來說,數(shù)字接近三位數(shù)。Wikibon的調(diào)查結(jié)果表明這些夸大說法與實(shí)際情況之間存在著脫節(jié)。這種脫節(jié)意味著企業(yè)客戶的軟件“庫(kù)存”越積越多。到某個(gè)時(shí)候,我們可能會(huì)看到庫(kù)存“修正”,企業(yè)會(huì)放緩采購(gòu),以便部署的系統(tǒng)開始趕上來。
從許多方面來看,Hadoop和大數(shù)據(jù)分析工具的采用與上世紀(jì)90年代中后期兩個(gè)超速發(fā)展的軟件市場(chǎng)的情況頗為相似。當(dāng)時(shí),ERP應(yīng)用軟件(比如PeopleSoft)和企業(yè)互聯(lián)網(wǎng)基礎(chǔ)設(shè)施軟件(比如Broadvision)都出現(xiàn)了類似增長(zhǎng)。但那時(shí)眾多企業(yè)無法同樣迅速地吸收消化軟件;我們的調(diào)查結(jié)果表明,現(xiàn)在它們同樣無法迅速吸收消化。
無論那時(shí)還是現(xiàn)在,管理和開發(fā)技能以及部署和運(yùn)行新應(yīng)用架構(gòu)的操作流程無法以三位數(shù)高速增長(zhǎng)。當(dāng)初擔(dān)心遺留應(yīng)用軟件受到千年蟲(Y2K)的影響,加快了ERP軟件的采購(gòu)。而15年至20年前,生怕錯(cuò)過互聯(lián)網(wǎng)革命為互聯(lián)網(wǎng)基礎(chǔ)設(shè)施起到了助推作用。同樣,我們認(rèn)為,如今生怕錯(cuò)過大數(shù)據(jù)分析革命也在促進(jìn)采購(gòu)。
除了這些需求方面的問題外,還有新的供應(yīng)方面的問題。上世紀(jì)90年代中后期,企業(yè)軟件和商業(yè)模式通過銷售昂貴的軟件前期許可證,支付直銷團(tuán)隊(duì)所需的極高昂的成本:公司每創(chuàng)收1美元,直銷方面至少要花0.5美元的成本。研發(fā)成本和利潤(rùn)來自每年可續(xù)生的維護(hù)費(fèi),日益龐大的用戶群帶來了相當(dāng)可觀的維護(hù)費(fèi)。由于開源軟件唱主角,現(xiàn)在很少有前期許可證收入可以支付那些銷售和營(yíng)銷開支。而按照會(huì)計(jì)原則,廠商又無法事先確認(rèn)為時(shí)多年的訂閱收入單子。因而,廠商面臨更大的壓力,設(shè)法銷售大宗單子來支付高昂開支,可是客戶吃不消這種單子。反過來,廠商至少可以要求客戶支付這些采購(gòu)費(fèi),所得收入支付部分銷售和營(yíng)銷開支,即使廠商的報(bào)告利潤(rùn)很低或者虧損。
調(diào)查方法概述
Wikibon對(duì)美國(guó)企業(yè)的300名從業(yè)人員進(jìn)行了一次網(wǎng)上調(diào)查,這些企業(yè)已經(jīng)部署了大數(shù)據(jù)分析項(xiàng)目,或者評(píng)估在2015年秋季開展大數(shù)據(jù)分析項(xiàng)目。這項(xiàng)調(diào)查是2014年針對(duì)同一群調(diào)查對(duì)象開展的一項(xiàng)調(diào)查的后續(xù)。許多問題一樣,那樣我們可以分析一段時(shí)間后的進(jìn)展。我們對(duì)大數(shù)據(jù)分析下了籠統(tǒng)的定義,包括傳統(tǒng)的縱向擴(kuò)展型關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)難以管理的技術(shù)和數(shù)據(jù)。想查看調(diào)查方法和調(diào)查對(duì)象概況的全面描述,請(qǐng)參閱文章末尾的“調(diào)查方法和調(diào)查對(duì)象”這個(gè)部分。
調(diào)查結(jié)果解讀
(在可能的情況下,我們將調(diào)查結(jié)果描述了相對(duì)2014年春季調(diào)查的百分比變化)
針對(duì)大數(shù)據(jù)分析的態(tài)度:認(rèn)為大數(shù)據(jù)分析是競(jìng)爭(zhēng)優(yōu)勢(shì)來源的企業(yè)多了6%。
許多企業(yè)相信,大數(shù)據(jù)分析工具對(duì)業(yè)務(wù)將至關(guān)重要,是一個(gè)新的競(jìng)爭(zhēng)優(yōu)勢(shì)來源(52.1%),而不是主要用來補(bǔ)充現(xiàn)有的數(shù)據(jù)倉(cāng)庫(kù)和商業(yè)智能工作負(fù)載(43.2%)。2014年春季,持有這兩種態(tài)度的調(diào)查對(duì)象比例相當(dāng)。
圖1:針對(duì)大數(shù)據(jù)分析的態(tài)度(來源:Wikibon 2015)
大數(shù)據(jù)分析部署現(xiàn)狀:擁有至少一個(gè)生產(chǎn)環(huán)境應(yīng)用程序的企業(yè)多了10%
試點(diǎn)項(xiàng)目和概念證明(POC)繼續(xù)穩(wěn)步成熟,進(jìn)入到生產(chǎn)環(huán)境。企業(yè)正從部署的評(píng)估階段(2014年春季41%,2015年秋季32%)進(jìn)入到至少將一個(gè)應(yīng)用程序部署到生產(chǎn)環(huán)境的階段(2014年春季31%,2015年秋季41%)。這種轉(zhuǎn)變表明,企業(yè)在采用大數(shù)據(jù)分析方面取得穩(wěn)步進(jìn)展。
圖2:部署狀況和成熟度(來源:Wikibon 2015)
大數(shù)據(jù)分析項(xiàng)目結(jié)果:相比18個(gè)月前,聲稱“取得成功”的企業(yè)多了4%
2015年春季聲稱取得成功的企業(yè)(44.6%)比2014年秋季(40.6%)多一點(diǎn)。雖然它們處于采用大數(shù)據(jù)分析工具的不同階段(評(píng)估階段、概念證明階段和生產(chǎn)階段),幾乎所有(98%)的企業(yè)聲稱,至少獲得了部分價(jià)值,覺得自己在往正確的方向前進(jìn)。
與我們的假設(shè)相一致,大企業(yè)(員工數(shù)量超過5000人)聲稱取得成功的可能性比中小企業(yè)高出12%(50.7%比39%),大企業(yè)更有可能擁有足夠的技術(shù)技能。
角色不同,結(jié)果評(píng)價(jià)大不一樣。技術(shù)型人員(基礎(chǔ)設(shè)施管理員和大數(shù)據(jù)科學(xué)家)比業(yè)務(wù)人員(業(yè)務(wù)分析員和用戶)更有可能聲稱“取得成功”:54.1%比32.6%。我們將這22%的差異歸因于技術(shù)人員更有可能認(rèn)為正常運(yùn)轉(zhuǎn)的集群是成功。業(yè)務(wù)人員更有可能認(rèn)為可用的、可信的庫(kù)(含有可付諸行動(dòng)的分析結(jié)果)是成功。很顯然,業(yè)務(wù)用戶當(dāng)中還有增長(zhǎng)空間。
圖3:大數(shù)據(jù)分析項(xiàng)目的結(jié)果(來源:Wikibon 2015)
大數(shù)據(jù)分析的主要使用場(chǎng)合:IT操作支持和提取轉(zhuǎn)換加載(ELT)各自超過50%
IT部門常常部署新技術(shù),支持自己的使用場(chǎng)合,以便獲得支持更廣泛的生產(chǎn)環(huán)境部署所需的技能。大數(shù)據(jù)分析工具似乎遵循這種模式。
最流行的應(yīng)用程序以IT操作支持為中心,一半以上的企業(yè)提到了它(允許多選)。此外,這些應(yīng)用程序中70%以上在生產(chǎn)環(huán)境。
這個(gè)選擇似乎類似大型互聯(lián)網(wǎng)服務(wù)公司當(dāng)中的早期采用情況。它們使用Hadoop來分析日志文件和點(diǎn)擊流,以便管理系統(tǒng)、改善應(yīng)用程序的功能特性。作為一種即開即用的提供類似功能的應(yīng)用程序,Splunk大受歡迎,這可能與這個(gè)結(jié)果有著關(guān)系。
對(duì)大多數(shù)調(diào)查對(duì)象來說,ETL也是一種應(yīng)用程序。這個(gè)結(jié)果與Hadoop“跨越鴻溝”的應(yīng)用(比如數(shù)據(jù)湖)相一致,這種應(yīng)用還卸載了來自數(shù)據(jù)倉(cāng)庫(kù)的ETL處理任務(wù)。
混合操作型分析應(yīng)用程序的部署狀況:部署到生產(chǎn)環(huán)境的企業(yè)比18個(gè)月前多了15%
使用大數(shù)據(jù)用于操作型/事務(wù)型生產(chǎn)應(yīng)用程序的比率在2015年秋季相比2014年春季有所提高:66.3%比51.6%。相比之下,那些還沒有部署應(yīng)用程序,但計(jì)劃在今后六個(gè)月部署的企業(yè)減少了13%,減至32%。
在過去18個(gè)月間,企業(yè)在將其中一個(gè)應(yīng)用程序部署到生產(chǎn)環(huán)境方面取得了顯著進(jìn)展。事務(wù)功能和分析功能的組合是部署方面出現(xiàn)如此大幅提升的一個(gè)顯著特點(diǎn),這表明這一類新的應(yīng)用程序會(huì)在將來得到廣泛采用。其中許多應(yīng)用程序?qū)儆赪ikibon研究人員認(rèn)為的智能系統(tǒng)(Systems of Intelligence)。
圖4:混合事務(wù)型大數(shù)據(jù)分析應(yīng)用程序的部署(來源:Wikibon 2015)
支持操作型大數(shù)據(jù)分析應(yīng)用程序面臨的挑戰(zhàn):近實(shí)時(shí)集成和總體性能
雖然生產(chǎn)環(huán)境下操作型大數(shù)據(jù)應(yīng)用程序的數(shù)量可能在增長(zhǎng),但是讓所有組件適當(dāng)?shù)貐f(xié)同運(yùn)行的信心仍有待提高。重點(diǎn)是讓基本集成和操作性能都毫無問題。
IT從業(yè)人員和業(yè)務(wù)人員列出了一系列挑戰(zhàn)(可以多選)。這包括將分析工具以近實(shí)時(shí)方式集成到應(yīng)用程序中,或者將來自操作型應(yīng)用程序的數(shù)據(jù)饋送到分析工具;面對(duì)數(shù)據(jù)量龐大、讀/寫操作次數(shù)高以及并發(fā)用戶數(shù)量多的情形,保持應(yīng)用程序性能。
如今,整合新的數(shù)據(jù)源和優(yōu)化算法是不大艱巨的挑戰(zhàn)。
圖5:成功部署混合事務(wù)型大數(shù)據(jù)分析應(yīng)用程序面臨的幾大障礙(來源:Wikibon 2015)
Hadoop方面的使用、體驗(yàn)和計(jì)劃
182位即61%的調(diào)查對(duì)象聲稱,所在企業(yè)使用了Hadoop。
管理開銷:客戶環(huán)境從單一集群增加到3個(gè)或更多個(gè)集群后,每個(gè)集群的管理員數(shù)量減少了一半。
只有一個(gè)集群的客戶聲稱,平均需要3.5名管理員;而擁有2個(gè)以上集群的客戶聲稱,數(shù)量減少到1.4名,因?yàn)樗麄兏艹浞掷孟∪钡募寄?。總的來說,調(diào)查對(duì)象聲稱,每個(gè)集群需要2.2名管理員。
圖6:每個(gè)集群的管理員數(shù)量(來源:Wikibon 2015)
部署在Hadoop集群上的軟件
調(diào)查對(duì)象聲稱,平均近3個(gè)軟件工具部署在Hadoop集群上。最常被提到的工具是Cloudera Manager,達(dá)到32.4%,但Spark被提到的頻率幾乎一樣高,為29.7%。Hbase也有18.7%,而Hive低一點(diǎn),為18.1%。大多數(shù)調(diào)查對(duì)象可能并不認(rèn)為MapReduce是一種軟件工具,因?yàn)樗奶峒奥氏喈?dāng)?shù)汀?/p>
計(jì)劃在今后12個(gè)月將Hadoop用于生產(chǎn)環(huán)境
絕大多數(shù)調(diào)查對(duì)象聲稱,他們?nèi)缃窬驮谏a(chǎn)環(huán)境下使用Hadoop,或計(jì)劃在今后12個(gè)月內(nèi)使用。
主要的應(yīng)用程序(可以多選)
客戶分析應(yīng)用程序(比如客戶流失和營(yíng)銷活動(dòng))共同排名超過50%,這不足為奇。ETL跨越鴻溝的初使使用場(chǎng)合超過50%。欺詐檢測(cè)應(yīng)用程序達(dá)到37%。
Hadoop方面的長(zhǎng)期計(jì)劃
雖然認(rèn)識(shí)到大數(shù)據(jù)分析對(duì)業(yè)務(wù)成功而言很重要,但是調(diào)查對(duì)象通常并未準(zhǔn)備好擁抱Hadoop代替數(shù)據(jù)倉(cāng)庫(kù);45.6%的調(diào)查對(duì)象表示,Hadoop戰(zhàn)略與傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)扮演同樣重要的角色,都獲得了投入。31.2%表示了類似的觀點(diǎn),但是將Hadoop用于不大關(guān)鍵的應(yīng)用程序。然而,13.2%將Hadoop用于代替?zhèn)鹘y(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)――或者獲得新的開支(6.6%),或者將目前用于傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的一些開支實(shí)際上改而投入到Hadoop。
相對(duì)數(shù)據(jù)倉(cāng)庫(kù),大公司對(duì)于Hadoop部署所持的態(tài)度比小企業(yè)來得積極大膽,小企業(yè)更有可能認(rèn)為Hadoop和傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)“扮演同樣重要的角色”。
圖7:相對(duì)數(shù)據(jù)倉(cāng)庫(kù)的中長(zhǎng)期戰(zhàn)略(來源:Wikibon 2015)
員工數(shù)量超過1000人的大企業(yè)(58.8%)比小企業(yè)更有可能擁抱“兩個(gè)角色同樣重要的”戰(zhàn)略,40.5%采用了“穩(wěn)步增加投入”戰(zhàn)略。相比大企業(yè)(31.4%),小企業(yè)(45%)往往將Hadoop主要用于“不大關(guān)鍵的分析工作負(fù)載”――顯得比較謹(jǐn)慎。
Hadoop方面的滿意度
滿意度比較高――10.4%聲稱他們只是“有點(diǎn)”滿意,只有1個(gè)調(diào)查對(duì)象聲稱“有點(diǎn)不滿意”。95%聲稱凈推薦分高于80%。
圖8:Hadoop方面的滿意度(來源:Wikibon 2015)
開源Hadoop發(fā)行版與商用Hadoop發(fā)行版:商用發(fā)行版的采用率隨生產(chǎn)部署一并增長(zhǎng)
2014年春季到2015年秋季,出現(xiàn)了一股非常大的趨勢(shì):不再依賴免費(fèi)的Hadoop發(fā)行版,改用付費(fèi)訂閱。隨著大數(shù)據(jù)分析工具變得更整合到操作型應(yīng)用程序中,企業(yè)變得更依賴能為這些關(guān)鍵智能系統(tǒng)提供優(yōu)質(zhì)工具和支持的廠商。員工數(shù)量超過10000人的公司中72%在使用收費(fèi)發(fā)行版,而員工數(shù)量不到10000人的公司中只有64%使用收費(fèi)發(fā)行版。然而,這兩類公司都從免費(fèi)發(fā)行版向收費(fèi)發(fā)行版轉(zhuǎn)變,轉(zhuǎn)變速度相似。
圖9:商用Hadoop發(fā)行版相對(duì)純開源發(fā)行版的采用(來源:Wikibon 2015)
相對(duì)Hadoop的Spark計(jì)劃和體驗(yàn):Spark部署于生產(chǎn)應(yīng)用的步伐遠(yuǎn)落后于Hadoop,卻被寄予厚望
Spark仍處于早期階段,只有6.9%的企業(yè)在生產(chǎn)環(huán)境中至少部署有一個(gè)Spark應(yīng)用程序。然而,74.0%的企業(yè)在評(píng)估Spark,或者將Spark處于試點(diǎn)項(xiàng)目/概念證明階段。調(diào)查對(duì)象非??春肧park在未來計(jì)劃中的地位。78%表示,他們預(yù)計(jì)Spark會(huì)取代一些原本放在Hadoop處理引擎(比如Hive)上的新工作負(fù)載。足足有20%的調(diào)查對(duì)象表示,他們預(yù)計(jì)Spark會(huì)取代原本放在Hadoop引擎上的相當(dāng)多的新工作負(fù)載。
普及看好Spark,一方面可能是由于它仍處于蜜月期。部署到生產(chǎn)環(huán)境和規(guī)模擴(kuò)大免不了會(huì)帶來初期困難,未來會(huì)更頻繁地出現(xiàn)。
圖10:Spark部署的成熟度(來源:Wikibon 2015)
一半以上的調(diào)查對(duì)象聲稱在使用Spark的SQL庫(kù),Streaming稍落后于它,這不足為奇。四大庫(kù)得到廣泛使用,這表明許多應(yīng)用程序其實(shí)在充分利用諸多庫(kù)之間日益集成這一點(diǎn)。
公有云方面的計(jì)劃
企業(yè)在大量使用公有云用于大數(shù)據(jù)分析――74%的調(diào)查對(duì)象稱,他們?cè)谠贫颂幚硪恍┥a(chǎn)工作。使用Hadoop和使用原生服務(wù)的企業(yè)一樣多。我們定義的原生服務(wù)以AWS服務(wù)為例,比如Data Pipeline、Kinesis、DynamoDB、Redshift,以及在谷歌去云平臺(tái)和微軟Azure上的對(duì)應(yīng)服務(wù)。一些用戶聲稱這兩種方法都用。雖然2014年春季調(diào)查對(duì)象表述這個(gè)問題有點(diǎn)不一樣,但在我們的2015年調(diào)查中,公有云使用總體增長(zhǎng)了5%。
圖11:大數(shù)據(jù)工作負(fù)載在公有云上的采用(來源:Wikibon 2015)
Hadoop不是一個(gè)產(chǎn)品,而是一個(gè)迅速發(fā)展的、創(chuàng)新的生態(tài)系統(tǒng)。其缺點(diǎn)是,管理開銷相當(dāng)高,具體表現(xiàn)為需要新的專業(yè)技能。我們的一部分假設(shè)是,隨著Hadoop部署進(jìn)入到主流,中小企業(yè)(員工數(shù)量不足5000人)會(huì)更傾向于將Hadoop部署到公有云。我們不僅預(yù)計(jì)部署到云的Hadoop其份額會(huì)增長(zhǎng),還預(yù)計(jì)原生云服務(wù)的份額也會(huì)增長(zhǎng)。
采用Hadoop的大企業(yè)往往在公有云中處理比其他企業(yè)更多的生產(chǎn)工作,原生公有云服務(wù)的使用增長(zhǎng)率與非Hadoop使用相當(dāng)。我們認(rèn)為,大企業(yè)擁有讓Hadoop走得更遠(yuǎn)、進(jìn)入到生產(chǎn)部署所需的技能,無論是部署到內(nèi)部還是部署到云。我們預(yù)計(jì),一段時(shí)間后,中小企業(yè)會(huì)將更多份額的工作負(fù)載部署到公有云,因?yàn)檫@對(duì)操作要求比較低。
公有云用戶提到這一點(diǎn):數(shù)據(jù)已經(jīng)在云端(58.0%)及/或公有云提供了操作簡(jiǎn)單的優(yōu)點(diǎn)(53.8%)。44.5%的用戶認(rèn)為,提供商能為自己提供一套更好的工具,可以更輕松地構(gòu)建端到端應(yīng)用程序。
圖12:使用公有云的幾大原因(來源:Wikibon 2015)
IT用戶與業(yè)務(wù)用戶在當(dāng)前和未來公有云計(jì)劃方面的脫節(jié)
業(yè)務(wù)分析員和用戶(36.1%)聲稱使用原生服務(wù)的程度高于基礎(chǔ)設(shè)施管理員和數(shù)據(jù)科學(xué)家(30.6%)。這種不大的差異可能緣自這個(gè)事實(shí):企業(yè)的業(yè)務(wù)部門在使用公有云,而IT部門甚至一無所知。我們預(yù)計(jì)這種差異會(huì)拉大。
技術(shù)人員更有可能(22.4%)聲稱沒有或不會(huì)將公有云用于其大數(shù)據(jù)分析項(xiàng)目。另一方面,業(yè)務(wù)人員更積極使用公有云(只有13.6%表示沒有或不會(huì)使用公有云)。這可能是由于技術(shù)人員偏向“我們自己搞”。
調(diào)查方法和調(diào)查對(duì)象
2015年秋季,Wikibon對(duì)美國(guó)的303名大數(shù)據(jù)分析從業(yè)人員進(jìn)行了網(wǎng)上調(diào)查。調(diào)查一開始就詢問調(diào)查對(duì)象對(duì)于大數(shù)據(jù)分析的了解程度?;卮饘?duì)大數(shù)據(jù)分析工具至少“有點(diǎn)熟悉”或“非常熟悉”的調(diào)查對(duì)象被要求繼續(xù)進(jìn)行調(diào)查。
出于這次調(diào)查的需要,我們將大數(shù)據(jù)分析項(xiàng)目定義為:
- 利用非傳統(tǒng)數(shù)據(jù)管理工具和技術(shù),比如Hadoop、NoSQL或大規(guī)模并行處理(MPP)分析數(shù)據(jù)庫(kù)及/或……
- 涉及分析多種結(jié)構(gòu)化及/或非結(jié)構(gòu)化數(shù)據(jù),比如點(diǎn)擊流、文本、日志文件和社交媒體數(shù)據(jù)
- 出于這次調(diào)查的需要,大數(shù)據(jù)項(xiàng)目并不包括只涉及使用關(guān)系數(shù)據(jù)庫(kù)或其他“傳統(tǒng)數(shù)據(jù)管理技術(shù)”的項(xiàng)目――這些技術(shù)用來收集、處理、存儲(chǔ)和分析與CRM和ERP應(yīng)用軟件等遺留系統(tǒng)有關(guān)的結(jié)構(gòu)化數(shù)據(jù)。
調(diào)查進(jìn)一步請(qǐng)調(diào)查對(duì)象明確企業(yè)所在行業(yè)、企業(yè)中的一般角色以及在大數(shù)據(jù)分析項(xiàng)目中的具體角色、企業(yè)員工數(shù)量和年收入。Wikibon得到了廣泛的企業(yè)類型,主要有IT技術(shù)提供商(21%)、制造企業(yè)(18%)、醫(yī)療保健企業(yè)(14%)、銀行及金融企業(yè)(11%)以及零售企業(yè)(10%)。
中等規(guī)模企業(yè)是指年收入在1億至5億美元之間,員工數(shù)量在1000人至5000人之間。23%的企業(yè)其員工數(shù)量在5000人至9999人之間,14%的員工數(shù)量超過10000人。
調(diào)查對(duì)象的職位級(jí)別從經(jīng)理到高層主管不等。調(diào)查對(duì)象還被要求列出與大數(shù)據(jù)分析項(xiàng)目有關(guān)的角色,為此要從下列角色當(dāng)中選一個(gè):
- 19%的人是業(yè)務(wù)用戶(即業(yè)務(wù)部門專業(yè)人員,使用儀表板及其他可視化方式了解大數(shù)據(jù))。
- 24%的人是業(yè)務(wù)分析員(即部門高級(jí)用戶,使用Excel和SPSS等工具來分析各個(gè)大數(shù)據(jù)集)。
- 13%是應(yīng)用程序開發(fā)人員(即構(gòu)建充分利用預(yù)測(cè)模型和算法等大數(shù)據(jù)分析工具的應(yīng)用程序的開發(fā)人員)。
- 16%是數(shù)據(jù)科學(xué)家(即高級(jí)分析專業(yè)人員,針對(duì)大量“混亂”的大數(shù)據(jù)進(jìn)行復(fù)雜分析,并開發(fā)預(yù)測(cè)模型/算法)。
- 28%是基礎(chǔ)設(shè)施管理員(即數(shù)據(jù)中心專業(yè)人員,管理與Hadoop、NoSQL數(shù)據(jù)庫(kù)及支持大數(shù)據(jù)分析項(xiàng)目的其他技術(shù)有關(guān)的基礎(chǔ)設(shè)施和硬件)。
從調(diào)查對(duì)象概況以及他們對(duì)大數(shù)據(jù)分析的了解來看,很顯然,因而獲得的分析表明了大數(shù)據(jù)分析工具在早期采用者當(dāng)中的現(xiàn)狀。這是研究這個(gè)課題的必然結(jié)果。由于大數(shù)據(jù)分析技術(shù)和方法仍相對(duì)不成熟,那些在評(píng)估或已部署了大數(shù)據(jù)分析項(xiàng)目的企業(yè)和從業(yè)人員顯然是早期采用者。各位在考慮調(diào)查結(jié)果時(shí),需要牢記這一個(gè)重要信息。
Wikibon將來自2014年春季研究的調(diào)查數(shù)據(jù)與2015年秋季的調(diào)查結(jié)果在許多問題上作了一番比較。我們從2014年使用的同一來源處獲得了2015年的樣本列表,所以我們認(rèn)為調(diào)查對(duì)象在這兩年的答復(fù)差異相當(dāng)程度上反映了18個(gè)月來大數(shù)據(jù)用戶在態(tài)度、計(jì)劃和體驗(yàn)等方面發(fā)生的變化。
新聞來源:Wikibon|云頭條編譯
End.