從人們會(huì)計(jì)數(shù)開(kāi)始,數(shù)據(jù)就有了,數(shù)據(jù)分析也是。那么大數(shù)據(jù)呢?
說(shuō)到大數(shù)據(jù),你就繞不開(kāi)互聯(lián)網(wǎng)。在互聯(lián)網(wǎng)出現(xiàn)之前,雖然政府部門(mén)和一些公共事業(yè)單位通過(guò)日積月累獲得了較大量的數(shù)據(jù),但并沒(méi)有形成足夠的影響力。直到互聯(lián)網(wǎng)產(chǎn)品的出現(xiàn),由于它收集用戶數(shù)據(jù)的便利性,通常在一天之內(nèi)就能夠累計(jì)其他行業(yè)可能一年才能獲取的數(shù)據(jù)量。 數(shù)據(jù)量的升級(jí)造成算法和硬件都必須要升級(jí),操作起來(lái)的技術(shù)難度也就會(huì)提高很多。這個(gè)時(shí)候,就需要專(zhuān)業(yè)的技術(shù)和平臺(tái)來(lái)完成存儲(chǔ),處理和分析大數(shù)據(jù)的工作。比如說(shuō),大家都聽(tīng)過(guò)的Hadoop平臺(tái),MapReduce算法。都是大數(shù)據(jù)時(shí)代的產(chǎn)物。因此,
大數(shù)據(jù)的核心,就在于大。
有一定規(guī)模的互聯(lián)網(wǎng)公司都會(huì)成立專(zhuān)門(mén)的大數(shù)據(jù)部門(mén)來(lái)管理自己產(chǎn)品所收集到的大數(shù)據(jù)。數(shù)據(jù)量越大,處理難度就越高,相應(yīng)的,可能挖掘到的內(nèi)涵也會(huì)更多。于是,大數(shù)據(jù)就成了一個(gè)產(chǎn)業(yè),一個(gè)火熱的產(chǎn)業(yè)。
大數(shù)據(jù)入門(mén)的科普讀物,應(yīng)該看哪一本呢?很多人推薦了吳軍的《智能時(shí)代》。 大數(shù)據(jù)圈子里的人
在大數(shù)據(jù)行業(yè)這個(gè)圈子里,公司提供的職位大致分為三類(lèi):數(shù)據(jù)分析師,數(shù)據(jù)產(chǎn)品經(jīng)理,數(shù)據(jù)工程師。他們緊密合作,共同驅(qū)動(dòng)公司的數(shù)據(jù)決策文化。
那么,這三種職位都是做什么的?又該怎么入行呢?
數(shù)據(jù)分析師
數(shù)據(jù)分析師,是使用大數(shù)據(jù)的人。核心是掌握各種數(shù)據(jù)分析工具和數(shù)據(jù)分析技能,目標(biāo)是為公司管理層和產(chǎn)品團(tuán)隊(duì)提供分析報(bào)告,幫助他們做決策。
實(shí)際工作中,數(shù)據(jù)會(huì)被處理成各種不同的類(lèi)型提供給數(shù)據(jù)分析師使用,有比較原始的,有比較簡(jiǎn)單好用的。因此,數(shù)據(jù)分析師需要掌握R, SQL,Excel, Python基礎(chǔ)編程等多種技能,以及熟練掌握常用的數(shù)據(jù)分析方法。
如果你立志于成為一個(gè)數(shù)據(jù)分析師甚至數(shù)據(jù)科學(xué)家,那么建議你進(jìn)行系統(tǒng)的學(xué)習(xí)。
1. 英文好的可以去系統(tǒng)學(xué)習(xí):Data Science - Johns Hopkins University | Coursera
2. 如果你有一定的經(jīng)驗(yàn)和編程基礎(chǔ),也可以考慮秦路的自學(xué)指南:如何七周成為數(shù)據(jù)分析師
常見(jiàn)的推薦書(shū)籍有《R語(yǔ)言實(shí)戰(zhàn)》,《深入淺出統(tǒng)計(jì)學(xué)》,《Python for Data Analysis》等。
數(shù)據(jù)產(chǎn)品經(jīng)理
數(shù)據(jù)產(chǎn)品經(jīng)理是設(shè)計(jì)數(shù)據(jù)產(chǎn)品的人。核心技能是數(shù)據(jù)需求分析和數(shù)據(jù)產(chǎn)品的設(shè)計(jì),和其他的互聯(lián)網(wǎng)產(chǎn)品經(jīng)理并沒(méi)有本質(zhì)的不同。實(shí)際工作中,數(shù)據(jù)產(chǎn)品經(jīng)理需要收集不同用戶的數(shù)據(jù)需求并且設(shè)計(jì)出好用的數(shù)據(jù)產(chǎn)品提供給大家,幫助他們“用數(shù)據(jù)做決定”。
常見(jiàn)的推薦入門(mén)書(shū)籍有《人人都是產(chǎn)品經(jīng)理》,《The DatawareHouse Toolkit》,《Lean Analytics》等等。
數(shù)據(jù)工程師
數(shù)據(jù)工程師,簡(jiǎn)單分兩種,一類(lèi)是數(shù)據(jù)挖掘工程師,另外一類(lèi)是大數(shù)據(jù)平臺(tái)工程師。工程師的基本技能當(dāng)然是寫(xiě)代碼,寫(xiě)高質(zhì)量的代碼。
數(shù)據(jù)挖掘工程師主要工作是開(kāi)發(fā)大數(shù)據(jù)流水線以及和數(shù)據(jù)分析師一起完成數(shù)據(jù)挖掘項(xiàng)目,而數(shù)據(jù)平臺(tái)工程師主要工作是維護(hù)大數(shù)據(jù)平臺(tái)。
因此,理工科背景出身,掌握C, C#, Python等編程/腳本語(yǔ)言,熟悉各種基礎(chǔ)算法即可以勝任。
如何用數(shù)據(jù)做決策 對(duì)于那些并不想轉(zhuǎn)行進(jìn)入大數(shù)據(jù)圈子的人,我們要學(xué)的究竟是什么?
在我們的日常工作中,特別是業(yè)績(jī)不佳,找不到突破口的時(shí)候,都曾想過(guò)能否用數(shù)據(jù)來(lái)幫助自己。因?yàn)槲覀兌荚蚨嗷蛏俾?tīng)過(guò)一些牛逼的數(shù)據(jù)案例,比如紙尿布與啤酒之類(lèi)。
舉一個(gè)簡(jiǎn)單的例子,你經(jīng)營(yíng)的餐館現(xiàn)在狀況不佳。你可以自己拍腦袋想一堆的新點(diǎn)子來(lái)嘗試改善現(xiàn)狀。你也可以,收集整理數(shù)據(jù),通過(guò)分析找出根本原因,并提出對(duì)應(yīng)解決方案,從而扭轉(zhuǎn)局面。后者聽(tīng)起來(lái)似乎更加靠譜一些。
那么,你該收集什么數(shù)據(jù),做什么分析,這就是你需要學(xué)習(xí)的:“如何用數(shù)據(jù)做決策”。從這個(gè)角度講:人人都應(yīng)該是數(shù)據(jù)分析師
學(xué)習(xí)系統(tǒng)的數(shù)據(jù)決策和數(shù)據(jù)分析思維,我們可以從這篇文章開(kāi)始:從0到1搭建數(shù)據(jù)分析知識(shí)體系。
關(guān)于數(shù)據(jù)分析的書(shū)籍太多了,眾口難調(diào),隨便一搜就有一大堆推薦。而其中所講的知識(shí)和理論其實(shí)都是類(lèi)似的。最終要讓他們發(fā)揮作用,還是要和實(shí)踐結(jié)合起來(lái)。
因此,在自己的生意和工作中多實(shí)踐數(shù)據(jù)分析,多思考,遇到問(wèn)題多在社群中提問(wèn)和大家探討,是最好的學(xué)習(xí)辦法。
帶著問(wèn)題去學(xué)習(xí),是最好的方式。
在這個(gè)過(guò)程中,隨著你對(duì)數(shù)據(jù)的深入了解,掌握更多的數(shù)據(jù)分析語(yǔ)言和工具。從Excel到SQL,甚至到R和Python。你所能使用的數(shù)據(jù)量也會(huì)越來(lái)越大。但你大可不必一開(kāi)始就扎入這些工具的學(xué)習(xí)中,那樣會(huì)收效甚微。