1. 首頁
  2. 其他

新手從零開始學資料分析

新手從零開始學資料分析

新手從零開始學資料分析

所有從底層資料工作者往上發展的基本路徑:

1. 第一階段(一般崗位叫資料專員)

基本學會excel(VBA最好學會;會做透視表;熟練用篩選、排序、公式),做好PPT。這樣很多傳統公司的資料專員已經可以做了

2. 第二階段(資料專員~資料分析師)

這一階段要會SQL,懂業務,加上第一階段的那些東西。大多數傳統公司和網際網路小運營、產品團隊夠用了。

3. 第三階段(資料分析師)

統計學熟練(迴歸、假設檢驗、時間序列、簡單蒙特卡羅),視覺化,PPT和excel一定要溜。這些技術就夠了,能應付大多數傳統公司業務和網際網路業務。

4. 第四階段(分裂)

資料分析師(資料科學家)、BI等:這部分一般是精進統計學,熟悉業務,機器學習會使用(調參+選模型+最佳化),取數、ETL、視覺化啥的都是基本姿態。

視覺化工程師:這部分國內比較少,其實偏重前端,會high charts,d3.js, echarts.js。技術發展路線可以獨立,不在這四階段,可能前端轉行更好。

ETL工程師:顧名思義,做ETL的。

大資料工程師:熟悉大資料技術,hadoop系二代。

資料工程師(一部分和資料探勘工程師重合):機器學習精通級別(往往是幾種,不用擔心不是全部,和資料分析師側重點不同,更需要了解組合模型,理論基礎),會組合模型形成資料產品;計算機基本知識(包括linux知識、軟體工程等);各類資料庫(RDBMS、NoSQL(4大類))

資料探勘:和上基本相同。

爬蟲工程師:顧名思義,最好http協議、tcp/ip協議熟悉。技術發展路線可以獨立,不在這四階段。

往資料發展的基本學習路徑可以概括為以下內容:

1. EXCEL、PPT(必須精通)

資料工作者的基本姿態,話說本人技術並不是很好,但是起碼會操作;要會大膽秀自己,和業務部門交流需求,展示分析結果。技術上回VBA和資料透視就到頂了。

2. 資料庫類(必須學)

初級只要會RDBMS就行了,看公司用哪個,用哪個學哪個。沒進公司就學MySQL吧。

NoSQL可以在之後和統計學啥的`一起學。基本的NoSQL血MongoDB和Redis(快取,嚴格意義上不算資料庫),然後(選學)可以瞭解各類NoSQL,基於圖的資料庫Neo4j,基於Column的資料庫BigTable,基於key-value的資料庫redis/cassendra,基於collection的資料庫MongoDB。

3. 統計學(必須學)

如果要學統計學,重要概念是會描述性統計、假設檢驗、貝葉斯、極大似然法、迴歸(特別是廣義線性迴歸)、主成分分析。這些個用的比較多。也有學時間序列、bootstrap、非參之類的,這個看自己的意願。

其他數學知識:線性代數常用(是很多後面的基礎),微積分不常用,動力系統、傅立葉分析看自己想進的行業了。

4. 機器學習(資料分析師要求會選、用、調)

常用的是幾個線性分類器、聚類、迴歸、隨機森林、貝葉斯;不常用的也稍微瞭解一下;深度學習視情況學習。

5. 大資料(選學,有公司要求的話會用即可,不要求會搭環境)

hadoop基礎,包括hdfs、map-reduce、hive之類;後面接觸spark和storm再說了。

6. 文字類(選學,有公司要求的話會用即可)

這部分不熟,基本要知道次感化、分詞、情感分析啥的。

7. 工具類

語言:非大資料類R、Python最多(比較geek的也有用julia的,不差錢和某些公司要求的用SAS、Matlab);大資料可能還會用到scala和java。

視覺化(選學):tableau、d3.js、echarts.js,R裡面的ggplot、ggvis,Python裡的bokeh、matplotlib、seaborn都不錯

資料庫語言:看你自己用啥學啥