許多大型公司對數據分析及機器學習的人才求賢若渴,2020 想自學精通數據分析的你,這篇詳列了一份針對新手的基礎數據科學自學手冊,能幫助你在茫茫的數據科學資源中找到自己的興趣!
六個月無師自通:按部就班、立即見效
Dataquest — 2 個月
這個網站主要分三大類別:Data Analyst in Python or R / Data Scientist / Data Engineer。對初學者從零開始學 Python 而言,在 Dataquest 可以學習整理和操作一些公開的真實數據,引導你打出程式碼,是很友善的開始,不過它後期的進階學習內容有可能需要付費。
Automate The Boring Stuff — 1 個月
這個網頁可以透過閱讀學會如何實際使用 Python 建立自動化任務,如重命名文件、移動文檔和創建用於數據操作的 csv 文件。
儘管這個網站內容是全英文的,但它的內容都是由簡單的英語句構成,這樣的好處是你不用一步到位去理解太艱深的術語,通過形象化的語言與圖片,一步步的讓你鑽研,同時不至於讓你喪失興趣。
Machine Learning AZ™: Hands-On Python & R In Data Science — Udemy 3 周
當你有了基礎概念後(懂高中數學就行),你可以選擇概念較鑽研的課程強化學習內容。假如你不喜歡寫程式碼,卻仍對機器學習有很大的興趣,那麼這堂課程非常適合你。評論上說這個課程非常適合初學者上手真正的機器學習項目,它包括了大多數機器學習的程式碼,是 Udemy 最受歡迎的機器學習課程!而目前 Udemy 上的課程正在打折!!至 1/9 都能以新台幣 300 元購入課程,一年中最好入手的價格就是現在~ https://pse.is/NXH48
Andrew Ng’s Machine Learning Course — Coursera 2 個月
這是 Coursera 上最受好評的機器學習課程,曾任 Google 深度學習研究團隊聯合創始人、百度首席科學家,作為 AI 跟機器學習領域的知名權威-吳恩達(Andrew Ng)說在他的機器學習課程上已經盡量減少放入數學公式,而是將更多時間花在介紹原理與思路,然而還是有許多人覺得它是相當有難度的。這門課程著重於基礎概念、數學和機器學習的關鍵,將會學習到如何手寫推倒公式、計算損失函數和成本函數,非常扎實!
Kaggle — 1 個月
企業或研究者可以將數據、問題敘述、期望的指標發佈到 Kaggle 上,以競賽的形式向廣大的數據科學家徵集解決方案,類似於 KDD-CUP(國際知識發現和數據挖掘競賽)。Kaggle 上的參賽者將數據下載下來,運用機器學習、數據挖掘等知識建立算法模型,解決問題得出結果,最後提交結果,如果最後的成果符合指標要求,並且在競賽中排名第一,將會獲得豐厚的比賽獎金。
當然「書單」也為你準備好了
大量閱讀 >>
不論是有關該主題的書籍,觀看教學還是收聽關於該主題的 Podcast 等。
模仿練習 >>
反覆閱讀課程,按照作者的步驟自己執行一遍,最好能從頭開始自己寫程式碼。動手做是對你大量閱讀後汲取技術訣竅最好的方法,這真的很重要!過去我就是因為缺少模仿練習的步驟,以為看影片就懂了,才遲遲無法熟悉程式語言。
想法社區分享 >>
向大師提問,一般大師級的文章作者可以在 Reddit、Discord、Slack 或 Twitter 上看到其身影。有問題時尋求導師、夥伴能給你直接性的協助。
重複動手 >>
就算只是一個小小的項目、教科書上的練習、Kaggle 比賽或修復錯誤,一定要動手去做。
別追著潮流跑,現在的你需要「打底」
現在你已經給 2020 定下了目標,每天結束前你都需要學點東西,讓大腦只關注今日所學的 code 和知道如何操作這些任務。
除了滿懷希望讓自己在這個月裡能解決一個 Kaggle 的問題外,你還需要掌握自己的學習思維和習慣,因為這個學科有大量的內容和概念需要記憶和融會貫通,有一大堆的練習要做,有時可能因為針對一個錯誤得一遍又一遍的重複嘗試,當又得不到任何成果時,一定會非常沮喪,所以其實許多阻力其實也是源於自己本身。
此外,我們還有一個不良習慣:看到一個標題有意思的文章或者課程總是先把它收藏,準備以後再看。但問題是我們壓根不會去回放和反覆看!而且思路往往會被這些新書、最新的科學數據帶著跑。雖然我不是反對接受多樣的新資源,但我們得去避開這些紛擾,專注的完成自己的計劃,排好要學習的內容與其優先順序。
隨著一定時間的堅持,你一定會發現自己已經悄悄地有了跳躍式的進步。到了後期,你就可以天天跑去看大神的部落格,和能夠讀懂他們底下的評論!
現在訓練的思維一定能給你未來的工作帶來很好的效果。有眼光的人們都會立刻行動起來!
(原文取自「大數據文摘」〈数据工程师进阶计划,这有一份 2019 开年自学清单 〉 )