了解最新公司動態(tài)及行業(yè)資訊
編譯:米卡
市場對數(shù)據(jù)工作者的要求很多:需要掌握機器學習、計算機科學、統(tǒng)計學、數(shù)學、數(shù)據(jù)可視化、深度學習等知識。要掌握所有這些方面,至少需要學習數(shù)十種語言、框架和技術(shù),這顯然是困難的。
那么,數(shù)據(jù)工作者應該如何合理分配時間,掌握哪些技能?
在本文中,我們搜索了工作網(wǎng)站,以找到數(shù)據(jù)相關(guān)工作(例如數(shù)據(jù)科學家)所需的技能。我分別分析了一般數(shù)據(jù)相關(guān)的技能和特定的語言和工具。
我們專門搜索了 、 、 和這些求職網(wǎng)站。
下表顯示了每個網(wǎng)站上發(fā)布了多少相關(guān)工作。
我分析了許多職位列表和調(diào)查,列出了最常見的技能要求。像“管理”這樣的詞不包括在內(nèi),因為許多職位發(fā)布都包括它。
所有搜索均針對美國地點、關(guān)鍵字中包含“數(shù)據(jù)科學家”的職位發(fā)布,并且使用完全匹配搜索來減少結(jié)果數(shù)量。但是,這種方法可確保結(jié)果與數(shù)據(jù)科學家的職位相關(guān)并影響所有搜索詞。
提供于
是招聘數(shù)據(jù)科學家的公司數(shù)量,而不是職位數(shù)量。我將排除這兩種分析,因為它的搜索算法是 OR 的邏輯搜索,并且不能修改為 AND。如果您搜索“數(shù)據(jù)科學家”“”之類的關(guān)鍵字,還不錯,但如果您搜索“數(shù)據(jù)科學家”“react.js”,它也會返回不雇用數(shù)據(jù)科學家的公司。
也被我排除在外。該網(wǎng)站稱,目前美國發(fā)布了 26,263 個“數(shù)據(jù)科學家”職位,但實際上顯示的職位不到 900 個。此外,發(fā)布的數(shù)據(jù)科學家職位不太可能是其他主流平臺的三倍。
最終分析使用通用技能分析400多個職位信息和特定技能分析200多個職位信息。有一些重復,結(jié)果記錄在Sheet中。
我下載了 .csv 文件并將其導入。然后我計算了每個百分比,并對工作現(xiàn)場的數(shù)字進行平均。
此外,我將結(jié)果與上半年發(fā)布的數(shù)據(jù)科學家工作研究進行了比較,并結(jié)合了調(diào)查信息??梢钥闯?,一些技能對數(shù)據(jù)科學家來說越來越重要,而另一些則逐漸變得不那么重要。我們稍后會詳細看到。
交互式圖表和分析可以在我的 .我用它來進行可視化,在寫這篇文章的時候,使用and有一些困難,在最終文檔中有說明
文檔
1.一般技能
以下是雇主最希望數(shù)據(jù)科學家具備的一般技能。
結(jié)果表明,數(shù)據(jù)分析和機器學習等通用技能是數(shù)據(jù)科學家工作的核心。從數(shù)據(jù)中收集分析見解是數(shù)據(jù)科學的主要功能。機器學習是關(guān)于開發(fā)能夠產(chǎn)生預測性能的系統(tǒng),它是一項非常流行的技能。
數(shù)據(jù)科學家需要統(tǒng)計和計算機科學技能也就不足為奇了。統(tǒng)計學、計算機科學和數(shù)學也是大學專業(yè),這也可能增加這些技能的使用頻率。
有趣的是,近一半的工作要求都提到了溝通技巧。數(shù)據(jù)科學家需要能夠交流自己的見解并與他人協(xié)作。
人工智能和深度學習并不像其他術(shù)語那樣頻繁出現(xiàn)。它們是機器學習的一個子集,深度學習用于越來越多的機器學習任務it技能服務,以前主要使用其他算法。今天,大多數(shù)用于自然語言處理問題的最佳機器學習算法都是深度學習算法。我預計深度學習技能在未來的職位發(fā)布中會越來越明確,機器學習會越來越類似于深度學習。
那么雇主希望數(shù)據(jù)科學家使用哪些特定的軟件工具?接下來,我們來看看問題。
2.技術(shù)技能
以下是雇主最希望數(shù)據(jù)科學家掌握的前 20 種特定語言、庫和技術(shù)工具。
讓我們簡要介紹一下最常見的技術(shù)技能。
是最流行的語言。這種開源語言已經(jīng)變得非常流行。對于初學者來說,該語言很容易上手,并且有很多支持資源。絕大多數(shù)數(shù)據(jù)科學工具都與它兼容。它是數(shù)據(jù)科學家使用的主要語言。
R 語言也不甘落后。它曾經(jīng)是數(shù)據(jù)科學的主要語言,R 的需求量仍然很大。這種開源語言源于統(tǒng)計學,很受統(tǒng)計學家的歡迎。
或者說,R 語言是從事數(shù)據(jù)科學工作的必備語言。
SQL 的需求量也很大。 SQL 代表查詢(結(jié)構(gòu)化查詢語言),是與數(shù)據(jù)庫交互的主要方式。 SQL 在數(shù)據(jù)科學領域有時會被忽視,但如果您正在尋找數(shù)據(jù)科學領域的工作,這項技能很重要。
接下來是 Spark,兩者都是大數(shù)據(jù)的開源工具。
是一個開源軟件平臺,用于分布式存儲和分布式處理大型數(shù)據(jù)集,這些數(shù)據(jù)集是用商用硬件構(gòu)建的計算機集群。
Spark 是一個快速的內(nèi)存數(shù)據(jù)處理引擎,具有強大且富有表現(xiàn)力的開發(fā) API,使數(shù)據(jù)工作者能夠在需要快速迭代訪問數(shù)據(jù)集的情況下高效地執(zhí)行流式處理、機器學習或 SQL。
與 R 和 SQL 相比,很少有求職者具備這些技能。如果您有使用 Spark 的經(jīng)驗,那么您更有可能在求職中取得成功。
接下來是 Java 和 SAS。我驚訝地發(fā)現(xiàn),這兩種語言在職位描述中也出現(xiàn)得非常頻繁。一般來說,Java 和 SAS 在數(shù)據(jù)科學界沒有受到太多關(guān)注。
接下來是。這個分析平臺和可視化工具功能強大、易于使用且越來越受歡迎。它有一個免費的公共版本,但如果您想保持數(shù)據(jù)的私密性,則需要花錢。如果您不熟悉,強烈推薦 Udemy 的 10 A-Z。
下面的技能列表顯示了更多的語言、框架和其他數(shù)據(jù)科學軟件工具。
根據(jù)我們的分析和調(diào)查,R 和 SQL 是最受歡迎的技能。根據(jù)局方開發(fā)者調(diào)查分析,近年來R、Java、SAS的使用量呈下降趨勢,呈明顯上升趨勢。
3.建議
根據(jù)這些分析的結(jié)果,以下是給數(shù)據(jù)科學家的一些建議。
當雇主在尋找熟練的數(shù)據(jù)科學家時,他們還希望候選人掌握常用的數(shù)據(jù)科學庫:numpy、-learn 和 .如果您正在學習這些工具,我建議您使用以下資源:
如果你想學習深度學習,我建議先學習 Keras,然后再學習 or。 Deep with 這本書是學習 Keras 的絕佳資源。
除此之外,我建議您了解自己感興趣的內(nèi)容,盡管這里需要考慮時間分配等因素。
如果您正在通過工作網(wǎng)站尋找數(shù)據(jù)科學家的工作it技能服務,我建議您嘗試一下,它提供最多的工作信息。
同時,我建議您創(chuàng)建一個在線作品集,以很好地展示您的數(shù)據(jù)科學技能。還建議您在個人資料中注明您的技能。