Kaggle <机器学习与数据科学 2020>

作者: writer_zero | 来源:发表于2021-01-17 12:03 被阅读0次

Kaggle <机器学习与数据科学 2020>
为什么Kaggle不会让你成为一名出色的数据科学家
下载kaggle数据集的小妙招
kaggle之泰坦尼克之灾
机器学习：泰坦尼克之灾获救预测
数据科学家实操之路
Kaggle数据挖掘竞赛入门系列：（一）Kaggle简介
玩转kaggle
Excel数据分析案例：用Excel训练支持向量机（SVM）
2017Kaggle数据科学&机器学习大调查：关于语言、

这两天读了kaggle发布的年度调查报告《机器学习与数据科学 2020》，文中向我们展示了当前数据科学家的群体画像。

报告通过对平台的部分用户（在职的数据科学家或其他跟数据科学、机器学习有关的人员）进行调查，涉及了用户的基本个人信息、薪资、工作经验等多个维度。

而其中并未包含任何中国本土的数据科学从业人员数据，因为在一开始收集问卷调查时，kaggle有设立规则：

若想获得该问卷调查所设奖项，您必须满足：

18 岁以上或所在国规定的公民年龄；

本人不是亚美尼亚、古巴、伊朗叙利亚、朝鲜、苏丹国民；

不是受美国出口管制或制裁的个人或实体的代表。

也就是说，你可以填写问卷，但不能参与奖项评审，所以最后的调查数据中没有中国本土人员。因此，这份报告只能作为一个趋势展望，涉及薪资方面的结论对国内从业者并无太大参考价值。

下面我挑了几个感兴趣的结论罗列：

年龄

跟互联网高科技行业类似，也是30岁上下的人为主力，可能只有高端的数据科学家岗位需要40岁以上经验丰富的专家。

年龄分布

国家

排名前两位的是印度和美国，怪不得在YouTube上搜数据科学方面的视频，经常看到印度哥们的作品，当然我个人的感觉是，印度以数量取胜，质量估计跟美国有差距，尤其是顶尖人才。

受访者所在国分布

学历

早年间大家都会认为搞数据科学，那应该是博士才能干的活，从前几年开始，一些开发者大会或者YouTube知识网红都提到这样的说法，Deep Learning without PhD，个人感觉这个思路是对的，参与这一领域的人更多，会加速这个行业的发展，而且并不是所有的数据科学相关工作都需要理论非常扎实的人才。随着Python语言、深度学习机器学习的框架普及化，进入这行的门槛会有所降低，这次kaggle的调查结论也说明了这一点：主力大军是获得过硕士学位的人。

学历分布

机器学习经验

经验方面，全球的数据中只有6% 的专业数据科学家已经使用机器学习 10 年或更久。而美国这一数据达到13.7%，5-10年组中，美国的比例也领先全球。个人感觉其他国家的人关注机器学习还要回溯到2015年alphaGo事件，那个时候很多人进入了该领域，而美国相关高校一直有较完善的人才梯队在从事相关研究。

机器学习经验的分布

开发环境

JupyterLab（JupyterNotebook的下一代）仍然是数据科学家的首选工具。不过，这一数字比去年的 83% 有所下降。Visual Studio Code排名第二， 33.2%。VS Code很多技术播客都在推荐，我本人尝试之后，确实好用，里面的变量查看器、debugger可以帮助提升效率，不过最近JupyterLab也在开发debugger插件，未来这些IDE都会吸纳别人的优点，从业人员最好都会，不同类型的工作使用不同的IDE。

IDE的分布