美文网首页
Kaggle <机器学习与数据科学 2020>

Kaggle <机器学习与数据科学 2020>

作者: writer_zero | 来源:发表于2021-01-17 12:03 被阅读0次

这两天读了kaggle发布的年度调查报告《机器学习与数据科学 2020》,文中向我们展示了当前数据科学家的群体画像。

报告通过对平台的部分用户(在职的数据科学家或其他跟数据科学、机器学习有关的人员)进行调查,涉及了用户的基本个人信息、薪资、工作经验等多个维度。

而其中并未包含任何中国本土的数据科学从业人员数据,因为在一开始收集问卷调查时,kaggle有设立规则:

    若想获得该问卷调查所设奖项,您必须满足:

    18 岁以上或所在国规定的公民年龄;               

    本人不是亚美尼亚、古巴、伊朗叙利亚、朝鲜、苏丹国民;

    不是受美国出口管制或制裁的个人或实体的代表。

也就是说,你可以填写问卷,但不能参与奖项评审,所以最后的调查数据中没有中国本土人员。因此,这份报告只能作为一个趋势展望,涉及薪资方面的结论对国内从业者并无太大参考价值。

下面我挑了几个感兴趣的结论罗列:

年龄

跟互联网高科技行业类似,也是30岁上下的人为主力,可能只有高端的数据科学家岗位需要40岁以上经验丰富的专家。

年龄分布

国家

排名前两位的是印度和美国,怪不得在YouTube上搜数据科学方面的视频,经常看到印度哥们的作品,当然我个人的感觉是,印度以数量取胜,质量估计跟美国有差距,尤其是顶尖人才。

受访者所在国分布

学历

早年间大家都会认为搞数据科学,那应该是博士才能干的活,从前几年开始,一些开发者大会或者YouTube知识网红都提到这样的说法,Deep Learning without PhD,个人感觉这个思路是对的,参与这一领域的人更多,会加速这个行业的发展,而且并不是所有的数据科学相关工作都需要理论非常扎实的人才。随着Python语言、深度学习机器学习的框架普及化,进入这行的门槛会有所降低,这次kaggle的调查结论也说明了这一点:主力大军是获得过硕士学位的人。

学历分布

机器学习经验

经验方面,全球的数据中只有6% 的专业数据科学家已经使用机器学习 10 年或更久。而美国这一数据达到13.7%,5-10年组中,美国的比例也领先全球。个人感觉其他国家的人关注机器学习还要回溯到2015年alphaGo事件,那个时候很多人进入了该领域,而美国相关高校一直有较完善的人才梯队在从事相关研究。

机器学习经验的分布

开发环境

JupyterLab(JupyterNotebook的下一代)仍然是数据科学家的首选工具。不过,这一数字比去年的 83% 有所下降。Visual Studio Code排名第二, 33.2%。VS Code很多技术播客都在推荐,我本人尝试之后,确实好用,里面的变量查看器、debugger可以帮助提升效率,不过最近JupyterLab也在开发debugger插件,未来这些IDE都会吸纳别人的优点,从业人员最好都会,不同类型的工作使用不同的IDE。

IDE的分布

相关文章

网友评论

      本文标题:Kaggle <机器学习与数据科学 2020>

      本文链接:https://www.haomeiwen.com/subject/objgaktx.html