这两天读了kaggle发布的年度调查报告《机器学习与数据科学 2020》,文中向我们展示了当前数据科学家的群体画像。
报告通过对平台的部分用户(在职的数据科学家或其他跟数据科学、机器学习有关的人员)进行调查,涉及了用户的基本个人信息、薪资、工作经验等多个维度。
而其中并未包含任何中国本土的数据科学从业人员数据,因为在一开始收集问卷调查时,kaggle有设立规则:
若想获得该问卷调查所设奖项,您必须满足:
18 岁以上或所在国规定的公民年龄;
本人不是亚美尼亚、古巴、伊朗叙利亚、朝鲜、苏丹国民;
不是受美国出口管制或制裁的个人或实体的代表。
也就是说,你可以填写问卷,但不能参与奖项评审,所以最后的调查数据中没有中国本土人员。因此,这份报告只能作为一个趋势展望,涉及薪资方面的结论对国内从业者并无太大参考价值。
下面我挑了几个感兴趣的结论罗列:
年龄
跟互联网高科技行业类似,也是30岁上下的人为主力,可能只有高端的数据科学家岗位需要40岁以上经验丰富的专家。

国家
排名前两位的是印度和美国,怪不得在YouTube上搜数据科学方面的视频,经常看到印度哥们的作品,当然我个人的感觉是,印度以数量取胜,质量估计跟美国有差距,尤其是顶尖人才。

学历
早年间大家都会认为搞数据科学,那应该是博士才能干的活,从前几年开始,一些开发者大会或者YouTube知识网红都提到这样的说法,Deep Learning without PhD,个人感觉这个思路是对的,参与这一领域的人更多,会加速这个行业的发展,而且并不是所有的数据科学相关工作都需要理论非常扎实的人才。随着Python语言、深度学习机器学习的框架普及化,进入这行的门槛会有所降低,这次kaggle的调查结论也说明了这一点:主力大军是获得过硕士学位的人。

机器学习经验
经验方面,全球的数据中只有6% 的专业数据科学家已经使用机器学习 10 年或更久。而美国这一数据达到13.7%,5-10年组中,美国的比例也领先全球。个人感觉其他国家的人关注机器学习还要回溯到2015年alphaGo事件,那个时候很多人进入了该领域,而美国相关高校一直有较完善的人才梯队在从事相关研究。

开发环境
JupyterLab(JupyterNotebook的下一代)仍然是数据科学家的首选工具。不过,这一数字比去年的 83% 有所下降。Visual Studio Code排名第二, 33.2%。VS Code很多技术播客都在推荐,我本人尝试之后,确实好用,里面的变量查看器、debugger可以帮助提升效率,不过最近JupyterLab也在开发debugger插件,未来这些IDE都会吸纳别人的优点,从业人员最好都会,不同类型的工作使用不同的IDE。

网友评论