看到猴子社群里面试成功案例,项目经历拿自己知乎文章给别人看,很受启发。
以做项目的心态写文章。文章就是数据分析报告。一篇文章把一项技能写透,不光能自己学到技能,还能当做面试利器。
一、数据分析岗位的分类
1、数据分析岗位的职业发展路径:
- 数据分析师只是入门的职位:需要Excel和sql,做一些报表统计工作
- 业务方向:数据产品经理、运营。这就要结合业务能力,所谓业务结合技术。——但对我来说产品运营等方面没有业务经验。
-
技术方向:数据挖掘、大数据工程师、数据科学家。 就要利用大数据hadoop等技术,处理PB级别数据(1PB=1024TB)。
- 技术方向还可以细分:
- hadoop系统工程师:配置hadoop系统并持续优化系统性能,不去做具体的数据分析。
- 大数据挖掘工程师:利用hadoop系统进行海量数据挖掘,技术要求没系统工程师那么高,现在有HQL,语句也比较简单。
- 数据科学家:驱动机器去处理自动化大数据,但要求比较高,学历博士起步。可以作为后续的目标。
总结:结合我自身背景,可以考虑技术方面的数据分析师,在具备基本的数据分析能力的同时,注重hadoop等技术的积累
这几类岗位具体有什么要求?什么公司要的比较多?那些地区岗位需求比较多?具体都要干什么?这些问题就需要数据分析来看一下,请看本文第二部分。
2、hadoop入门
hadoop的理论基础,google的三篇论文,大牛工程师在论文基础上用java实现。GFS就是HDFS分布式文件系统。mapreduce就是hadoop的算法核心。
Google于2003年在SOSP上发表了《The Google File System》,于2004年在OSDI上发表了《MapReduce: Simplified Data Processing on Large Clusters》,于2006年在OSDI上发表了《Bigtable: A Distributed Storage System for Structured Data》。这三篇论文 后来成为云计算发展的重要基石。
hadoop和spark的关系:hadoop是离线数据库,spark是在线实时计算,解决的时效性要求。Spark是Hadoop生态系统的一部分,而不是和Hadoop并行的概念。Hadoop可以被理解为“数据中心的操作系统”,可以类比为Linux。Spark是运行在Hadoop上的一个计算引擎(MapReduce是另外一个),可以勉强类比为运行在Linux上的R或者SAS。
两个方向:要看你对Hadoop的兴趣在hadoop本身还是在大数据处理了,如果是前者,就业集中在大公司,研究hadoop内部的实现;如果是后者,hadoop只是工具的其中一种。
hadoop的公司
专门做hadoop的公司:Cloudera,有相关认证证书,国内的公司有星环科技
证券公司利用hadoop:证券公司也在做这个尝试,比如用hadoop做金融终端行为日志分析,用hbase存储海量历史流水数据等等
二、用excel做数据分析:
不管是Excel还是听起来牛逼的hadoop,数据分析思路都是一样的。区别只是数据量的大小。一般的数据两excel和sql就够。上千万的数据就可以考虑上分布式数据库。总之技术都是为了分析服务。
1、数据分析三板斧,一名合格的数据师可以精通一个过程,但每个环节都要有工具,否则有瓶颈。
“三把斧”:一把用来提取自己需要的数据,一把用来处理分析数据,还有一把用来展示与传达数据。
2、数据分析基本思路:
(1) 数据目的:分析数据岗位的具体要求,联系excel的各项数据分析功能——数据透视表、vlookup合并报表
(2)提取数据:再次复习爬虫工具,对猎聘网输入“”数据“”后的岗位信息进行抓取。
第一层抓取信息:职位、薪水、地区、学历、工作年限、公司名称、行业。
第二层抓取信息:职位、公司名称、工资、区域、学历、工作年限、职位描述和工作职责。
利用的抓取技术:样例复制,翻页功能,第二层详情页面抓取,抓到详细信息。但是第一层和第二层的抓取是在两个网页里的,需要把两张报表关联起来。
碰到问题:第一层页面抓取了7069条。但第二层详细信息页面只抓了714条,多是超时报错。还没研究出报错的原因。


(3) 整理数据:数据分析占用时间比较多的步骤,比较枯燥,但确是最基础的一步。包含步骤:选择子集、删除重复值、缺失值处理、排序、异常值处理。
- 删除重复值:没有可以作为主键的值,没法处理。
- 缺失值处理:判断:啊选取列,看右下角计数。b处理方法:人工补全;删除;平均值代替;c定位缺失值:【查找和条件】-【定位条件】-空值。——未找到空值,说明网站信息完整度不错。
*对工资数据的整理:去掉工资是面议,利用函数把12-20万的数据分列。分成最低工资和最高工资,再算出平均工资。利用了left、find、right函数。
截取最低工资:left(A2,find("k",A2)-1),含义找到A2位置k,截取-1位置的字符,我的数据左边没有k,把k改为“”-“”
碰到问题算平均数时,最低最高工资是函数,需要转化为数字形式,复制再选择性粘贴。粘贴后右上角有绿色箭头“”以文本形式的数字“”怎么处理。利用数据-分列功能,什么都不用选点完成就好了。

(4)分析数据:数据透视表+统计描述+切片器动态报表(透视表工具,插入切片器)
跨表合并:2个表数据合并,vlookup或数据库合并
(5)报告,数据可视化
初步结论:
-
各行各业都需要数据分析——目前主要集中在互联网,其他行业还不多,数据分析未来必然像财务分析一样成为公司决策标配,是不需要吗?数据分析大有可为。首席数据官!
image.png
-
区域分析:岗位主要 集中在北上广成都杭州。
image.png
-
岗位分析:大数据开发工程师需求量最大,数据分析师次之,大数据运维,数据分析专员,数据产品经理。大数据技术和业务两个分支都有很多需求。
image.png
-
大数据公司的选择: 选大公司or小公司?银行等大公司做协调类工作,学不到东西。选公司要找有大量数据的公司,最理想是阿里巴巴,但是总部在杭州,上海也有分公司。
具体目标:阿里,平安集团,美团,小红书,饿了么,字节跳动。互联网金融公司暂不考虑,风险太大。
还有其他结论有待挖掘。。。
三、后续行动
1、数据分析能力:下周认真学习sql,这块是比较欠缺的。工作详情这里有大量文字描述,还不会怎么挖掘。有一个思路是词频统计,但用什么工具怎么统计还需要再研究。
2、技术能力:电脑里虚拟机装个hadoop,并写一篇报告。
网友评论