爬虫是大数据时代最有趣的工具,作为新手,股市数据的爬取是非常有意思的。
许多证券网站都会有上市公司业绩预报的页面,最近市场对这个概念比较活跃。如何快速的捕获这些数据并分析呢?
有人说,直接在网页上浏览不就行了么?
当然可以,但是你想综合对比分析,在证券网站上就没那么容易了。
还有人说,明明可以用wind插件嘛。嗯,wind确实不错呀,不过不卖给个人,只卖给机构,还6万块一年起步。
我可能只需要学一个礼拜的代码就可以实现我的想法,甚至可能是一小时。
Python的爬虫工具非常多,不做赘述。
以新浪证券为例---为神马非要用新浪证券呢?因为新浪证券的翻页不像东方财富网,并没有用JavaScript,对我来说比较好处理... ...
原理比较简单,新浪证券的业绩预增页面在这里:http://vip.stock.finance.sina.com.cn/q/go.php/vFinanceAnalyze/kind/performance/index.phtml?num=60&p=

p和等号后面跟着是页数,目前是43页,因此可以直接在代码里写死。
原网页一共9列,其实我想要的只有7列。
爬完以后是这样子:

很多公司的预报增幅是带区间的,在excel里不方便排序,就用截取函数截取最小增幅---为什么要截最小而不是最大呢?因为我干过会计.....谨慎性原则。
取完后发现大约有2560(7月27日)只股票发布了业绩预报,相对于全场3200多只股票来说,这个比例不算低了。其中预升或者预增(二者有什么区别么?WTF?)的有1679家,这么看A股的整体预期还是不错的嘛。
然后筛选一下今天发布的预增的:

对照公告日期,配合增幅比例,好像发现了什么不得了的事。
市场的逻辑就是这么简单粗暴。
由于我之前做好了全场3200多只股票连续三年的净利润情况,并进行了概念、行业的分类,那么就可以vlookup一下:

结合净利润情况,就可以更好的分析参考了。
网友评论