美文网首页
爬虫脚本--pdf处理思路

爬虫脚本--pdf处理思路

作者: simba0705 | 来源:发表于2017-01-04 21:37 被阅读22次

pdf处理思路

1 抽取文本数据

2 抽取图片数据

3 抽取表格数据

==》  人名  地名  年代

==》  行业  行业词库  行业编年史  行业人物  行业地点  行业事件

==》  地图数据  地名  范围

方案处理思路

文本处理  ---》    打标签  关系图  关联关系

自然语言处理包

表格处理    表格  --

pyxlrd  xml

图片处理    图片标题 -- 图片 --人物  关联

相关文章

网友评论

      本文标题:爬虫脚本--pdf处理思路

      本文链接:https://www.haomeiwen.com/subject/kgjavttx.html