Python网络数据采集之读取文件|第05天

作者: 你好我是森林 | 来源:发表于2018-04-01 21:35 被阅读292次

Python网络数据采集之图像识别与文字处理
Python网络数据采集之读取文件|第05天
Python网络数据采集之使用API|第03天
2018最佳人工智能数据采集(爬虫)工具书下载
Python网络数据采集
《Python网络数据采集》 ([美] 米切尔) 中文pdf版
使用Pandas读取csv文件
大数据学习之：Flume
Python 保存读取json数据
数据挖掘-pandas库的使用

User:你好我是森林
Date:2018-04-01
Mark:《Python网络数据采集》

网络采集系列文章

Python网络数据采集之创建爬虫
 Python网络数据采集之HTML解析
 Python网络数据采集之开始采集
 Python网络数据采集之使用API
Python网络数据采集之存储数据

读取文档

文档编码

文档编码的方式通常可以根据文件的扩展名进行判断，虽然文件扩展名并不是由编码确定的，而是由开发者确定的。从最底层的角度看，所有文档都是由 0和 1 编码而成的。例如我我们将一个后缀为png的图片后缀改为.py。用编辑器打打开就完全不对了。

只要安装了合适的库， Python 就可以帮你处理任意类型的文档。纯文本文件、视频文件和图像文件的唯一区别，就是它们的 0和1 面向用户的转换方式不同。

纯文本

对于纯文本的文件获取的方式很简单，用 urlopen 获取了网页之后，我们会把它转变成 BeautifulSoup对象。

from urllib.request import urlopen 

textPage = urlopen(
"http://www.pythonscraping.com/pages/warandpeace/chapter1.txt") 

print(textPage.read())

CSV 文件

Python有一个标准库对CSV文件的处理特别的友好，可以处理各类的CSV文件。文档地址

读取CSV文件

Python 的csv 库主要是面向本地文件，就是说你的 CSV 文件得存储在你的电脑上。而进行网络数据采集的时候，很多文件都是在线的。有几个参考解决办法：

手动把CSV文件下载到本机，然后用Python定位文件位置;
写Python程序下载文件，读取之后再把源文件删除;
从网上直接把文件读成一个字符串，然后转换成一个StringIO对象，使它具有文件的
属性。

例如获取网上的CSV文件，然后输出命令行。

from urllib.request import urlopen
from io import StringIO
import csv

data = urlopen("http://pythonscraping.com/files/MontyPythonAlbums.csv").read().decode('ASCII','ignore')

dataFile = StringIO(data)
csvReader = csv.reader(dataFile)

for row in csvReader:
    print(row)

输出的结果：

['Name', 'Year']
["Monty Python's Flying Circus", '1970']
['Another Monty Python Record', '1971']
["Monty Python's Previous Record", '1972']
['The Monty Python Matching Tie and Handkerchief', '1973']
['Monty Python Live at Drury Lane', '1974']
['An Album of the Soundtrack of the Trailer of the Film of Monty Python and the Holy Grail', '1975']
['Monty Python Live at City Center', '1977']
['The Monty Python Instant Record Collection', '1977']
["Monty Python's Life of Brian", '1979']
["Monty Python's Cotractual Obligation Album", '1980']
["Monty Python's The Meaning of Life", '1983']
['The Final Rip Off', '1987']
['Monty Python Sings', '1989']
['The Ultimate Monty Python Rip Off', '1994']
['Monty Python Sings Again', '2014']

PDF 文件

PDFMiner3K是一个非常好用的库(是PDFMiner的Python 3.x移植版)。它非常灵活，可以通过命令行使用，也可以整合到代码中。它还可以处理不同的语言编码，而且对网络文件的处理也非常方便。

下载解压后用python setup.py install完成安装。

模块的源文件下载地址： https://pypi.python.org/pypi/pdfminer3k

例如可以把任意 PDF 读成字符串，然后用 StringIO转换成文件对象。

from urllib.request import urlopen
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open

def readPDF(pdfFile):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, laparams=laparams)
             process_pdf(rsrcmgr, device, pdfFile)
             device.close()
    content = retstr.getvalue() retstr.close()
    return content
    
pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")
outputString = readPDF(pdfFile)
print(outputString)
pdfFile.close()

readPDF 函数最大的好处是，如果PDF文件在电脑里，就可以直接把 urlopen返回的对象 pdfFile 替换成普通的 open() 文件对象:

pdfFile = open("./chapter1.pdf", 'rb')

如果本文对你有所帮助，欢迎喜欢或者评论；如果你也对网络采集感兴趣，可以点击关注，这样就能够收到后续的更新。感谢您的阅读。

原文地址：https://chensenlin.cn/posts/34041/

欢迎你免费加入我的星球，一起分享，共同成长。

知识星球

Python网络数据采集之图像识别与文字处理
网络采集系列文章 Python网络数据采集之创建爬虫Python网络数据采集之HTML解析Python网络数据采集...
Python网络数据采集之读取文件|第05天
User:你好我是森林Date:2018-04-01Mark:《Python网络数据采集》网络采集系列文章 Py...
Python网络数据采集之使用API|第03天
Python网络数据采集之使用API|第03天 User:DemoChenDate:2018-03-30Mark:...
2018最佳人工智能数据采集(爬虫)工具书下载
Python网络数据采集 Python网络数据采集 - 2016.pdf 本书采用简洁强大的Python语言，介绍...
Python网络数据采集
《Python网络数据采集》本书采用简洁强大的Python语言，介绍了网络数据采集，并为采集新式网络中的各种数据类...
《Python网络数据采集》 ([美] 米切尔) 中文pdf版
Python网络数据采集采用简洁强大的Python语言，介绍了网络数据采集，并为采集新式网络中的各种数据类型提供了...
使用Pandas读取csv文件
python读取csv文件简单例子： python读取csv文件时，数据被保存到dataframe中，此时，数据会...
大数据学习之：Flume
flume作用从磁盘采集文件发送到HDFS 数据采集来源：系统日志文件、Python爬虫数据、端口数据数据发送...
Python 保存读取json数据
1. python 保存json数据 2. python 读取文件中的json数据
数据挖掘-pandas库的使用
读取 pandas是python中的数据处理库，可以读取数据库，csv文件，txt文件，excel文件，hdf5文...

Python网络数据采集之读取文件|第05天

网络采集系列文章

读取文档

文档编码

纯文本

CSV 文件

读取CSV文件

PDF 文件

相关文章

Python网络数据采集之图像识别与文字处理

Python网络数据采集之读取文件|第05天

Python网络数据采集之使用API|第03天

2018最佳人工智能数据采集(爬虫)工具书下载

Python网络数据采集

《Python网络数据采集》 ([美] 米切尔) 中文pdf版

使用Pandas读取csv文件

大数据学习之：Flume

Python 保存读取json数据

数据挖掘-pandas库的使用

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python学习日志

Java-Python-Django社区

Python数据采集与爬虫

程序员

程序猿阵线联盟-汇总各类技术干货