美文网首页python爬虫学习
urllib基础及超时设置

urllib基础及超时设置

作者: 薛落花随泪绽放 | 来源:发表于2017-10-29 09:18 被阅读5次
import urllib.request
#urlretrieve(网址,本地文件存储地址) 直接下载网页到本地
urllib.request.urlretrieve("http://www.baidu.com","E:/python/python爬虫/dld.html")
urllib.request.urlcleanup()
#看网页相应的简介信息info()
file=urllib.request.urlopen("https://read.douban.com/provider/all")
print(file.info())
#返回网页爬取得状态码getcode()
print(file.getcode())
#获取当前访问的网页的url,geturl()
print(file.geturl())

超时设置

由于网络速度或对方服务器的问题,我们爬取一个网页的时候,都需要时间。我们访问一个网页,如果该网页长时间未响应,那么我们的系统就会判断该网页超时了,即无法打开该网页。

#超时设置
import urllib.request
for i in range(0,100):
    try:
         file=urllib.request.urlopen("http://www.baidu.com",timeout=1)
         print(len(file.read().decode("utf-8")))
    except Exception as err:
        print("出现异常"+str(err))

相关文章

网友评论

    本文标题:urllib基础及超时设置

    本文链接:https://www.haomeiwen.com/subject/cvgepxtx.html