爬一爬

作者: 雷霆嘎巴嘎嘎 | 来源:发表于2018-01-22 20:18 被阅读26次

使用pandas存储爬取的内容为xlsx格式和csv格式

#coding = utf-8

import urllib.request
from bs4 import BeautifulSoup

'''
import as 是把引入的模块换个名字 as后边即是
'''
import pandas as pd

def openthedoorToSoup(url):
    r =  urllib.request.urlopen(url).read().decode()
    # soup = BeautifulSoup(r,'html.parser') 
    return r


url= "http://www.runoob.com/html/html-intro.html"
html = openthedoorToSoup(url)
soup = BeautifulSoup( html,'html.parser')


# 得到里边的文字
list = [x.text for x in soup.findAll("h2")]
df = pd.DataFrame(list, columns = ['我是一个特立独行的标头'])
# df.to_excel('爬虫.xlsx')

# print(df.iloc[2,0])

# 存储在csv文件中 但是  会乱码

"""
在pandas中读取带有中文的csv文件时,读写中汉字为乱码,可    加上encoding参数来避免,如:
pd.read_csv("ee.csv",encoding="gbk")
当然,在导出时记得也加上encoding参数,否则导出后用excel打  开也是乱码,editplus打开正常,如:
df.to_csv("sel.csv",index=False,encoding="gbk")
                                                """
df.to_csv("爬虫.csv")
df.to_csv("sel.csv",index=False,encoding="gbk")

相关文章

  • 爬爬爬爬爬爬爬

    爬爬爬爬爬爬爬 只要你爬得足够高 人们便会觉得你如飞在云端般轻飘

  • 爬一爬

    使用pandas存储爬取的内容为xlsx格式和csv格式

  • 我爬爬爬

    2018年1月16日,我半岁了。这天妈妈又折腾了,她说“今天宝宝来学习一下爬爬。”她才不管什么“二抬四翻六坐七滚八...

  • 华山爬爬爬!!!

    7:00到8:00 到第一关 五里关 感觉整个山都在跟我蒸桑拿,它起雾,我出汗! 在桃林道院把羊毛开衫脱掉!顿时觉...

  • 新奇爬爬爬

  • 轨迹

    就在刚刚 看见一只毛毛虫 爬 爬 爬 爬 爬 爬 ...

  • 爬爬

    2018.9.12 安安181天 从最早的后退式爬,到青蛙式跃,到如今能够用手臂撑着移动,还能越过障碍爬,进步很神...

  • 爬爬

    脑子放空 嘻嘻 软软的 有水果补充维生素 想想水果的使命也算达到了吧 在想 我们来世上都干什么啊…… 睡了睡了 明...

  • 比慢爬爬爬

    暑假,小明一家去海滩玩。 海滩好美哇!洁白的浪花,美丽的贝壳,柔软的沙子。 小明突然发现...

  • 147-爬爬爬

    宝宝翻身一水儿的麻利!另外,趴着的时候,她撅起自己的小屁股,抬着腿,是要爬啊,姥姥在脚底板推了推,给她加了把劲儿,...

网友评论

    本文标题:爬一爬

    本文链接:https://www.haomeiwen.com/subject/gndraxtx.html