美文网首页
网页中表格数据解析

网页中表格数据解析

作者: 无事扯淡 | 来源:发表于2017-07-24 10:42 被阅读0次

1.任务

把下面网页中的表格数据解析成pandas数据
https://en.wikipedia.org/wiki/Harvard_University

Paste_Image.png

2.方法

  • 获取数据
import requests
response = requests.get('https://en.wikipedia.org/wiki/Harvard_University')
  • 获取表格
from lxml import etree
html = etree.HTML(response.text)
table = etree.xpath('//table[@class="wikitable"]')[0]
  • 解析表格中的数据
tr_array = table.findall('tr')
texts = []
for tr in tr_array:
    line = []
    for c in tr.iterchildren():
        line.append(c.text)
    texts.append(line)
  • 从文本中解析列名和索引
col_names = texts[0][1:]
index_names = [t[0] for t in texts[1:]]
  • 数据转换
values = []
for line in texts[1:]:
    row = []
    for v in line[1:]:
        v = v.strip()
        if v == 'N/A':
            v = None
        elif v.endswith('%'):
            v = int(v[:v.rfind('%')])
        row.append(v)
    values.append(row) 
  • 把数据转换为DataFrame
import pandas as pd
students = pd.DataFrame(values,columns=col_names,index=index_names)
数据转换
  • 对于数据问题
    第三列Census数据中有NaN,而且这列的数据类型是浮点数
>students.dtypes
Undergraduate      int64
Graduate           int64
U.S. Census      float64
dtype: object

把数据NAN转为0,并把数据类型转换为int

dfclearn = students.fillna(0).astype('int64')
数据类型转换

相关文章

  • 网页中表格数据解析

    1.任务 把下面网页中的表格数据解析成pandas数据https://en.wikipedia.org/wiki/...

  • HR福音-简单拖拽完成数据导入

    在日常办公中,我们有时候需要将网页数据导入到表格中。 那么如何省去自己手动敲入的时间,快速将网页数据导入到表格中呢...

  • Play DjangGo 4 展示Excel表格

    怎么把一张Excel表格展示到网页中呢?就方法来说有很多种;可以先从Excel表格中取出数据;然后在网页中把相应位...

  • 前端学习笔记一一HTML表格标签(table)

    前言 表格是网页制作中使用最多的工具之一,在制作网页时,使用表格可以更清晰地排列数据。但是在实际制作过程中,表格更...

  • 第2关 BeautifulSoup

    1、BeautifulSoup 是什么 解析和提取网页中的数据: (1)解析数据:把服务器返回来的 HTML 源代...

  • 爬虫 - python + selenium + webdriv

    一、爬虫读取网页上table(表格)三种方法 读取网页,直接解析html,读取table。 读取网页,用panda...

  • python数据分析3:数据抽取

    1.使用Pandas获取网页中的表格数据并转化为EXCEL电子表格 # 导入NBA球员的薪资数据 import p...

  • JSON text did not start with arr

    用AFN解析网页数据报错 原因是afn默认是解析json数据,修改方法如下: 这样就可以解析到网页数据了。然后将d...

  • 转载一些好的技术文章

    1,关于pandas的read_html()函数爬取网页的表格数据,并且保存到mysql数据库中(https://...

  • 6. JavaScript开发中表格与表单技术

    在网页中,表格和表单都是非常关键的应用,表格用来存放数据并布局页面样式,表单用于传输数据、采集客户端信息等。 6....

网友评论

      本文标题:网页中表格数据解析

      本文链接:https://www.haomeiwen.com/subject/ccrdkxtx.html