美文网首页
PDF年报|非年报识别

PDF年报|非年报识别

作者: 月夜星空下 | 来源:发表于2021-05-20 09:57 被阅读0次
import re
import os
# import jieba
import pdfplumber

path = 'D:/Users/Desktop/test'


# jieba.load_userdict("./dict.txt")


def File_Eli(path):
    # 剔除隐藏的文件,需要提供被测文件的路径,生成一个剔除隐藏文件后的列表。
    path = os.listdir(path)
    ls = []
    for f in path:
        # print(f)
        if not f.startswith('.'):
            ls.append(f)
    return ls


def PdfPath(path):
    with pdfplumber.open(path) as p:
        page = p.pages[0]

        fpage = page.extract_text()
        content = re.sub('\s+', '', fpage).strip()
        # print(x)
        # print('###'*100)
    # paper = x.split()[0] + x.split()[1]
    # seg = jieba.lcut(fpage)
    return content


eli = File_Eli(path)


def Txt_Create(Target_Path, msg):
    # 新创建的txt文件的存放路径,需要提供url,生成文本及内容。msg是str。
    full_path = Target_Path + 'SoftLink.txt'  # 也可以创建一个.doc的word文档

    file = open(full_path, 'w')
    file.write(msg)  # msg也就是下面的Hello world
    file.close()
    return file


def ReadPdf(Dir, ls):
    # 提供path(路径)和ls(剔除隐藏文件的的列表),能打印出列表文本中的内容
    # print("#"+Path,ls)
    res = []
    all = []
    for i in range(len(ls)):
        url = Dir + '/' + ls[i]
        all.append(url)
        print(url)
        try:
            f = PdfPath(url)
            if '年度报告' in f:
                if '摘要' not in f:
                    if '半年' not in f:
                        res.append(f)
                        # print(f)
                        print(url)
        except:
            pass
    ret3 = list(set(res) - set(all))
    print('ret3:', ret3)
    return res


sss = ReadPdf(path, eli)
print(len(sss))

相关文章

  • PDF年报|非年报识别

  • 小鼠新物体识别Protocol

    Ennaceur 和 Delacour于 1988 年报道了一种非奖赏性的、简单的认知记忆实验模型——新物体识别实...

  • 企业年报公示制度是什么?重庆企业未年报会有什么后果?

    年报年报,年年都要做年报,但是你真的知道年报的意义吗?对于年报是不是可有可无,不及时年报会有什么后果呢?如果你还不...

  • 《明明白白看年报》 袁克成.pdf 免费下载

    下载地址:《明明白白看年报》 袁克成[www.rejoiceblog.com].pdf

  • 年报

    年报会已经开过了,接着各种报表的要求便接踵而来,塞满了整个邮箱。 还没看完邮件,微信信息里又被催12月各企业的财务...

  • 年报

    零售客户,1.25亿,同比增长了18%,总资产6.6万亿。 其中私人银行客户7.2万户,总资产超过2万亿,也就是说...

  • 年报

    年报会开过了,明天开始年报报表开始做了,局里要求一周做好,我会按照要求如期完成,做过年的准备工作。 年报会,专业的...

  • 年报

    整这个年数据,淘宝有好多都要算算算,加上表格太大了,一直卡卡卡,有一次还给我卡出去了,还好我有随时保存的好习惯,不...

  • 年报

  • 财务自由笔记 4.5.1 —— 如何下载A股,港股,美股财报

    财报有一季报、半年报、三季报、年报。其中年报为年度财务报告,并且年报必须要经过会计师事务所的审计。所以年报准备的时...

网友评论

      本文标题:PDF年报|非年报识别

      本文链接:https://www.haomeiwen.com/subject/eqevjltx.html