美文网首页
论文笔记——Fine-Grained Entity Recogn

论文笔记——Fine-Grained Entity Recogn

作者: NLper小白 | 来源:发表于2020-07-22 17:44 被阅读0次

文章标题

Fine-Grained Entity Recognition细粒度实体识别

Summary

概述文章的内容,用自己的语言描述

本文提出了FIGER数据集,并且提出了一种自适应感知器方法对实体进行多标签分类,通过使用其他模型验证了该数据集的可行性。

Research Objective

作者的研究目标

为了智能的理解文本并提取广泛的信息,本文定义了一个由112个标签组成的细粒度集合,将标签问题描述为多级、多标签分类,描述了一种无监督的收集训练数据,并通过FIGER数据集展现。任务:从自然语言句子中发现实体的类型信息,并对每个提及的实体匹配对应的实体类型。

Problem Statement

问题陈述,需要解决的问题是什么

之前的大多ER研究只关注在有限的类型上:MUC-7(1997)包括:人、地点和组织;CONLL03 增加了Other类型;ACE 引入了地缘政治实体、武器、车辆和设施;Ontonotes(2006)将其分为18类;BBN 29(2005)中答案类型。提出了细粒度标签的数据集FIGER

Method

作者解决问题的方法/算法

如下图是整个系统的概览图,整个过程是流水线的方式:

给一个Plain Text(纯文本)作为输入

首先对句子进行分段,然后找到候选实体进行标记

其次,应用Classifier for entiy tagging 分类器应用于识别的片段,并输出其标签。

传统的NER系统最整个任务使用序列模型,通常使用 linear-chain COnditional Random Field(CRF)。在序列模型中,每个标记都有一个相应的隐藏变量,指示其类型标签,隐藏变量的状态空间与类型集的大小呈线性关系。如果允许一个片段有多个标签,则状态空间呈指数级增长。流水线模型则避免了这个问题。

作者首先提出了三个挑战,并分别提出了相应的解决办法

挑战:

selection of the tag set  标签集的选择

creation of training data  训练数据的创建

development of a fast and accurate multi-class labeling algorithm 快速准确的多级标签算法的开发

解决方案:

通过基于Freebase 类型管理一组112个独特的标签

Freebase的优点:

1) 更广泛覆盖了世界上的实体

2) 允许一个实体承载多个重叠类型

使用远程监督(distant supervision)自动标注数据,利用Wikipedia文本中的锚定链接,用适当的标签自动标记实体段。通过启发式的方法删除了费句子,例如对句子中的逗号和分号进行阈值化

使用启发式标记的训练数据训练一个CRF模型进行分割(识别提到实体的文本边界),使用线性链式CRF模型来分割具有三个标准隐藏状态,即“B”、“i”和“O”。这些状态分别表示提及的开始令牌、提及的非开始令牌和未提及的令牌。以“B”作为起始标记的连续标记的最大序列,如果有,后面的标记是“I”,则被视为实体提及/段。使用一种自适应感知器算法来解决这个多标签分类问题

应用了一个经典的线性分类器 感知器的形式是:

y ̂  : 预测的标签

f(x, y): 提及的x向量

w : 模型向量的权重 

Evaluation

作者如何评估自己的方法,实验的setup是什么样的,有没有问题或者可以借鉴的地方。

作者为了评估FIGER,考虑了两个问题

问题

how accurately can it assign tags 如何精确的分类标签

do the fine-grained tags matter 细粒度的标记是否重要

解决方案

与Stanford’s coarse-grained NER system[1]  和Illinois’ Named-Entity Linking system[2]进行了对比

使用了做好的关系抽取系统MultiR[3],接受每个FIGER预测的类型作为每个潜在关系的参数的特征

[1] "Finkel,J.;Grenager,T.;andManning,C.2005.Incorporat-ingnon-localinformationintoinformationextractionsys-temsbygibbssampling.InProceedingsofACL,363–370.AssociationforComputationalLinguistics.Fleischman" 

[2] "Ratinov,L.;Roth,D.;Downey,D.;andAnderson,M.2011.Localandglobalalgorithmsfordisambiguationtowikipedia.InProc.ofACL.Riedel" 

[3]: "Hoffmann, R.; Zhang, C.; Ling, X.; Zettlemoyer, L.; and Weld, D. S. 2011. Knowledge-based weak supervision for information extraction of overlapping relations. In ACL."

Conclusion

作者给了哪些结论,哪些是strong conclusions, 哪些又是weak的conclusions?

贡献

介绍了一组从Freebase派生的实体类型集,这些实体类型对于人类理解和其他NLP任务有用

描述了FIGER,一个细粒度的实体识别数据集,他标识自然语言文本中实体的引用,并用适当的标记对其进行标记

将FIGER与两个最先进的模型进行了比较,结果表明:(1)FIGER具有很好的整体准确度,在处理不常见实体时优于其它方法(2)当作为特征使用时,细粒度标记可以显著提高F1中关系提取性能

将FIGER的实现和它的数据作为开放源码提供给研究人员使用和使用。

未来方向

对标签相关性进行建模,以避免预测不太可能的组合。

减少来自远程监督的噪音

Notes

额外的笔记

1. 实体识别定义

Entity Recognition(ER)is a type of information extraction that seeks to identify regions of text(mentions)corresponding to entities and to categorize them into a predefined list of types.实体识别(ER)是一种信息抽取类型,目的是识别与实体相对应的文本(提及)区域,并将其分类到预定义的类型列表中。

2.词汇

adapted perceptron 自适应感知器empirically 经验为主地

相关文章

网友评论

      本文标题:论文笔记——Fine-Grained Entity Recogn

      本文链接:https://www.haomeiwen.com/subject/pfutlktx.html