文章标题
Fine-Grained Entity Recognition细粒度实体识别
Summary
概述文章的内容,用自己的语言描述
本文提出了FIGER数据集,并且提出了一种自适应感知器方法对实体进行多标签分类,通过使用其他模型验证了该数据集的可行性。
Research Objective
作者的研究目标
为了智能的理解文本并提取广泛的信息,本文定义了一个由112个标签组成的细粒度集合,将标签问题描述为多级、多标签分类,描述了一种无监督的收集训练数据,并通过FIGER数据集展现。任务:从自然语言句子中发现实体的类型信息,并对每个提及的实体匹配对应的实体类型。
Problem Statement
问题陈述,需要解决的问题是什么
之前的大多ER研究只关注在有限的类型上:MUC-7(1997)包括:人、地点和组织;CONLL03 增加了Other类型;ACE 引入了地缘政治实体、武器、车辆和设施;Ontonotes(2006)将其分为18类;BBN 29(2005)中答案类型。提出了细粒度标签的数据集FIGER
Method
作者解决问题的方法/算法
如下图是整个系统的概览图,整个过程是流水线的方式:
给一个Plain Text(纯文本)作为输入
首先对句子进行分段,然后找到候选实体进行标记
其次,应用Classifier for entiy tagging 分类器应用于识别的片段,并输出其标签。
传统的NER系统最整个任务使用序列模型,通常使用 linear-chain COnditional Random Field(CRF)。在序列模型中,每个标记都有一个相应的隐藏变量,指示其类型标签,隐藏变量的状态空间与类型集的大小呈线性关系。如果允许一个片段有多个标签,则状态空间呈指数级增长。流水线模型则避免了这个问题。
作者首先提出了三个挑战,并分别提出了相应的解决办法
挑战:
selection of the tag set 标签集的选择
creation of training data 训练数据的创建
development of a fast and accurate multi-class labeling algorithm 快速准确的多级标签算法的开发
解决方案:
通过基于Freebase 类型管理一组112个独特的标签
Freebase的优点:
1) 更广泛覆盖了世界上的实体
2) 允许一个实体承载多个重叠类型
使用远程监督(distant supervision)自动标注数据,利用Wikipedia文本中的锚定链接,用适当的标签自动标记实体段。通过启发式的方法删除了费句子,例如对句子中的逗号和分号进行阈值化
使用启发式标记的训练数据训练一个CRF模型进行分割(识别提到实体的文本边界),使用线性链式CRF模型来分割具有三个标准隐藏状态,即“B”、“i”和“O”。这些状态分别表示提及的开始令牌、提及的非开始令牌和未提及的令牌。以“B”作为起始标记的连续标记的最大序列,如果有,后面的标记是“I”,则被视为实体提及/段。使用一种自适应感知器算法来解决这个多标签分类问题
应用了一个经典的线性分类器 感知器的形式是:
y ̂ : 预测的标签
f(x, y): 提及的x向量
w : 模型向量的权重
Evaluation
作者如何评估自己的方法,实验的setup是什么样的,有没有问题或者可以借鉴的地方。
作者为了评估FIGER,考虑了两个问题
问题
how accurately can it assign tags 如何精确的分类标签
do the fine-grained tags matter 细粒度的标记是否重要
解决方案
与Stanford’s coarse-grained NER system[1] 和Illinois’ Named-Entity Linking system[2]进行了对比
使用了做好的关系抽取系统MultiR[3],接受每个FIGER预测的类型作为每个潜在关系的参数的特征
[1] "Finkel,J.;Grenager,T.;andManning,C.2005.Incorporat-ingnon-localinformationintoinformationextractionsys-temsbygibbssampling.InProceedingsofACL,363–370.AssociationforComputationalLinguistics.Fleischman"
[2] "Ratinov,L.;Roth,D.;Downey,D.;andAnderson,M.2011.Localandglobalalgorithmsfordisambiguationtowikipedia.InProc.ofACL.Riedel"
[3]: "Hoffmann, R.; Zhang, C.; Ling, X.; Zettlemoyer, L.; and Weld, D. S. 2011. Knowledge-based weak supervision for information extraction of overlapping relations. In ACL."
Conclusion
作者给了哪些结论,哪些是strong conclusions, 哪些又是weak的conclusions?
贡献
介绍了一组从Freebase派生的实体类型集,这些实体类型对于人类理解和其他NLP任务有用
描述了FIGER,一个细粒度的实体识别数据集,他标识自然语言文本中实体的引用,并用适当的标记对其进行标记
将FIGER与两个最先进的模型进行了比较,结果表明:(1)FIGER具有很好的整体准确度,在处理不常见实体时优于其它方法(2)当作为特征使用时,细粒度标记可以显著提高F1中关系提取性能
将FIGER的实现和它的数据作为开放源码提供给研究人员使用和使用。
未来方向
对标签相关性进行建模,以避免预测不太可能的组合。
减少来自远程监督的噪音
Notes
额外的笔记
1. 实体识别定义
Entity Recognition(ER)is a type of information extraction that seeks to identify regions of text(mentions)corresponding to entities and to categorize them into a predefined list of types.实体识别(ER)是一种信息抽取类型,目的是识别与实体相对应的文本(提及)区域,并将其分类到预定义的类型列表中。
2.词汇
adapted perceptron 自适应感知器empirically 经验为主地
网友评论