ch14统计剖析
句子存在并列歧义和附着歧义,概率剖析器的一个最重要的用处就是能够进行排歧。概率语法和剖析器另一个重要的用处是为语音识别建立语言模型。最常使用的概率语法是概率上下文语法。
14.1概率上下文无关语法
PCFG可以用于排歧,对于歧义句子的两个剖析,可以根据选择最大概率的剖析来进行排歧。
PCFG用于语言建模,它的特性可以给构成句子的单词符号指派一个概率,他也可以给一个句子中的子符号指派一个概率,这对语言建模有重要意义。
14.2PCFG的概率CKY剖析
PCFG的剖析问题是对于一个给定的句子s产生最佳剖析树的问题。大多现代剖析器都是都是基于概率CKY的,首先概率cky算法中的pcfg是具有chomsky范式的。
14.3PCFG规则概率的学习途径
有两个途径可以学习语法规则的概率。一种是使用树库,数据就是已经进行过剖析的语料库。另一种就是先剖析一个语料库,在剖析中为每一个规则都增加一个计数器,然后进行归一化处理,就可以得到概率,但这是不存在歧义的情况。
这是我们使用向内向外算法来估计一个规则的概率。这是根据向前向后算法泛化所提出来的,也是期望最大化算法。
14.4PCFG的问题
这样的语法估计会出现两个问题:糟糕的独立性假设和缺乏词汇制约条件。总之PCFG不能给结构依存和词汇依存等重要的关系建模。
独立性假设忽略了规则之间的结构依存关系。这是因为在英语中,一个节点的展开最终依赖于该节点在剖析树中的位置。
缺乏对词汇依存关系的敏感性,由于剖析概率包括单词对于给定词类的概率。PCFG总是或选择np附着或选择vp附着。为了正确的剖析pp附着这一类例子,我们需要PCFG概率的一些论据来对不同的动词和介词之间的词汇依存关系进行统计计算。词汇依存关系是选择正确剖析的关键。
14.5使用分离非终极符号的办法来改进PCFG
实现分离非终极符号的一种方法是进行父结点标注。在每个剖析树中,我们将每个节点标记上他的父节点。此外我们还可以通过分离前终极的词类结点来改进。在使用父结点标注不充分的情况下,可以收工写一些规则来分离特定的结点。
这样分离结点也存在问题,如会增加语法的容量,降低可用于每个语法规则的训练数据数量,造成过拟合。
14.6概率词汇化的CFG
还有另外一类不同的模型,它是通过修改剖析器的概率模型,使得对规则进行词汇化:只要包涵:colins剖析器,charniak剖析器。在这种词汇化语法的标准形式中,我们需要使得中心词标记与非终极符号联系起来。
colins剖析器直观感觉是把每一个CFG规则的右手边想象成是由终极符号的中心语以及这个中心语左边的非终极符号和这个中心与右手边的非终极符号组成。
14.7剖析器的评测

还有F-测度,来自准确率和召回率的加权调和平均数。
除此之外的新测度交叉括号数,在参照剖析结果中括号形式为((AB)C),和假设剖析结果中括号形式为(A(BC))的成分的数目。
14.8分辨在排序
我们前面讲的都是生成式剖析器:PCFG,Collins。他们使用最大似然度进行训练,这些剖析器使用的概率模型给我们提供概率来生成一个特定的句子
对于全局性的特征需要对数模型(memm)代替hmm模型。在剖析时可以使用两种分辨模型:一种是动态程序设计模型,一种是使用分辨在排序方法的两阶段剖析模型。
分辨在排序模型的第一阶段是运用正规的统计剖析器产生剖析结果的排序表并说明每个剖析器的概率;第二个阶段是一个分类器,分类器的输入是每个剖析与概率的偶对。这种两阶段的问题是最终精度不会高于第一阶段的精度。
14.8基于剖析器的语言模型
剖析器相比n元语言模型的优点是可以处理长距离信息。但同时当有大量数据进行训练时,四元语法或五元语法是建立语言模型的最好途径。所以现在开始研究基于剖析的语言模型。
语言模型最普遍的应用是语音识别和机器翻译。在这两个领域中我们最简单的途径是使用两阶段算法。第一阶段使用正规n元语法运行一个正规的语音识别解码器或机器翻译解码器。第二阶段运用统计剖析器给每个句子指派一个剖析概率。再排序后选出最佳。这样的效果比三元模型好一些。
14.9人的剖析
人类进行句子处理时有两个途径。一种研究单词的预测会影响阅读时间,预测的单词越多阅读越快;并且单词的二元语法可预测性越高,被试者看这个单词所用的时间越短这个时间被称为初始固定时长。
另外的研究人怎样进行句子排歧,人往往愿意选择概率较高的剖析。这样的研究通常依据一种临时的歧义句,称为花园幽径句,这样的句子整个没歧义,但前半部分还是有歧义。对人来说,前面的歧义剖析具有优先性。但是往往优先性低的是正确结果。误入花园幽径后人们会重新进行分析。除语法知识外人们的剖析还受其他因素影响,如记忆力。题源结构。
网友评论