语言模型
一段自然语言文本可以看作是一个离散时间序列,给定一个长度为T的词的序列w1,w2,…,wT,语言模型的目标就是评估该序列是否合理,即计算该序列的概率:
P(w1,w2,…,wT).
本节我们介绍基于统计的语言模型,主要是n元语法(n-gram)。在后续内容中,我们将会介绍基于神经网络的语言模型。
语言模型
假设序列w1,w2,…,wT中的每个词是依次生成的,我们有
P(w1,w2,…,wT)=T∏t=1P(wt∣w1,…,wt−1)=P(w1)P(w2∣w1)⋯P(wT∣w1w2⋯wT−1)
例如,一段含有4个词的文本序列的概率
P(w1,w2,w3,w4)=P(w1)P(w2∣w1)P(w3∣w1,w2)P(w4∣w1,w2,w3).
语言模型的参数就是词的概率以及给定前几个词情况下的条件概率。设训练数据集为一个大型文本语料库,如维基百科的所有条目,词的概率可以通过该词在训练数据集中的相对词频来计算,例如,w1的概率可以计算为:
ˆP(w1)=n(w1)n
其中n(w1)为语料库中以w1作为第一个词的文本的数量,n为语料库中文本的总数量。
类似的,给定w1情况下,w2的条件概率可以计算为:
ˆP(w2∣w1)=n(w1,w2)n(w1)
其中n(w1,w2)为语料库中以w1作为第一个词,w2作为第二个词的文本的数量。
网友评论