`
BradyZhu
  • 浏览: 246974 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

机器翻译重要过程(4)---估计概率构造短语翻译表

 
阅读更多

经过第三步抽取短语后,获得基于短语系统使用的翻译短语对,而接下来的第四步就是短语翻译表概率估计,它的作用是对翻译短语对的正确性进行合理的评估。

在上一节,我们得到了短语对集合,如下图所示:


在这里,我们估计概率主要进行四个分数的计算,即双向短语翻译概率(正向:“源语言->目标语言”方向;反向:“目标语言->源语言”方向)、双向词汇化权重。首先,在上图上方给定的含有词对齐的句对中,通过上一讲中的短语对抽取算法抽取出14条与词对齐保持一致的短语对,短语概率估计是在图1结果的基础上进行的(在进行概率估计时,短语对集合需要保留词对齐信息)。


1)双向短语翻译概率

“源语言->目标语言”短语翻译概率


在公式(1)中,短语翻译概率使用极大似然估计(maximum likelihood estimation)进行计算。其中count(f,e)
表示源言语与目标语言短语对(f,e)在大规模双语平行句对中出现的频次,分母表示以f作为源语言端短语的短语对在大规模双语平行句对中出现的频次。


“目标语言->源语言”短语翻译概率


反向的短语翻译概率与正向短语翻译概率计算方式相同,在公式(2)中,count(e,f)表示目标语言与源语言短语对
(e,f)在大规模双语平行句对中出现的频次,分母表示以e作为目标语言端短语的短语对在大规模双语平行句对中出现的频次。
当使用的含有词对齐信息的双语平行句对的规模比较大时,抽取出来的短语对集合文件是非常大的,文件大小甚至会达到几个GB或几十GB。所以,在使用公式(1)、公式(2)计算短语翻译概率时,需要对文件进行外部排序,以避免文件内容全部加载至内存中。以公式(1)为例,如果对抽取出来的短语对集合文件按照源语言端短语进行排序,这样具有相同源语短语的短语对在文件中将是依次出现的,此时仅需要同时读入有限的短语对至内存中便可进行条件概率分布分数的计算。
在基于短语的统计机器翻译系统中,经常仅仅使用双向的短语翻译概率。在这种情况下,数据的稀疏性或不可靠的数据源可能会产生一些问题。如果短语e和f都只出现一次,那么短语翻译概率Pr( e|f ) = Pr(f |e ) = 1 ,这通常过高的估计了这种短语对的可靠性。为了判断不经常出现的短语对是否可靠,通常做法是将短语对分解成词的翻译,这样就可以检查短语对的匹配程度,这种方法称为词汇化加权,该方法是一种基本的平滑方法。


2)双向词汇化翻译概率

“源语言->目标语言”词汇化加权


词汇化加权(lexical weighting)特征是将源语言端和目标语言端短语分解成词汇,进而检查词汇间的匹配程度。即源语言端短语f中词汇f1, f2, f3...与目标语言端短语e1, e2, e3...中词汇的匹配程度。其中w(e|f)计算公式如下公式(4)所示,该公式可以从含有词对齐的大规模平行句对中进行估计。在公式(4)中,count(f,e)表示的是词对(f,e)在大规模双语平行句对中出现的频次,分母表示以f为源语言端词汇的词对在大规模语料中出现的频次。


以最上面的图中短语对“北京 房价 持续 上涨,beijing housing prices continued to rise”为例,公式(3)的具体计算方式如下所示:


公式(3)是一个二重循环问题,在外层循环中,从目标语言端第一个词汇遍历至最后一个词汇,将概率值进行连乘;在内层循环中,当前目标语言端词汇为ei,计算不同fj翻译为ei的概率和的均值。


“目标语言->源语言”词汇化加权

“目标语言->源语言”方向词汇化加权与公式(3)相似,具体如公式所示。


在公式(5)中,w(f|e)计算如公式(6)所示。其中公式(6)说明与公式(4)类似。


这里依旧用短语对“北京 房价 持续 上涨,beijing housing prices continued to rise”为例,公式(5)的具体计算方式如下所示:


此处具体计算方式的解释与上文相似,在此不再赘述。到这里,短语翻译表中最常使用的4个概率特征及其计算方法介绍完毕。

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics