经过第三步抽取短语后,获得基于短语系统使用的翻译短语对,而接下来的第四步就是短语翻译表概率估计,它的作用是对翻译短语对的正确性进行合理的评估。
在上一节,我们得到了短语对集合,如下图所示:
在这里,我们估计概率主要进行四个分数的计算,即双向短语翻译概率(正向:“源语言->目标语言”方向;反向:“目标语言->源语言”方向)、双向词汇化权重。首先,在上图上方给定的含有词对齐的句对中,通过上一讲中的短语对抽取算法抽取出14条与词对齐保持一致的短语对,短语概率估计是在图1结果的基础上进行的(在进行概率估计时,短语对集合需要保留词对齐信息)。
1)双向短语翻译概率
“源语言->目标语言”短语翻译概率
在公式(1)中,短语翻译概率使用极大似然估计(maximum likelihood estimation)进行计算。其中count(f,e)
表示源言语与目标语言短语对(f,e)在大规模双语平行句对中出现的频次,分母表示以f作为源语言端短语的短语对在大规模双语平行句对中出现的频次。
“目标语言->源语言”短语翻译概率
反向的短语翻译概率与正向短语翻译概率计算方式相同,在公式(2)中,count(e,f)表示目标语言与源语言短语对
(e,f)在大规模双语平行句对中出现的频次,分母表示以e作为目标语言端短语的短语对在大规模双语平行句对中出现的频次。
当使用的含有词对齐信息的双语平行句对的规模比较大时,抽取出来的短语对集合文件是非常大的,文件大小甚至会达到几个GB或几十GB。所以,在使用公式(1)、公式(2)计算短语翻译概率时,需要对文件进行外部排序,以避免文件内容全部加载至内存中。以公式(1)为例,如果对抽取出来的短语对集合文件按照源语言端短语进行排序,这样具有相同源语短语的短语对在文件中将是依次出现的,此时仅需要同时读入有限的短语对至内存中便可进行条件概率分布分数的计算。
在基于短语的统计机器翻译系统中,经常仅仅使用双向的短语翻译概率。在这种情况下,数据的稀疏性或不可靠的数据源可能会产生一些问题。如果短语e和f都只出现一次,那么短语翻译概率Pr( e|f ) = Pr(f |e ) = 1 ,这通常过高的估计了这种短语对的可靠性。为了判断不经常出现的短语对是否可靠,通常做法是将短语对分解成词的翻译,这样就可以检查短语对的匹配程度,这种方法称为词汇化加权,该方法是一种基本的平滑方法。
2)双向词汇化翻译概率
“源语言->目标语言”词汇化加权
词汇化加权(lexical weighting)特征是将源语言端和目标语言端短语分解成词汇,进而检查词汇间的匹配程度。即源语言端短语f中词汇f1, f2, f3...与目标语言端短语e1, e2, e3...中词汇的匹配程度。其中w(e|f)计算公式如下公式(4)所示,该公式可以从含有词对齐的大规模平行句对中进行估计。在公式(4)中,count(f,e)表示的是词对(f,e)在大规模双语平行句对中出现的频次,分母表示以f为源语言端词汇的词对在大规模语料中出现的频次。
以最上面的图中短语对“北京 房价 持续 上涨,beijing housing prices continued to rise”为例,公式(3)的具体计算方式如下所示:
公式(3)是一个二重循环问题,在外层循环中,从目标语言端第一个词汇遍历至最后一个词汇,将概率值进行连乘;在内层循环中,当前目标语言端词汇为ei,计算不同fj翻译为ei的概率和的均值。
“目标语言->源语言”词汇化加权
“目标语言->源语言”方向词汇化加权与公式(3)相似,具体如公式所示。
在公式(5)中,w(f|e)计算如公式(6)所示。其中公式(6)说明与公式(4)类似。
这里依旧用短语对“北京 房价 持续 上涨,beijing housing prices continued to rise”为例,公式(5)的具体计算方式如下所示:
此处具体计算方式的解释与上文相似,在此不再赘述。到这里,短语翻译表中最常使用的4个概率特征及其计算方法介绍完毕。
分享到:
相关推荐
在统计机器翻译中融入有价值的句法层面的语言学知识,对于推动统计机器翻译的发展具有重要的理论意义和应用价值。提出了三种由简到繁的将双语最大名词短语融入到统计翻译模型的策略,整体翻译性能逐步上升。Method-...
机器翻译课程的论文 基于层次短语翻译模型的统计机器翻译
c-value基于短语的统计机器翻译中短语抽取算法改进 进行智能开发的良好算法
音视频-编解码-面向短语统计机器翻译解码算法的研究.pdf
2013届高考英语基础写作------短语、句式与经典范文.docx
2017广州版小学英语-五年级上册-单词-短语-课文默写.pdf
大学英语四级词汇短语----乱序版.doc
(广州版)英语五年级下册-单词-短语-句型.doc
对齐短语是决定统计机器翻译系统质量的核心模块。提出基于短语结构树的层次短语模型,这是利用串-树模型的思想对层次短语模型的扩展。基于短语结构树的层次短语模型是在双语对齐短语的基础之上结合英语短语结构树...
介绍了基于短语的统计机器翻译技术,包括原理,模型,评估等。
pep小学英语总复习句型-短语-语法.doc
微软发布的基于短语的神经机器翻译方法,SWAN一种基于分割的序列建模技术
本文件是:搜狗小鹤单字自定义短语txt文件。使用方法:打开电脑搜狗输入法的设置-高级设置-自定义短语。点击“直接编辑配置文件”,将内容全部清除。再复制本txt文件的所有内容到配置文件里面,保存后关闭,在搜狗...
源语言和目标语言的句法异构性对统计机器翻译(SMT)性能有重要影响。在基于短语的汉英统计机器翻译基础上,提出了一种基于N-best句法知识增强的源语言预调序方法。首先对源语言输入句子进行N-best句法分析,计算...
高中英语必修3重点词汇-短语-句子复习总结.doc
提出了面向统计机器翻译的基于汉日汉字对照表及日汉词典信息的汉语与日语的分词粒度调整方法。实验结果表明,该方法能有效地调节源语言和目标语言端的分词粒度,提高统计机器翻译系统的性能。通过对比实验结果,分析...
六级的翻译短语,有助于六级的翻译。只要记住这些短语,六级的翻译就不会有问题。
经过处理的腾讯中文词汇/短语向量 tencent-ailab-embedding-zh-d200-v0.2.0-s。包含使用方法和训练方法。
九年级英语Units1--10-短语归纳.doc
当今的统计机器翻译对齐系统中短语对齐占有重要优势;同时,针对统计机器 翻译中的领域适应性问题,本文提出了最优翻译质量差和 BLEU 召回率两个指 标来进行开发集合的选择,实验结果表明,翻译质量有了明显的提高。