做统计翻译系统(SMT,statistical machine translation)也有一段时间了,接触了大大小小好几个翻译系统,使用它们的同时也对其原理进行了一定的了解,阅读了一些中英文资料文献,对统计机器翻译的过程有了一个比较完整的认识,自己也做了一些笔记。比较详细的一本介绍统计机器翻译的书是Philipp Koehn写的《Statistical Machine Translation》,现在已有其中文译著《统计机器翻译》,我这里就这这本书的思路,加上一些其他的资料文献,对统计机器翻译做一个细致一些的讲解,希望能对大家有一些帮助。
下面是一些SMT发展过程中的大事记:
1980年代末IBM首次开展统计机器翻译研究,1992年IBM首次提出统计机器翻译的信源信道模型,1993年IBM提出五种基于词的统计翻译模型IBM Model1-5,1999年JHU夏季研讨班重复了IBM的工作并推出了开放源代码的工具,2001年IBM提出了机器翻译自动评测方法BLEU,2002年NIST开始举行每年一度的机器翻译评测,2002年Franz Josef
Och提出统计机器翻译的对数线性模型,2003年Franz Josef Och提出对数线性模型的最小错误率训练方法,2004年Philipp Koehn推出Pharaoh(法老)标志着基于短语的统计翻译方法趋于成熟,2005年David Chiang提出层次短语模型并代表UMD在NIST评测中取得好成绩,2005年Google在NIST评测中大获全胜,随后Google推出基于统计方法的在线翻译工具,其阿拉伯语-英语的翻译达到了用户完全可接受的水平,目前已经可以支持40多种语言的互译,2006年NIST评测中USC-ISI的串到树句法模型第一次超过Google(仅在汉英受限翻译项目中)。
下面是对《统计机器翻译》一书第二章的总结和笔记:
频次最高的词分布如下图所示:
在欧盟语料库中,齐夫定律体现的很明确,具体数值分布和数值图示如下两图所示:
分享到:
相关推荐
CPU和硬盘间的桥梁 内存知识细说从头.pdf
教程名称:Photoshop从头学起课程目录:【】Photoshop从头学起第(1-10)【】Photoshop从头学起第(11-20)【】Photoshop从头学起第(21-30)【】Photoshop从头学起第(31-40)【】Photoshop从头学起第(41-50)【】Photoshop...
从头开始训练BERT代码,解压密码在https://blog.csdn.net/herosunly/article/details/113937736
从头开始搭建AppDemo,更多请参考博客
将文章从头读到尾,读到一个单词就到Map里查一下,如果查到了则次数加一,没查到则往Map里一扔。这样做虽然代码写起来简单,但性能却非常差。首先查询Map的代价是O(logn),假设文章的字母数为m,则整个统计程序的...
从头开始学习MySQL and PHP
如果不想从头开始找出《细说php》源码来仔细读,又想直接研究session的同学,可以直接拿来运行, 分析:session文件存在c:\windows\temp下,如:sess_d34421d018a230eba5c11a8a1cf37da9 其内容:username|s:4:"user...
跟我从头学WSh跟我从头学WSH.rar跟我从头学WSH.rar跟我从头学WSH.rar跟我从头学WSH.rar跟我从头学WSH.rar跟我从头学WSH.rar跟我从头学WSH.rar跟我从头学WSH.rar
天线基础知识,天线基础知识从头开始,ham必读
从头开始学习c++的程序代码,本人会保持更新,希望对大家有所帮助
从头开始搭建集群 从头开始搭建集群 从头开始搭建集群
matlab开发-从头开始的图像处理。学习matlab图像处理的基础知识
用 Python 从头实现一个神经网络,内含代码和教程文档,已测试可以稳定运行
教程名称:从头开始学Oracle 11g Release 2 视频教程(15集)课程目录:【】Oracle11gRelease2视频教程_1【】Oracle11gRelease2视频教程_2【】Oracle11gRelease2视频教程_3【】Oracle11gRelease2视频教程_4【】...
【《从头开始数据科学》随书代码】’code for Data Science From Scratch book' by Joel Grus
Vue项目从头搭建,Vue项目从头搭建,Vue项目从头搭建,Vue项目从头搭建,Vue项目从头搭建
3D游戏从头编3D游戏从头编3D游戏从头编
3D游戏从头编-网上收集,很基础. 第一回:开发环境 第二回:3D基本概念 第三回:第一个D3D程序 第四回:渲染顶点 第五回:渲染索引顶点 第六回:摄象机 第七回:灯光 第八回:纹理 第九回:3D模型(.x)
简要的介绍3D游戏的制作