Hits:
Indexed by:期刊论文
Date of Publication:2015-03-15
Journal:中文信息学报
Included Journals:PKU、ISTIC、CSCD
Volume:29
Issue:2
Page Number:95-102
ISSN No.:1003-0077
Key Words:统计机器翻译;EM算法;双语句法短语
Abstract:短语表是基于短语的统计机器翻译系统的一个核心组成部分,基于启发式方法抽取到的短语表受单词对齐错误和未对齐词的影响严重,同时抽取到的短语也并非句法意义上的短语.该文提出一种基于EM(Expecta-tion-maximization)算法的双语句法短语抽取方法来抽取双语句法短语,此方法可以通过不断迭代的方式使各参数值达到最优.通过加入双语句法短语、增加新特征、重新训练三种不同的方法,将获得的双语句法短语与基于短语的统计机器翻译方法结合以提高统计机器翻译系统的性能.结果表明:三种方法都不同程度提高了译文的BLEU(BiLingual Evaluation Understudy)值,其中增加新特征方法提高了0.64个点.