男人焦点网
首页 >> 科技咖 >> 正文

学界 | 和清华大学自然语言处理与社会人文计算实验室一起读机器翻译论文

日期:2019-02-09 06:44:28 来源:互联网 编辑:小狐 阅读人数:811

AI 科技评论按:在生产和经济高度全球化的今天,机器翻译(Machine Translation)是人类面对外语时最渴望拥有的工具,也是神经网络带来最大变革的人工智能问题之一。

从最早的基于规则的机器翻译,到基于概率的机器翻译,再到现在的基于神经网络的机器翻译,机器学习和语言学的研究人员们一起经历了几十年的历程。如今的机器翻译虽然还算不上尽善尽美,但以谷歌翻译、百度翻译为代表的,使用神经机器翻译技术的大规模开放使用的翻译,已经可以时不时地给出一些流畅、明了的双语互译结果了。

当然了,在神经网络/深度学习的冲击之下,我们也不免看到这样的调侃:“团队里每开除一个语言学家,翻译模型的准确率就可以再提升一点。”在越来越大的语料库、越来越多的模型设计和训练技巧的帮助下,来自语言学领域的指导带来的提升远不如机器学习领域的新技术成果、甚至已有技术成果的好的实现带来的提升大。AI 科技评论的读者们相信也有这样的感觉。

列表中的神经机器翻译论文划分为了模型架构、注意力机制、开放词库、训练目标、解码、低语言资源翻译、先验知识集成、文档级别翻译、鲁棒性、可视化和可解释性、语言学解释、公平性和多样性、效率、语音翻译、多模态、集成和重新排序、预训练、领域适应、质量估计、以人为中心的神经机器翻译、单词翻译及双语专用语翻译、诗歌翻译等主题,内容十分全面细致。除此之外,他们也列出了 10 篇必读论文。

这 10 篇必读论文是:

Peter E. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, and Robert L. Mercer. 1993. The Mathematics of Statistical Machine Translation: Parameter Estimation. Computational Linguistics. (Citation: 4,965)

Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. BLEU: a Method for Automatic Evaluation of Machine Translation. In Proceedings of ACL 2002. (Citation: 8,507)

Philipp Koehn, Franz J. Och, and Daniel Marcu. 2003. Statistical Phrase-Based Translation. In Proceedings of NAACL 2003. (Citation: 3,514)

Franz Josef Och. 2003. Minimum Error Rate Training in Statistical Machine Translation. In Proceedings of ACL 2003. (Citation: 2,982)

David Chiang. 2007. Hierarchical Phrase-Based Translation. Computational Linguistics. (Citation: 1,192)

Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. 2014. Sequence to Sequence Learning with Neural Networks. In Proceedings of NIPS 2014. (Citation: 5,428)

Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2015. Neural Machine Translation by Jointly Learning to Align and Translate. In Proceedings of ICLR 2015. (Citation: 5,572)

Diederik P. Kingma, Jimmy Ba. 2015. Adam: A Method for Stochastic Optimization. In Proceedings of ICLR 2015. (Citation: 16,572)

Rico Sennrich, Barry Haddow, and Alexandra Birch. 2016. Neural Machine Translation of Rare Words with Subword Units. In Proceedings of ACL 2016. (Citation: 789)

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is All You Need. In Proceedings of NIPS 2017. (Citation: 1,047)

本文相关词条概念解析:

翻译

翻译是蛋白质生物合成(基因表达中的一部分,基因表达还包括转录)过程中的第一步,翻译是根据遗传密码的中心法则,将成熟的信使RNA分子(由DNA通过转录而生成)中“碱基的排列顺序”(核苷酸序列)解码,并生成对应的特定氨基酸序列的过程。但也有许多转录生成的RNA,如转运RNA、核糖体RNA和小核RNA等并不被翻译为氨基酸序列。

延伸 · 推荐

凭“颜值”拒稿,误判率仅0.4%?这篇计算机视觉论文让AI学界炸了锅

晓查 夏乙 发自 凹非寺这两天,一项“看脸”审核计算机视觉论文的研究让AI学者们一片红红火火恍恍惚惚。不少人哈哈哈哈怀疑在搞笑,当然也有很多人严肃读论文,辩论数据、结论的不合理之处。甚至有人说,研究揭...

学界 | 顶会见闻系列:NeurIPS 2018 论文精选

AI 科技评论按:本篇属于顶会见闻系列。作为一个研究人员们欣赏彼此论文、讨论学术话题的严肃学术顶级会议,NIPS 今年颇为热闹,前有事件,让大家见识到了人工智能和机器学习的火爆程度堪比 Taylor ...

学界 | 腾讯 AI Lab 解读16篇 EMNLP 2018 入选论文

EMNLP 是自然语言处理领域的顶级会议,它的全称是Conference on Empirical Methods in Natural Language Processing(自然语言处理中的经验方...

网友评论