【愚公系列】《人工智能70年》030-机器翻译拆除语言樊篱(见证历史的活样板)
机器翻译已经悄悄成熟,它的表现令人意外而惊艳。
💎【行业认证·权威头衔】
✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家
✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主
✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者
🏆【荣誉殿堂】
🎖 连续三年蝉联"华为云十佳博主"(2022-2024)
🎖 双冠加冕CSDN"年度博客之星TOP2"(2022&2023)
🎖 十余个技术社区年度杰出贡献奖得主
📚【知识宝库】
覆盖全栈技术矩阵:
◾ 编程语言:.NET/Java/Python/Go/Node…
◾ 移动生态:HarmonyOS/iOS/Android/小程序
◾ 前沿领域:物联网/网络安全/大数据/AI/元宇宙
◾ 游戏开发:Unity3D引擎深度解析
文章目录
🚀前言
机器翻译已经悄悄成熟,它的表现令人意外而惊艳。
🚀一、见证历史的活样板
Systran公司作为机器翻译领域最早的开发者和软件供应商,堪称这一技术演进历史的活样本。该公司由科学家彼得·托马(Peter Toma)于1968年创立,托马曾任职于美国乔治城大学机器翻译项目组,之后以大学研发团队为核心创办了Systran,致力于基于规则的机器翻译技术的商业化。在1966年ALPAC报告发布导致政府资助大幅削减的艰难环境下,Systran成为极少数存活下来的机器翻译企业。1986年,公司被出售给一个法国家族,后在法国上市,2014年则又被一家韩国公司收购。
尽管规模始终不大——员工仅数十人,Systran却凭借其技术积累从20世纪60年代坚持至今,逐步实现了多语种互译能力,其翻译引擎被广泛内嵌于雅虎、谷歌和美国在线等公司的系统中。该公司年销售额虽仅一千多万美元,却在百亿美元规模的机器翻译市场中占据了嵌入式引擎的重要份额。正如Systran董事长所言:“我们公司如此之小,可我们又是最大的。”
关键转折发生在2005年。当时已成为互联网搜索巨头的谷歌,虽然仍在使用Systran的规则翻译技术,但一直希望更好地利用自身庞大的语料库资源。自2002年起,谷歌聘请统计语言处理专家弗朗兹·奥克(Franz Och)组建机器翻译团队。2005年夏天,奥克设计的尚处于实验阶段的谷歌翻译系统,在美国国家标准与技术研究院(NIST)举办的机器翻译竞赛中取得全胜。该竞赛要求将阿拉伯语和汉语新闻稿翻译为英语,谷歌系统在所有评估类别上均领先于包括IBM在内的所有竞争对手。
奥克在赛后透露,其系统使用了相当于100万本书规模的文本语料进行训练,这是提升翻译质量的关键。他还将谷歌当时采用的Systran中英翻译系统与自己开发的统计系统进行对比,明确指出后者性能更优。
此次竞赛被视为统计机器翻译正式登上主流舞台的标志。2007年10月,谷歌终止与Systran的合作,全面转向自研的统计机器翻译系统。面临技术路线的变革,Systran不得不在2010年转向规则与统计混合的机器翻译架构,并随后引入深度神经网络技术。Systran的转型表明,基于统计及深度神经网络的自然语言处理与机器翻译已成为行业主流。与此同时,统计翻译方法也开始融入语法、句法和语义等语言学知识,以进一步提升系统性能。
更多推荐
所有评论(0)