两周前才在乌镇世界互联网大会秀了一把“实时机器翻译”,11月30日,搜狗CEO王小川又跑去香港科技大学再度表演机器同传,然而,接连两次的现场演示却在网络上引发了一波“伪科技”的质疑,主要疑问点如下:
追问一:搜狗机器同传准确率90%靠谱吗?
在乌镇世界互联网大会上,王小川首秀搜狗实时机器翻译,演讲现场不仅实时语音识别显示中文内容,还有机器同步翻译成英文,生成双语滚动字幕。据搜狗方面称,其机器翻译准确率达90%,未来有望取代人类同传。
真的是这样吗?
据专业人士介绍,目前国际机器翻译界衡量机翻水平,主要应用的是IBM的watson研究中心在02年提出的BLEU方法,这种方法的思想是用翻译结果中连续出现的N元组(n个单词/字或标点)与参考译文中出现的N元组进行比较,计算完全匹配的N元组的个数与翻译结果中N元组的总个数的比例。这是一种类似准确率的计算方法,它允许一个原文有多个参考译文。
然而搜狗的90%准确率却并没有通过类似的严谨求证,而是仅仅凭借两次现场展示,以及不时出现的“中式英语”翻译,便得出“秒杀同传、AI里程碑”的结论。
事实上,无论是谷歌微软,还是百度有道金山等,国内外目前对于机器翻译的准确率并没有一个准确的数据,基本都以“翻译错误降低率”来衡量其进步,而搜狗却直接对外抛出了90%的准确率,着实令业内哗然。
那么,为何没有通过任何检验的搜狗机器同传,却有自信在公开场合大秀其技呢?
追问二:时而智能时而业余,实时机翻有没有提前排练过?
在此前乌镇世界互联网大会上,虽然翻译结果出现了语焉不详的“中式英语”,但还是可以勉强看懂。然而此次香港科技大学演示过程中,却出现了前后矛盾的现场BUG。
如图所示,当王小川讲到“计算机的智能会去颠覆一个又一个的行业”时,中文字幕中的 “会”被错误地识别为“汇”,然而下方的英文翻译却丝毫未受影响。
机器可以自动识别错别字不受其影响,可谓是实时机翻的一大进步,然而在随后的演示中,搜狗翻译却又犯了一个极其低端的错误——将“飞机落地”翻译成有“坠机”之意的“fell down”。
尽管事后搜狗方面将其描述为“机器翻译偶尔会犯的小错误”,并称“比起要求100%的绝对准确率,这种从0到1的突破与创新更让人惊喜”,但这并不能让人信服。毕竟,能智能地修正错误中文,却无法翻译出常用词汇,这显然是矛盾的。
此外,这些BUG的出现也不禁让人质疑,难不成机器翻译早已熟知稿件,而并非根据实时中文来进行翻译?据了解,以机器翻译界的目前发展状况,如果将演讲稿提前翻译出来,在短时间内对机器进行强化训练,也确实可以达到演示级别的效果。比如在上图中,将“颠覆一个又一个的行业”翻译成“turn a new industry”,便是较为明显的人工干预结果。
面对众说纷纭的猜测,搜狗方面并没有回应。事实上,想要解释这个问题并不难,只要让用户来尝试一番便能得出最直接的产品评测,然而,从始至终,不知道你发现没有,搜狗实时机翻的用户只有王小川一人。
追问三:只闻其声不见其形,搜狗机器同传何时才能真正落地?
从乌镇世界互联网大会到香港科技大学,搜狗一路对外展示实时机器翻译的黑科技, “准确率达90%”、“取代人类同传”等宣传引起了媒体和用户的关注与好奇,然而却对产品技术真正的落地时间、何时实现大规模用户体验等问题三缄其口。
技术成型却无法落地产品,能够在千人围观的发布会现场展示却无法向用户开放试用,搜狗此举不禁让外界质疑是在为用户“画饼”以增加自己赢得市场的机会。
产品未出,概念先行,“犹抱琵琶半遮面”的搜狗实时机器翻译究竟何时才能走进用户视野、带来真实的使用体验,目前来看仍然是一个谜。
追问四:秒杀人类同传,是技术的自信还是对翻译行业的消费?
在搜狗对实时机器翻译的传播中,“秒杀同传”、“取代人类翻译”的言辞频频出现,王小川甚至在个人微博上宣称“机器人登场,以后别让孩子再报考同声传译专业了”。那么,搜狗的实时机器翻译是否真的可以完全取代人类同传呢?
事实上,同声传译需要有极高的资格才可以担任。根据 AIIC(国际会议口译员协会)的规定,同传译员需要翻译出演讲者内容的80%,(90 %~100 %的“同传”几乎不可能)。在同声传译中,译员需要遵循顺句驱动、随时调整、适度超前、信息重组、合理简约、信息等值等基本原则,此外,由于演讲者讲话速度普遍较快,演讲中可能掺杂各地口音和方言,同传译员还需要调动自己的一切知识储备和经验全力以赴。
无论是两国外交,还是商业合作,扮演实时沟通角色的同传都是值得敬畏和尊重的,而这不应该作为机器翻译成熟路上的“噱头”来消费。
在知乎上,北京语言大学高级翻译学院教师PKUCATer表示,从搜狗机器翻译的现场表现看, 90%准确率是很让人怀疑的,“不客气的说,没有一句话是翻译对的”。看来,搜狗取代人类同传的高调口号在短期内还只是空谈。
追问五:过度的夸张与宣传 人工智能正在被谁消费?
人工智能的发展,迄今已有六十多年,期间经历过两次高峰和两次低谷。上世纪80年代,“专家系统”的AI程序开始为全世界的公司所采纳,而“知识处理”成为了主流AI研究的焦点。1981年,日本经济产业省拨款八亿五千万美元支持第五代计算机项目,其目标是造出能够与人对话,翻译语言,解释图像,并且像人一样推理的机器。
但由于当时计算机的运算能力的限制和算法的难以收敛直接导致了直到2000年第二次AI的冬天。日本第五代计算机的研制最终宣告失败,并大幅削减投入。
让备受期待的人工智能跌入低谷,或许是围观群众们的过度乐观,然而更多的责任却源于企业与媒体不负责任的夸张与宣传。
“乌镇技术改变世界,搜狗“黑科技”或颠覆同传产业”
“王小川WIC演讲秀搜狗实时机器翻译技术 准确率90%有望取代人类同传”
“世界互联网大会搜狗秀AI黑科技 实时机器翻译秒杀同传”
……
尽管人工智能已成为2016年度热词,但对于大部分人而言,依然没有时间或者机会去了解。如果科技公司给予人们太多不切实际的幻想,那么无形中也将透支着公众对于AI的兴趣。
此外,通过试用国内外其他翻译软件我们也会发现,神经机器翻译系统目前所能做的只是优化翻译结果,并不是万能药,将其作为黑科技大书特书,过分拔高人们对于机器翻译实际水平的期待,实际上并不可取。
没有权威的考核标准,缺乏临场应变的实力,频遭翻译领域人士吐槽……搜狗如今面临的困境恰如昔日的南郭先生,面对好合奏的宣王,尚可在人工智能的队伍里滥竽充数,然而一旦面临喜欢独奏的的湣王,却难以承受每一个用户个体的考验。想要趁早摆脱伪科技公关秀的帽子,为今之计,只有快速落地产品了。