admin管理员组

文章数量:1530260

2024年5月31日发(作者:)

龙源期刊网

科大讯飞“同传造假”风波:在翻译领域,机

器永远不会代替人类?

作者:陈思思 王冬

来源:《电脑报》2018年第39期

沸沸扬扬的科大讯飞“AI同传造假”风波,看上去已经告一段落。

9月25日,曝光科大讯飞人工智能造假的当事人、知乎网友“Bell Wang”发布文章《今天

讯飞给我打了个电话》表示,已与科大讯飞消费者事业群、听见科技总经理王玮进行了语音沟

通,交流持续了一个小时十分钟。“从我的角度看,可以认为讯飞没有主动造假的行为。”

同日下午,科大讯飞发文称“没有造假”,科大讯飞技术既能转写也能翻译。一天后的9月

26日,科大讯飞发布《真金不怕火炼,科大讯飞没有造假》称,科大讯飞没有造假,从未“隐

瞒”转写同传声音,“人机耦合”不仅是技术发展的趋势,更是社会伦理发展的要求,公司将用

法律武器维护公司声誉。

在人工智能持续火热背景下,作为知名的人工智能明星上市公司,科大讯飞的一举一动都

颇受关注,“翻译造假”事件不仅将智能翻译行业推上舆论风口,还从某种程度上证明,人工智

能技術落地不仅没那么快,而且替代人类职业还是一个漫长的过程。

科大讯飞是否造假争议

9月20日,上海国际会议中心高端装备技术与产业(IEID)分会场。同传人员Bell Wang

给一位日本教授做同传,这位日本教授的英文讲得不怎么好。

因为要直播,Bell Wang和同行同传神经比平时更紧绷一些,这时就注意到两边大屏幕下

有实时字幕,赫然看到“讯飞听见”四个大字。

据记者了解,讯飞听见是科大讯飞旗下提供语音转写、翻译的平台。根据讯飞开放平台官

网的宣传资料,讯飞听见智能会议系统是科大讯飞核心语音技术的集大成者,能将语音实时转

成文字,经过个性化定制的标准普通话,转写准确率可达到95%以上,适用于各类会议。

Bell Wang仔细看了字幕,赫然发现内容完全是语音识别了Bell Wang和他搭档的输出,

再将译文投放到屏幕和直播中,直播中播出语音合成的人声。

而根据Bell Wang现场拍摄到的视频来看,科大讯飞的“AI 同传”确实只是起到“复读机”的

作用,比如用词与译员完全相同,人类译员的用词被机器错误识别后,“AI 同传”也跟着出错

等。

龙源期刊网

更让Bell Wang不舒服的是,科大讯飞事前并未告知他和搭档会场有语音识别的字幕,也

没有告诉他们直播的同传是机器朗读二人翻译文稿,没有征得二人同意就冒名使用了他们的翻

译成果。

“所谓的智能翻译,就是按照文本读,而且是不管语义群分割的,文字显示也并不是语义

群同时显示或锁定的,那就很显然是在识别语音,而不是根据原文在翻译。”他在网文中称,

这是“赤裸裸的欺骗”。

很快,这引发了外界对“科大讯飞同传造假”的质疑和声讨,有人认为这样的做法在很大程

度上剽窃了同传译员的工作成果。有口译工作者也提出科大讯飞的 AI 作弊早有前科,去年某

场大会也发生过几乎如出一辙的事件。

“实际上,这种做法可以理解成机器只是发挥了一种作为速记和录入的功能。”一位不愿具

名的人士称,“这种所谓的‘人机耦合’,实行之前和译员沟通过吗?有没有调查过译员接受这种

方式?纵观整件事,译员的意见在哪一个环节得到了尊重?”

9月21日晚,科大讯飞通过电话会议的形式召开新闻发布会,科大讯飞董秘、高级副总

裁江涛及负责翻译业务的产品经理刘晨璇等参会。

在发布会上,科大讯飞否认相关指责,科大讯飞应主办方要求在直播中合成识别结果,展

示科大讯飞语音合成技术,并声称这是同译员的“误解”:Bell不知道他所在的分会场,人工智

能使用的是人机耦合工作模式。

根据江涛的说法,IEID使用的科大讯飞智能会议系统,有两种工作模式:其一是全自动

翻译,即识别演讲者发言,转换成文字并实时翻译,随后投射到大屏幕上;其二为人机耦合,

顾名思义,机器识别语音后转录为文字并进行翻译,降低人类同传译员的工作难度。

根据讯飞官方的说法,机器同时提供转写和翻译服务时,文字展示区Logo显示为“讯飞听

见—离线翻译系统”;机器仅提供转写服务时,文字展示区Logo显示为“讯飞听见”。

这个答案显然没有让人们满意,因为在该场会议的进行过程中,根据同传译员的说法,他

们并没有感觉到任何实质工作量的减少。

风波发酵中,9月25日,Bell Wang再次发布文章表示,通过沟通能够接受科大讯飞的解

释,“可以认为讯飞没有主动造假的行为,但是讯飞的营销和公关存在比较大的问题,导致了

各方的误会”。

随后,科大讯飞市场部一位工作人员在朋友圈上称,沟通消除了误会。但其仍表示,“不

要神化”这个词讯飞从两年前就开始反复说,包括领导参与的大小场合都会说,不存在客观放

任夸大宣传。

龙源期刊网

值得一提的是,在当日,科大讯飞消费者事业群、听见科技内部发文,在转述Bell Wang

的内容时,将“科大讯飞没有主动造假”直接表述为“科大讯飞没有造假”。

9月26日,记者联系上了Bell Wang,他拒绝对此事再度发声。不过,针对有媒体报道引

述当事人称“科大讯飞没有造假”,一位熟悉Bell Wang的同传从业人员表示,“没有说过”。

难以理解的人机耦合

“造假两字有待商榷,但打擦边球模糊概念实属不应该,搞技术的人,应该明白精确性的

重要。”一位业内人士对记者表示,科大讯飞模糊、随意的措辞,如果在现场或者其他分会场

没有明确的标识,很容易让观众误认为顺畅流利的同传翻译全部是讯飞 AI 的功劳,但实际上

“机器翻译”背后是由人工提供的。

而且,从直播宣传文案来看,其明确指出引入了科大讯飞技术,实现了“智能翻译”——不

过舆论发酵后,这一字样已被删除,讯飞随后对媒体回应“从来没把同传人员的翻译包装成讯

飞的机器翻译”。

需要指出的是,即便讯飞强调并没有宣传过“AI同传”的概念,但多次提到的“人机耦合”就

靠谱了吗?

查阅此前资料,科大讯飞董事长刘庆峰等高管也多次在不同场合表示:“未来一定不是机

器代替人,而是人机耦合的。”根据刘庆峰在去年一次演讲中的解释,应该是由机器帮助人类

完成绝大部分工作,人类扮演辅助角色。

这是一个难以理解的组合名词。根据百度百科显示,耦合关系是指某两个事物之间如果存

在一种相互作用、相互影响的关系,那么这种关系就称“耦合关系”。

那人机耦合指的是什么呢?记者查阅相关资料显示,人机耦合在学术界指的是一种“控制

方法”,其英文名为“Human-Machine Coupling”,指的是人与机械的耦合,人机耦合因为其阻尼

和刚度特性所带来的高鲁棒性,常被用来作为人体外骨骼对应的控制系统。

其实人机耦合并非一个新名词。早在 2004 年,浙江大学的李晓明博士就在其由国家自然

科学基金支持的论文《基于外骨骼技术的机器人远程控制》中,把人机耦合视作了上文提到的

控制方法。

2005年,冯慧和屈香菊在全国飞行力学与飞行试验学术交流年会上,撰文分析了侧杆操

纵中人感系统特性对人机耦合的影响。

除了科大讯飞的说法,搜索“人机耦合”相关的资料仅限于此了。换句话说,人机耦合更多

是一个仿生学、机械学的术语,在过去的具体应用上来看,并不完全等于人和电脑的耦合。

龙源期刊网

实际上,谷歌、亚马逊、苹果等国外科技公司,并无类似的概念说法。搜狗公司语音交互

技术中心总经理王砚峰则对媒体毫不客气地表态称,搜狗只在一次媒体大会上,基于对方要

求,采用过一次人机合作,同时注明技术系来自“搜狗听写”而非“搜狗翻译”,人机耦合并非行

业健康趋势,未来随着机器翻译技术越发成熟,人工翻译会被逐渐淘汰,“不够自信的技术产

品才会采用人机耦合的方式”。

在同传人士看来,科大讯飞使用“人机耦合”这样的说法,的确也让人疑惑——在引发风波

的同传中,明明是人類译员完成了大部分翻译工作,讯飞AI只是做了一个语音到文字的转

化,还多此一举地念一遍而已,这难道就是所谓的“人机耦合”?

而“人机耦合”对人类帮助的作用有多大,也有不同看法。知乎网友杉杉是一名翻译公司职

员,他指出同传工作对人类译员要求极高,精力消耗极大,“一边听一边说,很难分出精力来

再去看讯飞机器翻译出来的是什么”。其次,讯飞机器翻译后进行字幕投屏,这时发言人已经

开始说下一句,其翻译速度远远不及人类同传,对讯飞的“人机耦合”概念中宣称的“机器降低

同传口译的工作强度,减少同传口译的信息遗漏”还有待观察。

机器翻译能否代替同传

风波后,“智能同传是否将代替人工”的话题再度被带入人们视野。

实际上过去几年,随着AI的火爆、机器翻译技术的进步,这个问题一直备受行业关注—

—同传曾被认为是最可能被AI替代的人类职业之一。就科大讯飞而言,自其2016年将神经网

络技术应用到机器翻译后,各种同声传译职业将直接消亡、被科大讯飞的机器翻译技术完全替

代的文章就刷爆各大平台。

“起初,担忧被机器抢了饭碗,后来觉得还是顺应时代的发展,未来是属于人工智能的。”

一位从事同传多年的人士告诉记者。

不过,现在他有了不同的看法:“现阶段来看,AI并不会对我们构成什么威胁,我们有自

己的专业壁垒。甚至,AI很难有取代同传这个职业的一天。”

同声传译是建立在大量训练之上并基于人脑语言机制的一项工作。同声传译最早的使用是

1919 年,在审判德国的巴黎和会上,英法两国代表在 1000 多人的见证下首次借助同声传译完

成了谈判过程。

上述人士表示,一般而言,即使是双语运用自如的专业人士在同传之前也要进行数年左右

的锻炼,并且需要准备大量的资料才能达到现场同传的能力。

根据了解,目前AI翻译原理,一般是先通过语音识别将发言人的声音转写成文字,再通

过机器翻译得到目标语言的文字,最后通过语音合成获得目标语言的声音。近几年,谷歌、微

软、IBM、百度、科大讯飞等都成立了机器翻译团队从事相关研究,设法打破语言障碍。

龙源期刊网

对于一个优秀的机器翻译系统而言,现在要实现“AI同传”面临的是语音识别、机器翻

译、语音合成等诸多 AI 技术的挑战,其中的每一项技术在面临复杂场景时,其准确率都会大

打折扣。

从过去经验来看,AI翻译还存在两方面问题,一是语音识别的准确性还无法做到 100% 正

确,二是AI 翻译在语法方面还存在较多的问题。特别是在一些涉及政治、技术、学术等会议

场合,依然需要专业的同传人员。

“我们不仅要翻译字面本身的意思,有时还要传达出演讲者本身的意图、态度和立场,但

机器目前却无法实现。” 上述同传人士称。

其实这对国内外AI巨头都是大难题。2017 年 2 月,谷歌使用全新的 NMT (神经网络机

器翻译)系统在韩国世宗大学与人类译员进行了翻译对战。在 50 分钟内双方同时翻译两段文

本。结果 NMT 并未取得较高的评分,评委指出 NMT 系统翻译出的文本 90% 都存在语法方面

的问题。

在今年 4 月的博鳌论坛上,腾讯同传机器翻译甚至将“中国的一带一路”翻译为“中国有一

条公路和一条腰带”。此外也有人士透露称,之前参加过北京的世界机器人大会,当时科大讯

飞同传翻译惨不忍睹。后来不得已改成识别同传翻译人员的语音,使之变成文字。

科大讯飞董秘、高级副总裁江涛也表示,尽管机器翻译获得发展,明年能达到英语专业八

级的水平,但依然没办法代替同传。“如果有一天机器真的能够实现准确的实时翻译,它们的

角色更可能是辅助相关产业的工作人员更轻松、便捷地开展工作,而不是取代他们。”

不过,对科大讯飞而言,“同传造假”余波未息。Ledge同声翻译创始人王民杰就表示,他

的翻译公司和科大讯飞合作密切,此次事件发酵后,他也向科大讯飞提出意见,希望对方在大

屏幕上显示他们只是语音识别,声音来自同传。

“同传界的很多人都觉得是科大讯飞剽窃了我们的劳动成果,让观众误以为是机器在同

传,而不是人工同传。但是我们在处理问题上也是两难,我们希望科技能够发展,帮助我们进

行翻译。但是现在人工智能被过度夸大,我们身份特殊,也担心外界说自己由于害怕失业而进

行攻击。”

深度分析:科大讯飞的商业模式挑战

作为人工智能第一明星股的科大讯飞曾经拥有破千亿元的市值,如今科大讯飞的光环已经

淡去了不少,市值仅为过去的一半——2017年11月22日,科大讯飞股价攀升至三年内最高

点,每股股价74.26元,市值超过1000亿元;但截止9月27日收盘,股价仅为28.27元,市

值591亿元,以此计算,科大讯飞市值十个月蒸发400亿元。

龙源期刊网

与此同时,根据记者统计,近五年来,科大讯飞累计获得补助6.53亿元,同期累计净利

20.02亿元,累计补助占净利32.3%。

今年上半年公司实现营收32.1亿元,较去年同期增长52.68%;净利1.3亿元,较去年同

期增长21.74%;毛利较上年同期增长56.02%。不过,上述业绩中,还包含科大讯飞获得的补

助等,扣除后只有2000万元净利润。

对此,科大讯飞表示,公司持续加大人工智能相关领域的研发投入、生态体系构建的投入

以及在教育、政法、医疗、智慧城市等重点赛道的市场布局投入。相应地,2018年上半年公

司员工规模较去年同期增长近3500人, 新增人员带来当期薪酬、费用的提升,直接导致上半

年扣除非经常性损益的净利润下滑较多。

而早在去年8月,著名学者薛云奎质疑科大讯飞存在巨大风险,业绩跟不上近千亿元的市

值,尽管经营快速增长,但含金量不高,还定义其为“股市上的大公司,财报上的小公司”。

此前,科大讯飞一直走的是闷声发大财的路线,面向B端,是众多互联网公司背后的技术

公司。据《财经》报道,2010年,公司推出了讯飞语音云平台,向开发者开放语音识别的底

层技术,供后者开发应用,腾讯QQ、高德、携程等,都曾是科大讯飞的客户。

但是,随着语音智能技术日益重要,以及语音处理业务需求越来越多,谷歌、苹果、微软

等国际巨头以及以BAT为代表的国内互联网巨头也在不断开发智能语音市场。据易观报告,

在语音生态系统方面,百度宣布语音识别技术及能力全面开放,腾讯、搜狗语音开放平台也相

继上线。这对科大讯飞过去的商业模式提出了严峻挑战。

为了应对市场变化,科大讯飞近几年开始布局面向C端用户的业务,但是,这不仅失去一

些B端客户,还成为与BAT站在同一赛道的对手。未来,在To C领域经验不足,远无法比拟

BAT的科大讯飞将面临巨大压力。前有BAT巨头抢占,后有新秀赶超,内部又面临“增收不增

利”的尴尬,被夹击的科大讯飞能否走出困局,找到自己的定位,是个值得思考的问题——当

然,这也是BAT的问题,即便是资源集中的BAT,想要短期内盈利也极为困难。无论是腾讯

“觅影”切入的医疗影像,还是百度“Apollo”切入的无人驾驶,远未到达行业拐点。

实际上,对于科大讯飞内部而言,AI商业化如何落地,也是一个没有明确答案的问题。

科大讯飞联合创始人、执行总裁胡郁近日就表示,当下人工智能泡沫太大了,大得过了头,但

人工智能落地是需要时间的。技术创新型公司都还蛮难的,要确立适合自己的商业模式。但

是,人工智能商业落地需要时间,大家都高估了这一速度。比如语音交互这一仗还早得很。指

望AI很快落地不现实,BAT也做不到。

“对于讯飞的基石在哪里,我觉得可能是操作系统,可能是云计算,也可能是软件服务。

未来在不同场景下,技术+软件授权+硬件+后台服务的路径会有新的机会。我相信,5年内讯

飞能抓住这个生态基石建设的机会。”胡郁说。

龙源期刊网

链接:人工智能的那些造假黑幕

1. 2015年,交通银行客服机器人“娇娇”横空出世,这台机器人凭借软萌的声音、流畅的反

应、高度人性化的对答,让研究人工智能和机器人的公司瞠目结舌,还出现在当年的CES

上。不过,最终娇娇被揭露,摄像头+变声器+人工客服操纵,就是这台智能语音机器人的全

部。

2. 沙特阿拉伯授予公民身份的机器人索菲亚:凭借机智的回答和流畅的反应,索菲亚登上

许多知名电视节目,包括《早安英国》、美国脱口秀《吉米今夜秀》、CBS 新闻台《60

Minutes》甚至湖南卫视的《我是未来》。终于,人工智能界大牛YannLeCun忍不住开撕:索

菲亚之于人工智能,就像魔术之于魔法。猎豹董事长傅盛在一次公开演讲中也表示,索菲亚是

假的,娇娇也是假的,目前在全世界范围内,没有一家公司做到机器人与人类对話。

3. 某些自动驾驶公司在进行试乘体验活动时,会提前根据试驾路段的路况编写好程序,而

非让车辆根据传感器数据自主决策、控制。

本文标签: 翻译语音技术耦合人机