搜狗谷歌机器翻译结果的对比和分析

本文摘要:(公众号:) 本文作者:宋柔,广东外语外贸大学云山讲座教授,曾任北京语言大学信息科学学院教授,博士生导师,中文信息学报编委。主要专门从事智能软件工具、语言信息处理、人工智能应用于方面的研究、研发和教学工作,近年的主要研究方向是语言信息处理。 去年谷歌发售了基于神经网络的机器翻译系统,最近搜狗也发售了类似于的系统。我对这两个系统翻译成结果的错误不作了一些对比分析。 英译汉测试样本是2016年12月12日纽约时报网上新闻第一则,共11个句子,361个英文词。

yb体育网页版

(公众号:) 本文作者:宋柔,广东外语外贸大学云山讲座教授,曾任北京语言大学信息科学学院教授,博士生导师,中文信息学报编委。主要专门从事智能软件工具、语言信息处理、人工智能应用于方面的研究、研发和教学工作,近年的主要研究方向是语言信息处理。

去年谷歌发售了基于神经网络的机器翻译系统,最近搜狗也发售了类似于的系统。我对这两个系统翻译成结果的错误不作了一些对比分析。

英译汉测试样本是2016年12月12日纽约时报网上新闻第一则,共11个句子,361个英文词。其中的错误不属于4种类型:译词错、结构拢、漏译、多译为。结构错又分成3类:介词拢、一般结构拢、成分分享关系拢。

事例1Instead, Mr. Trump has decided to risk what looks to be a bruising confirmation fight in the Senate.Google译文:忽略,特朗普先生要求冒险在参议院看上去是一个瘀伤的证实战。其中有3个错误risk what……confirmation fight,这里的risk带上小句宾语,翻译成名词性宾语“冒险……证实战”必经,归属于一般结构拢。bruising应当是“白热化的”或“艰难的”,译作“瘀伤的”归属于译词错。

in the Senate是risk的状语,译文中毕竟looks to的状语,归属于一般结构拢。Sogou译文:忽略,特朗普要求冒险在参议院展开看起来漏洞百出的证实战。其中有1个错误bruising译作“漏洞百出的”是译为词错。

事例2The company has billions of dollars in oil contracts that can go forward only if the United States lifts sanctions against Russia, and Mr. Tillerson’s stake in Russia’s energy industry could create a very blurry line between his interests as an oilman and his role as America’s leading diplomat.Google译文:该公司享有数十亿美元的石油合约,只有美国中止对俄罗斯的制裁,Tillerson先生在俄罗斯能源行业的股权有可能创立一个十分模糊不清的线之间他的利益作为一个石油公司和他的起到,美国的领先外交官。其中有7个错误that can go forward 漏译。

between his interests as an oilman and his role as America’s leading diplomat.的结构是between A as B and C as D,应当译作“作为(B)的(A)和作为(D)的(C)之间的”,其中(X)回应X的汉语译文。但这里,“之间”的方位拢了,第2个as并未译为出来,是2个介词拢;(A)与(B)的关系、(C)与(D)的关系不晓得了,是2个一般结构拢。此外,oilman错译为“石油公司”、leading错译为“领先”,是2个译为词错。

Sogou译文:这家公司有数十亿美元的石油合约,只有当美国中止对俄罗斯的制裁,而tillerson在俄罗斯能源行业的股份可能会在他作为石油商的利益和他作为美国主要外交官的角色之间产生模糊不清的界限。其中有1个错误:that can go forward 漏译。between的介词短语翻译成得完全正确,很不更容易。

事例3In the past several days, Republican and Democratic lawmakers had warned that Mr. Tillerson would face intense scrutiny over his two-decade relationship with Russia, which awarded him its Order of Friendship in 2013, and with Mr. Putin.Google译文:在过去几天,共和党和民主党立法者警告说道,Tillerson先生将对他与俄罗斯的二十年关系展开紧密的审查,俄罗斯在2013年颁发他的友谊,并与普京先生。其中有4个错误:face intense scrutiny over NP应该译作“面临关于(NP)的严苛审查”,这里的译文是“对(NP)展开紧密的审查”,把被动关系翻译成主动关系,是一般结构拢;介词over没译出来,是介词拢。Order of Friendship错译为“友谊”,是译为词错。

and with Mr. Putin应该与with Russia分享relationship,这里被分开不了了之,是成分分享关系拢。Sogou译文:在过去几天,共和党和民主党议员警告说道,tillerson将不会对他与俄罗斯的纠葛关系展开严苛审查,这种关系于2013年向他颁发了他的友谊秩序,并与普京一起。其中有6个错误Google的4个错误在Sogou中某种程度不存在。

two-decade relationship译文为“纠葛关系”,牵涉到“二十年”漏译而“纠葛”多译为,不属于漏译。向他授勋的是“俄罗斯”,译文中是“这种关系”,是先行词译错,不属于成分分享关系拢。

错误分类统计资料如下表格:从这个样本看,Sougou英译汉的质量比Google显著地好。除了错误较少之外,Sogou译文的流畅规范也好于Google。这展现出在3方面:(1)译词在可容忍的范围内自由选择得更为清楚。如事例3的intense scrutiny译作“严苛的审查”而不是“紧密的审查”,类似于的情况有多处。

(2)同位语能前置放中心语的都前置处置,Google则多数按照英文的原序后置,并前后用逗号隔开。比如selected Rex W. Tillerson, the chief executive of Exxon Mobil, to be his secretary of state.Sogou 译作“指定埃克森美孚的首席执行官雷克斯兼任他的国务卿”,Google译作“议会选举雷克斯·蒂尔森,埃克森美孚的首席执行官,沦为他的国务卿”。

Google这样翻译成无法算错,但归属于欧化传达,不流畅。(3)标点处置。英语中,三大短语之间用逗号隔开,汉语译文应当转用顿号。例如Mr. Romney, Mr. Petraeus and Mr. Corker,Sogou译作“罗姆尼、彼得雷乌斯和考克”,Google则仍不作逗号,译作“罗宾尼先生,Petraeus先生和Corker先生”。

这个实地考察样本较为小,还无法全面体现两个系统的水平差异,但最少能显现出Sogou英译汉的水平是非常不俗的。汉译英测试样本还包括2016年12月12日中新网新闻2则5句,小说《鹿鼎记》1段3句,2016年政府工作报告2段2句,共10句626字。其中的错误不属于4种类型:词语拢、结构拢、漏译、多译为。

词语拢分成译词错、专名拢、译词必要使用拼音、数词错4类,结构错又分成论元关系拢、介词拢、核心动词拢、黏着结构错4类。事例12016年10月18日,王女士等几名群众回到巴中老城一银行客户部,体现通过该银行工作人员办理的存款无法放入,大家十分生气。Google译文:October 18, 2016, Ms. Wang and several other people came to the old city of Pakistan a bank customer department, reflecting the bank staff through the deposit can not be removed, we are very anxious.其中有6个错误时间状语October 18, 2016缺乏介词,归属于介词拢。

城市名“巴中”译作Pakistan,归属于专名拢。a bank customer department不应是come to的均须宾语,译文中是宾语old city的后置定语,归属于论元关系拢。

“通过该银行工作人员办理的存款”译作the bank staff through the deposit,论元关系反转,归属于论元关系拢。存款的“放入”译作removed,归属于译词错。

“大家十分生气。”是间接引语,译文中将“大家”译作“我们”,沦为必要引语,归属于译词错。Sogou译文:On October 18, 2016, mrs.wang and other people came to the bank of bus center, the bank of bus center, reflecting that the savings through the bank staff can not be taken out, everyone is very anxious.其中有2个错误城市名“巴中”译作bus center,归属于专名拢。

“客户部”漏译,而且反复了the bank of bus center,这里不属于漏译。事例2江南将近海滨的一条大路上,一队清兵手持刀枪,押着七辆囚车,冲风冒寒,向北而行。

Google译文:Jiangnan near the waterfront on a road, a team of Qing Bing Shouqiangqiang, escorted seven prisoners, the wind cold, northbound.其中有6个错误:“江南”必要用于拼音Jiangnan,不属于词语错中的拼音类错误。“将近海滨的一条大路上”译文为near the waterfront on a road,标记关系反转,不属于论元关系拢。“清兵”和“手持刀枪”在译文中必要用于拼音(后者拼法拢),是词语错中的2个拼音类错误。黏着语素结构“冲风冒寒”译文为the wind cold,不属于黏着结构拢。

“向北而行”译文为northbound,补核心动词,为核心动词拢。Sogou译文:On a main road near the south of the Yangtze river, a team of Bowls, with a knife, held seven prison van, Okikaze, and xing to the north.其中有3个错误:“清兵”译作Bowls,为译词错。

黏着语素结构“冲风冒寒”译文为Okikaze,不属于黏着结构拢。“向北而行”的“行”必要用拼音xing,不属于词语错中的拼音类错误。

错误分类统计资料如下表格:从这个样本看,Sougou汉译英的质量与Google比起大体非常。从错误类型看,Sogou漏译较多,Google论元关系错误较多。这个实地考察样本也较为小,无法全面体现两个系统的实际水平。但对比英译汉和汉译英,两个评测样本的规模大体非常,两个系统的汉译英的错误都显著少于英译汉的错误,或许解释汉译英比英译汉,可玩性更大一些。

有一点思维的问题从这两个系统的测试结果对比中可以显现出一些问题。(1) 有些语段两个系统都译错了。

比如英译汉事例2中的The company has billions of dollars in oil contracts that can go forward only if the United States lifts sanctions against Russia其结构是S1 S2 Conj S3,其中S回应小句,Conj回应连词。两个系统S2都漏译。

英译汉事例3中的his two-decade relationship with Russia, which awarded him its Order of Friendship in 2013, and with Mr. Putin其结构是 N1 with N2, RS, and with N3,其中N回应名词短语,RS回应关系子句。两个系统都没能把with N2和with N3连一起翻译成。使用同一个模型的有所不同系统对于同一个结构的翻译成罪完全相同的错误,或许可以令人猜测这种模型对于这类结构的适应性。

这类结构否显然包括着本质性的翻译成艰难?如何解决问题这种艰难?(2)汉译英比英译汉否显然更加艰难?明确的艰难在哪里?黏着语素结构似乎是一个容易解决问题的难题。此外,归属于论元关系、核心动词、漏译类型的错误在两个系统中经常出现的都较为多,这是为什么?如何解决问题?基于神经网络的机器翻译经常出现的时间不宽,早已表明出有显著的优势。但是任何新方法、新技术都会有不足之处,神经网络机器翻译也会值得注意。思索这种方法的天花板,探索超越天花板的改版的理论和方法,应该是机器翻译的研究方向。

版权文章,予以许可禁令刊登。下文闻刊登须知。


本文关键词:yb体育网页版,搜狗,谷歌,机器翻译,结果,的,对比,和,分析

本文来源:yb体育网页版-www.ruizhiad.com

Copyright © 2001-2021 www.ruizhiad.com. yb体育网页版科技 版权所有   ICP备47279854号-8   XML地图   yb体育|网页版