您好,欢迎进入AG真人国际(中国)官方网站有限公司官网!

咨询热线:

020-88888888

AI翻译界杀手诞生阿里国际翻译大模型吊打谷歌和GPT-4

发布时间:2024-10-19 05:51人气:

  【新智元导读】AI翻译,全球大厂都卷疯了!但「绿就是白」「光腿神」这类翻译却让人啼笑皆非。就在刚刚,阿里国际发布首个商用翻译大模型,电商出海神器真来了!

  苹果iOS 18官方7月更新的系统宣传语中,「真的很你」硬生生文案,被许多人吐槽太过抽象。

  但到了中文这里,则有种「明明每个字都认识,可连在一起却怎么也读不懂了」的感觉。

  与专业术语不同的是,蕴含丰富文化寓意的词语,字面翻译对于有文化背景的人来说,难以理解。

  如今,随着LLM的多语言能力越来越强,也让此前鲜有进展的AI翻译赛道,突然卷了起来。

  早已布局的科技大厂,以及刚刚下场的各路LLM初创,纷纷推出了自家的AI翻译产品。

  DeepL表示,自家LLM的译文需要更少的编辑。要达到同样的质量,谷歌需要两倍的编辑量,而GPT-4则需要三倍

  基于深度学习的机器翻译,AG旗舰厅官方网站虽然对于训练过的文本语料可以游刃有余,但对于和训练文本差异过大的文本,翻译能力就会大幅下降。

  除了训练数据的局限性之外,AI的上下文理解有限、也让不同语种的语言结构差异和文化语境差异等原因,也会导致AI经常给出偏差很远的答案。

  我们经过一番实测发现,在一众模型产品中,阿里国际最新的大模型产品——Marco-MT,在广义的翻译领域表现就相当亮眼,通过结合上下语义、场景、对象等,提供更加精准的翻译,结合阿里的数据优势,在电商领域尤为出色。

  众所周知,电商行业中术语繁多,不同领域有众多盲点,即使请专职的翻译,也很难短时间内给出最准确的说法。

  某产品给出的结果是——「Bare legs god」,好家伙,「光腿神」可还行。

  Marco翻译大模型可支持三种方式的翻译:基于语境的产品翻译、图像翻译、实时聊天翻译。

  在处理电商专有词、流行词和口语词等翻译任务时,这个模型不仅能更好地保留原意,还能立马输出简洁、准确的表达,而且非常符合「歪果仁」的语言习惯。

  比如「光腿神器」的翻译,以往的两个翻译产品分别是「A magical tool for bare legs」(一个神奇的光腿工具)和「Bare legs god」(光腿神)。

  而用了Marco翻译大模型,「The bare leg artifact」的译法简洁精妙,老外看了都说好!

  绿色是显白哦!真的很仙的裙子,洋气不过时的,比较大气的感觉,还挺显瘦的,比较适合我的风格,穿出去回头率有的哦。

  相比之下,翻译1号在表述上并不是很符合当地人的习惯,尤其是「make your skin look whiter」这段。

  内容大意:绿色让你的皮肤看起来更白!这是一条非常仙的裙子,时尚且永不过时,相当优雅,而且显瘦。它很适合我的风格,穿上它我一定会吸引很多注意力

  内容大意:绿色是白色哦!真的非常仙的裙子,时尚但不时尚,更有大气的感觉,而且也很显瘦,更适合我的风格,穿出去回头率很高哦

  泰美辣!扎起来的时候看不出来是假发,而且发质看起来超好的,发量看起来也很多!对于短发发量少星人太友好了呜呜好喜欢!

  Marco依然发挥稳定,正确地翻译出了「泰美辣」的意思——「so beautiful」。

  1号并不能get到这是什么意思,直接输出了拼音「Tai Meila」;2号拆开翻译成了Tammy(人名)和Spice(香料)。

  不了解西语的朋友可能看不出端倪,「cambio repentino en el estilo de pintura」这句话,翻译回来的意思是——「绘画风格的突然变化」。

  针对这些训练预料相对较少的语种,Marco-MT给出的答案——「Cambio de estilo」,不仅意思更加贴合原文,表达也更加native。

  数十亿规模的高质量电商预料数据,让团队在跨境电商领域一下子就建起了起极为显著的数据优势

  服务于全球市场的电商平台,让团队对不同国家和地区的文化、语言以及商业法规有了深入的了解

  因此一经发布,Marco翻译大模型就在BLEU、COMET,以及人工评测指标上上,一举超越市场上的头部翻译产品。

  将其它语言译为英语的测试中,它的所有结果均已超越行业标杆企业的产品,比如谷歌、ChatGPT、DeepL。

  而将英语译成其他语言方面,也有一半语言的测试结果超过了谷歌、ChatGPT。

  除了常见的中英,还覆盖了韩语、日语、西班牙语、法语等全球使用量最多的语种,以及乌尔都、孟加拉、尼泊尔、希伯来等小语种。

  能够在多语种之间流畅转换,Marco也就打通了跨境电商中的两个核心场景。

  商家上传的商品信息,包括标题、详情、属性、商品图片短语等,都能被精准翻译成目标市场语言。

  另外,模型在搜索关键词和对话翻译上也表现不俗,还支持高并发调用,并且能理解电商相关知识,满足各种风格偏好。

  总之,Marco作为AI原子能力,可以轻松接入到电商商品管理、客服及搜索导购等系统中。

  可以说,Marco的出现,能让阿里国际的速卖通、Lazada、Trendyol等电商平台,以及外部电商类客户,比如为多平台运营商家提供服务的独立SaaS商(ISV),和对翻译效果有更高要求的跨境商家,都能提供更丝滑的服务。

  基于通义千问系列大模型,他们进行了多语言增强训练,搭建出多语言大模型基座——Marco翻译大模型。

  比如,特别增强语种识别、多维度数据质量评估,由此,就获得了高质量、大规模多语言数据。

  与此同时,通过利用多语言MoE、参数扩展方法,从而保证主导语言(如中英)性能不下降的情况下,提升了其他语种的性能。

  对此,研究人员提出了一种自动构建高质量偏好数据的方法,通过强化学习缓解LLM的幻觉问题,还提升了电商场景特有词翻译效果。

  首先,模型能够主动进行语义理解与内容重构,而不是简单的文字转换,从而避免了各种哭笑不得的歧义。

  比如,「你的宝贝正在路上」,不会再被翻译成「Your baby is on the way」;

  这些富含特色文化且难以直译的词汇,Marco翻译大模型都能恰如其分地表达出来。

  再以「我太太太太喜欢这个商品了」为例,一些AI翻译产品会将这句话翻译为「My wife likes this product」。

  其次,AI翻译中融入了情境化翻译能力,这就使它能够依据特定的环境及目标受众进行智能调整。

  与那些致力于模型研发、实现AGI公司不同,阿里国际从一开始就想明白了,要走AI应用落地之路。

  2023年,人工智能作为技术全新变量,掀起了整个跨境电商行业的巨大风暴。

  全球最大电商平台亚马逊,推出了AI服务平台Amazon Bedrock,让客户通过在线领先模型构建GenAI应用程序。

  去年4月,他们在内部专门成立了AI Business百人团队,并对40+关键场景进行AI测试。

  中小商家们在出海路上经历的「九九八十一难」——语言文化壁垒、专业人才短缺、获客成本高等等,被逐一破解。

  比如,AI图像编辑功能可以一键实现裁剪、背景生成、移除等功能,点击率超7%;

  近半年的数据显示,平均每两个月,商家对于AI的调用量就翻1倍,AI的调用量已经突破日均1亿次。

  更具象地说,一个在速卖通起家的Zeuslap显示器创业9年,借助AI从名不经传的小作坊,迅速成长为平台行业TOP 1的品牌。

  自从去年11月用上AI工具之后,70%以上的设计图几乎被AI承包。比如,商品banner图、产品场景图、YouTube封面图等等。

  在多语言方面,为了提升大模型多语言能力,并将其更高效地用实际任务中,多语言增强大模型MarcoPolo由此诞生。

  在多模态方面,多模态大模型MarcoPolo-VL能够用「眼睛」精准识别,进行推荐。

  在ICCV 2023顶会上,一向低调的阿里国际AI团队,凭借「视觉-语言算法推理」workshop拔得头筹。

  这次,Marco翻译大模型亮相,进一步为语言文化壁垒提供了绝佳的解决方案。

  它将集成到阿里国际旗下众多跨境电商业务平台,如速卖通、Lazada、Trendyol。

  此外,Marco翻译大模型还将面向全球个人用户,真正实现从专业商务到日常生活全覆盖。

  阿里国际拥有着天然的3亿用户出海业务,而且电商足迹遍布全球100+国家/地区,连接着数百万商家及数亿消费者。

  这一庞大的生态网络预示着,仅在阿里国际内部,就拥有服务广泛用户群体和多样化应用场景的广阔舞台。

  团队成员们积极向外扩展,让Marco翻译大模型触及更广泛用户群体、商业实体。

  因为,外部的生态才是一个潜力无穷、规模惊人的市场空间,尤其是全球新兴市场的需求。

  那么,全新的AI翻译大模型也将赋能这些国家的中小企业(SMEs),帮助它们跨越语言障碍,高效开展全球业务。

  未来,阿里国际还将持续投入,扩展语向的数量,提升更多不同场景下的翻译质量。

  在阿里国际看来,AI+跨境电商只是迈出了第一步,AI之于电商最大的改造,应是做到「降本增效」的极致。

  向后一步,AI将会重塑整个电商供应链,甚至上从根本去改变搜、推、广的商业模式。


020-88888888