搜狗AI合成主播走出国门,向世界证明中国AI

2019-05-10 10:28 稿源:雷锋网  0条评论

AI,人工智能

图片来源图虫:已授站长之家使用

随着搜狗AI合成主播技术升级,在完成两次版本迭代后,近日因实现“跨语言”出海而再度引起海外市场高度关注,成为海外媒体行业明星产品。

AI技术创新落地国际市场

搜狗官方近日对外公布,其已与阿布扎比媒体集团达成合作,将推出全球首个阿拉伯语AI合成主播。对于此次合作,阿联酋文化和知识发展部部长努拉表示,阿布扎比媒体集团此次研发及应用AI合成主播符合其战略需求,将通过人工智能等数字化技术实现媒体智能化升级。

阿布扎比媒体集团是阿联酋的大型媒体企业,旗下包括阿布扎比电视台、广播电台、阿文《联邦报》、英文《国家报》及杂志、网站等主流媒体,在海湾和阿拉伯地区拥有较高的知名度和影响力。据悉,本次该集团与搜狗合作打造的AI合成主播,将应用于迪拜电视台有线频道及社交媒体端,用以播报时政新闻为主的栏目。

随着我国政府「一带一路」的政策加持,中国AI科技领域的优秀企业开始在全球范围内崭露头角。搜狗官方也表示,此次搜狗AI合成主播出海,一方面,正是响应国家「一带一路」政策号召的针对性发展战略;另一方面,对全球媒体行业而言,随着搜狗AI合成主播背后的「搜狗分身」技术的升级迭代,把AI的触角延伸到多个语种的信息领域,将进一步促进AI合成主播在全球范围的应用普及。

此次同阿布扎比媒体集团的合作,助力搜狗以AI技术的创新应用成功撕开了国际市场,提升了海外知名度。后续,在国家利好政策的持续加持下,搜狗在全球范围内AI落地应用或许值得更多期待。

搜狗AI不断突破,合成主播养成记

2018 年 11 月 7 日,在第五届世界互联网大会上,搜狗与新华社联合发布了全球首个全仿真智能AI主持人,搜狗AI合成主播首次亮相。

首个AI合成主播以著名主持人邱浩为原型,具体功能方面,搜狗CEO王小川在发布会上介绍称,“由真人主播面对镜头录制一段播报新闻视频,「搜狗分身」技术凭借这段视频,将真人主播的声音、唇形、表情动作等特征进行提取,然后再通过语音合成、唇形合成、表情合成以及深度学习等技术,克隆出具备和真人主播一样播报能力的AI合成主播。后续只需要提供文字,AI合成主播就能准确无误的像真人主播一样播出新闻。”

相对而言,搜狗的第一代AI合成主播虽然惊艳,却仍难免存在一些遗憾,如搜狗AI合成主播此前原型只有男性,没有女性;合成主播只有面部表情,没有肢体动作。而这些,也正是搜狗今年年初针对其AI合成主播重点升级的方向。 2019 年 2 月- 3 月,搜狗AI合成主播实现两次版本迭代,从过去的「坐着播新闻」升级成结合肢体动作的「站立式播报」,并上线全球首位AI合成女主播「新小萌」,进一步增强了用户的新闻视听体验。

版本迭代的同时,搜狗AI合成主播的定制周期也在不断缩减。雷锋网(公众号:雷锋网)了解到,由于早期技术不成熟,需要用到大量的数据。现在录制一个人,可以放在一天的时间内,把音频和视频全部录完,同时录得数据也比较少。现在几个小时的视频资料就可以形成一个逼真形象。

雷锋网了解到,搜狗AI合成主播自 2018 年 11 月正式面世半年以来,经历了两次重大版本迭代,从「坐」到「站」,从「男」到「女」,如今更从汉语到多语种,这正源于搜狗在AI技术上多年来的积累优势。从做搜狗搜索引擎到做搜狗输入法,再到做搜狗浏览器,在过去十年里,搜狗技术团队在互联网、大数据、AI技术上有了长足的积累。而搜狗AI合成主播正是基于此前的技术积累在媒体领域的创新落地应用。

搜狗AI合成主播核心:「搜狗分身」技术

AI合成主播只需要输入文字或语音文本,就可以实时高效输出音视频合成效果,获得实时的播报视频。被行业所惊叹讨论的是,AI合成主播不仅能用和真人一样的声音进行新闻或节目播报,连唇形、面部表情也能够吻合。

那么搜狗打造AI合成主播所用到的「搜狗分身」技术为何物?

搜狗公司语音交互技术中心总经理王砚峰介绍,「搜狗分身」技术是搜狗人工智能的核心技术之一,诞生于搜狗「自然交互+知识计算」这一人工智能理念之下。

具体而言,搜狗分身技术是搜狗人工智能推出的多模态合成技术,可以基于少量真实音视频数据,快速迁移生成虚拟的分身模型。使用时输入一段文本,即可生成与真人无异的同步音视频。

AI合成主播主要有两大核心技术支撑:通过人工智能技术,采集人的面部表情并标签化,并根据语义合成表情;通过机器学习自动生成仿真语音。而这两大核心技术也正是基于搜狗语音合成和图像生成的两大引擎:

  • 在语音合成引擎中,基于用户少量音频数据,使用搜狗个性化语音合成技术,快速学习用户音色、韵律、情感等多维度特征,建立输入文本与输出音频信息的关联;

  • 在图像生成引擎中,使用搜狗人脸识别、三维人脸重建、表情建模等技术对人脸表情动作进行特征学习和建模,建立输入文本、输出音频与输出视觉信息的关联映射,最终生成输出分身视频。

前文提到,在不到半年的时间,搜狗AI合成主播便历经了多次版本升级:除了语言能力,逐渐加入微表情、肢体语言等能力,从汉语语种拓展到英语、阿拉伯语等多语言语种。短时间内多方面能力的迅速迭代,也恰恰体现了搜狗AI技术的行业领先性。

AI合成主播将走向何处?

依托「搜狗分身」技术创新的信息传播形式,AI合成主播能够帮助传媒行业在融媒体转型、新闻时效性和跨语种传播能力等方面再上台阶,推动其智能化发展。

据新华社官方信息显示,AI合成主播自上线新华社以来已播报新闻 3400 余条,累计时长达 10000 多分钟,参与了包括第五届世界互联网大会、首届进博会等重要会议报道。同时,此次同阿布扎比媒体集团联合推出的首个阿语主播,也将上岗迪拜电视台有线频道及社交媒体端的时政新闻栏目。

雷锋网了解到,虽然搜狗AI合成主播目前主要应用于媒体领域,然而,搜狗的目标不仅仅是媒体领域。王小川前不久表示,作为AI合成主播的技术核心,「搜狗分身」技术未来还将应用于娱乐、医疗、健康、教育、法律、金融等多个领域,通过提供个性化的行业解决方案,为不同职业赋能,从而提升整个社会的信息生产力,用AI科技来让人类生活变得更加美好。

声明:本文转载自第三方媒体,如需转载,请联系版权方授权转载。协助申请

相关文章

相关热点

查看更多