首页 > 热点 > 关键词  > 腾讯云智能小样本数智人最新资讯  > 正文

腾讯云智能小样本数智人生产平台发布 支持多模态数据输入

2023-04-26 08:35 · 稿源:站长之家

站长之家(ChinaZ.com)4月26日 消息:昨日,腾讯云智能小样本数智人生产平台首次对外发布,平台具有训练样本小、生产效率高、自动化生产等特性。只需要3分钟真人口播视频、100句语音素材,平台便可通过音频、文本多模态数据输入,实时建模并生成高清人像,在24小时内制作出与真人近似的“数智人”。

微信截图_20230426083808.png

按日更计算,如果以“妆发+调试+录制”平均两小时/期来算,一周就可以省下14个小时,一年可节省近800-900小时,相当于省下30-40天的制作时间。

微信截图_20230426083526.png

小样本数智人支持半身、全身形象展示,手势动作会根据内容灵活调整,也支持录制背景任意更换,适用于直播带货等更广泛的商用场景。相较于2D真人精品数字人,小样本数智人无需专业影棚录制素材,成本更低;相较于照片生成、仅能呈现面部形态的数字人,小样本数智人可根据文本设计手势,唇动、口型、表情复现真人风格。

腾讯表示,目前,已经有数十家合作伙伴依托平台,向行业提供数智人直播SaaS、知识口播SaaS应用,覆盖医疗、传媒、金融多个行业。

举报

  • 相关推荐
  • 多模态大模型MMICL霸榜 支持文本图像视频输入

    北京交通大学等机构联合推出了新多模态大模型MMICL。它支持文本、图像、视频三种模态的混合输入,在多项多模态能力评测中表现抢眼。随着其性能和适用场景的不断优化,MMICL有望成为多模态领域的新宠。

  • 实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了

    继各类输入端多模态大语言模型之后,新加坡国立大学华人团队近期开源一种支持任意模态输入和任意模态输出的真正「大一统」多模态大模型,火爆AI社区。ChatGPT的诞生,引爆了2023年的基于大语言模型的AI浪潮,此后各类开源大语言模型陆续问世,包括Flan-T5、Vicuna、LLaMA、Alpaca等。后续研究可以进一步提升模态切换指令微调学习策略以及数据集。

  • 具身智能多模态大模型……盘点杭州亚运会上的五大“最黑”科技

    “与历届亚运会相比,杭州亚运会很可能是最智能的一届。”是亚奥理事会代理总干事维诺德在接受媒体访问时的评价。期待这些黑科技产品逐渐渗透到普通用户的生活中,为我们的生活带来更多便利、效率和可持续性。

  • 马毅团队新研究:微调多模态大模型会灾难性遗忘

    随着GPT-4的发布,多模态大模型成为热点。业界常将视觉编码器与语言模型集成构建MLLM。模型设计和训练技巧仍需进一步优化,以平衡不同能力之间的权衡。

  • 重磅!OpenAI将发布DALL·E 3,多模态ChatGPT来了!

    9月21日凌晨,OpenAI在官网宣布,在今年10月份将通过API向ChatGPTPlus和企业版用户提供全新文本生成图片产品——DALL·E3。ChatGPT在DALL·E3加持下将开启久违的多模态输出模式,用户通过文本就能直接在ChatGPT中生成各种类型图片。从展示可以看出,DALL·E3可以生成写实、二次元、平面、创意、朋克、3D等多种类型的图片。

  • 多模态大模型KOSMOS-2.5 擅长处理文本密集图像

    随着视觉与语言的深度融合,文本图像理解成为多模态领域的新方向。文章介绍了一个突破性的多模态模型KOSMOS-2.5,它在处理文本密集图像上展现强大能力。目标是进一步提升对文本图像的解释生成能力,将KOSMOS-2.5应用于更多实际场景,如文档处理、信息抽取等,从使语言模型真正具备「读图识文」的能力。

  • 生数科技发布自研多模态通用大模型 同时推出PixWeaver、VoxCraft等工具

    9月20日,生数科技发布了自主研发的多模态通用大模型,并同时推出了两款应用产品:视觉创意设计平台PixWeaver和3D资产创建工具VoxCraft。生数科技的多模态通用大模型采用底层融合的思路,将Transformer架构引入扩散模型,实现文本、图像、3D、视频等多模态知识的融合。生数科技的大模型还面向游戏制作、影视制作、广告营销等多个行业提供服务能力,支持各类创意内容的生成。

  • ​AI创企Reka发布多模态AI助手Yasa-1,欲与ChatGPT竞争

    由DeepMind、Google、百度和Meta的研究人员共同创立的AI创企Reka,最近宣布了最新产品一款多模态AI助手Yasa-1。这款助手被设计成可以理解和互动文本、图像、视频和音频等多种媒体形式,被认为有望成为OpenAI的ChatGPT的竞争对手。Yasa-1的发布标志着多模态AI助手领域的竞争愈发激烈,预示着未来AI助手将在不同媒体类型之间进行更多复杂的交互,为用户提供更多有趣和实用的功能。

  • 揭开多模态神经元的秘密:从 Molyneux 到 Transformers 的过程

    Transformers成为了人工智能领域最重要的创新之一。这种神经网络架构于2017年推出,彻底改变了机器理解和生成人类语言的方式。这有望推动人工智能在多模态智能应用中的发展。

  • ChatGPT推出语音和图像多模态功能 预计未来两周内上线

    OpenAI宣布将在ChatGPT中推出新的语音和图像功能。这些功能可以通过语音对话或展示图片的方式与ChatGPT进行交互。语音功能将在iOS和Android平台上使用图像功能将在所有平台上提供。