南开大学与字节跳动研究人员推出开源AI工具ChatAnything：用文本描述生成虚拟角色

2023-11-22 14:08 · 稿源：站长之家

划重点:
1. 🎭 **ChatAnything框架介绍**:南开大学与字节跳动研究人员合作推出一种名为ChatAnything的新型框架，旨在以在线方式生成基于大型语言模型（LLM）的角色的拟人化形象。
2. 🗣️ **MoV和MoD创新概念**:研究团队提出了两个创新概念，即“混合声音”（MoV）和“扩散混合”(MoD)，用于实现声音和外观的多样生成。MoV利用文本到语音算法生成预定义音调，而MoD结合文本到图像生成技术和说话头算法简化生成交互式对象的过程。
3. 🧠 **ChatAnything框架的挑战与解决方案**:研究人员在使用当前模型生成的拟人化对象时遇到了检测困难，提出通过像素级引导注入人脸关键点以增加检测率。他们还介绍了ChatAnything框架的四个主要模块，包括LLM控制模块、肖像初始化器、文本到语音模块混合和动作生成模块。

站长之家（ChinaZ.com）11月22日消息:南开大学与字节跳动研究人员合作推出了一项引人注目的研究，发布了一种名为ChatAnything的全新AI框架。该框架专注于通过在线方式生成基于大型语言模型（LLM）的角色的拟人化形象，从而创造具有定制视觉外观、个性和语调的人物。

简答的说，ChatAnything是一个创新的产品，利用语言模型技术为LLM角色创建具有视觉外观、个性和语调的拟人化角色。通过混合语音和外观生成概念，用户只需几个文本输入即可定制角色。该产品采用面部标志控制和评估数据集，通过像素级引导实现更高的人类面部特征生成率。ChatAnything支持文本和图像输入，为用户提供创造独特虚拟角色的自由度。

研究团队充分利用了LLMs的上下文学习能力，通过精心设计的系统提示生成具有个性的拟人化形象。他们提出了两个创新概念:混合声音（MoV）和扩散混合(MoD)，以实现声音和外观的多样生成。MoV使用文本到语音(TTS)算法生成预定义音调，根据用户提供的文本描述选择最匹配的音调。而MoD则结合了文本到图像生成技术和说话头算法，简化了生成交互式对象的过程。

然而，研究人员在使用当前模型生成的拟人化对象时遇到了一个挑战，即这些对象通常无法被预先训练的面部关键点检测器检测到，导致面部运动生成失败。为了解决这个问题，他们在图像生成过程中引入了像素级的引导，注入人脸关键点，显著提高了面部关键点检测率，从而实现了基于生成的语音内容的自动面部动画。

研究人员在论文中详细讨论了大型语言模型（LLMs）的最新进展以及它们在上下文学习方面的能力，将它们置于学术讨论的前沿。他们强调了需要一个能够生成具有定制个性、语音和视觉外观的LLM增强人物的框架的重要性。对于个性生成，他们利用LLMs的上下文学习能力，使用文本到语音(TTS)API创建了一个声音模块池，MoV模块根据用户文本输入选择音调。

研究人员进一步介绍了ChatAnything框架的四个主要模块，包括LLM控制模块、肖像初始化器、文本到语音模块混合和动作生成模块。他们通过引入扩散模型、语音变换器和结构控制，创建了一个模块化和灵活的系统。为了验证引导扩散的有效性，研究人员创建了一个包含不同类别提示的验证数据集，并使用预训练的面部关键点检测器评估了面部关键点检测率，展示了他们提出的方法的影响。

ChatAnything框架为生成具有拟人特征的LLM增强人物提供了全面的解决方案。研究人员在解决面部关键点检测方面提出了创新性的解决方案，并在验证数据集中取得了令人鼓舞的结果。这项工作为将生成模型与说话头算法相结合以及改善数据分布的对齐提供了未来研究的可能性。

项目地址:https://chatanything.github.io

相关论文:https://arxiv.org/abs/2311.06772作者:AI_Fox https://www.bilibili.com/read/cv27716378/?jump_opus=1出处:bilibili

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
字节跳动称没有出售TikTok计划

市场上出现了有关字节跳动有意出售TikTok的传闻，甚至传闻称沃尔玛可能成为潜在买家。字节跳动迅速做出回应，通过官方声明坚决否认这些报道，并明确表示没有任何出售TikTok美国业务多数股权的计划。事实和法律将站在我们这一边，我们也必将取得最终的胜利。

字节跳动 TikTok 沃尔玛
Nothing 宣布其耳机将支持 ChatGPT

Nothing近日宣布，计划将ChatGPT与其智能手机和耳机更深度整合。此举将为公司的客户提供更快速的服务。该博客文章表示:“Nothing还将通过在NothingOS中嵌入系统级入口点到ChatGPT，包括截屏共享和Nothing风格的小部件，改善Nothing智能手机用户体验。

ChatGPT Nothing AI头条
字节跳动 “AI作业助手” Gauth在美国教育应用下载量排名第二

字节跳动旗下子公司GauthTech推出的“AI作业助手”应用Gauth在美国教育应用市场蓬勃发展，成为苹果iOS设备上第二下载量最高的教育应用，仅次于语言学习平台Duolingo。另一款自称为“AI作业助手”的应用Question.AI也在Data.ai的调查中排名第三，这款应用由北京在线教育服务初创公司作业帮支持。根据Diandian的数据，今年3月，该应用最活跃的用户来自印尼和菲律宾。

字节跳动 AI作业 AI头条
字节跳动加大员工激励：最高可拿15％

在大环境和行业疲软的情况下，这两年大量企业都缩减了员工奖励，各大互联网厂商也不例外，不过今天，字节跳动宣布了一项额外的员工激励。根据字节跳动发布的全员信，2023全年综合绩效在M及以上的员工，将在实际评定奖金月数的基础上，额外获得期权激励。其中，综合绩效为M的额外获得5%的激励，M 的为10%，E及以上的为15%。所有激励都将以期权/RSU形式的发放，激励价值不足4股的发放对应现金。字节跳动内部全员信如下：大家好，2023全年绩效评估已经结束，感谢大家的认真参与。之前我和大家沟通过几项重要的绩效和激励政策调整，主要变化点

员工激励绩效评估期权激励
开源AI平台Lightning AI发布AI编译器“Thunder”以加速模型训练

开源人工智能平台LightningAI宣布与Nvidia合作，发布了名为“Thunder”的下一代AI编译器，旨在加速人工智能模型的训练速度。据LightningAI称，该编译器在实际场景中相比未优化的代码，可将大型语言模型的训练速度提高高达40%。LightningStudios的产品可以按四个定价级别购买:个人开发者免费，工程师、研究人员和科学家专业级;初创公司和团队的团队级别，以及大型组织的企业级别。

LightningAI Thunder AI编译器
Nothing Phone 1在Nothing OS 2.5.5更新中集成ChatGPT

NothingPhone1终于在NothingOS2.5.5更新中获得了ChatGPT集成。该更新还带来了新功能、修复以及ChatGPT集成。NothingOS2.5.5正在逐步推出，因此，如果在您的设备上未出现，请等待5到6天后再次检查。

NothingPhone1 ChatGPT AI头条
微软研究人员指出，并非所有token都符合需求

微软研究人员挑战了语言模型预训练的传统方法，该方法在训练语料库中的所有token上均匀应用下一个token预测损失。他们提出了一种新的语言模型称为RHO-1，该模型利用选择性语言建模。SLM可以扩展到监督微调，以解决数据集中的噪声和分布不匹配，并通过训练一个强调帮助性、真实性和无害性的参考模型来获得在预训练期间获得本地对齐的基本模型。

AI数据 AI头条
AI视频生成工具ID-Animator：可保持角色一致生成视频动画

生成具有指定身份的高保真人类视频引起了广泛关注。现有技术在训练效率和身份保持之间往往难以取得平衡，要么需要繁琐的逐案微调，要么在视频生成过程中通常会丢失身份细节。当提供多个控制图像时，生成的视频序列紧密遵循多个图像提供的序列。

ID-Animator AI头条
谷歌AI研究人员提出噪声感知训练方法（NAT）用于布局感知语言模型

在文档处理中，特别是在视觉丰富的文档中，高效信息提取的需求变得越来越关键。VRDs，如发票、水电费单和保险报价，在业务工作流中随处可见，通常以不同的布局和格式呈现类似信息。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路，标志着该领域迈出了重要的一步。

AI 语言模型 AI头条
字节跳动发布图像模型蒸馏算法Hyper-SD 推理速度更快更完美

字节跳动的Lightning团队发布的新图像模型蒸馏算法Hyper-SD，是一项在图像处理和机器学习领域的重要进展。这项技术通过创新的方法提升了模型在不同推理步骤下的性能，同时保持了模型大小的精简。随着进一步的研究和开发，Hyper-SD及其衍生技术有望在多个领域内推动AI技术的发展和应用。

Hyper AI头条

Email Generator AI Tool:Email Generator AI工具是一款帮助您高效撰写电子邮件的人工智能工具。

Email Generator AI工具可以帮助您快速、高效地生成电子邮件内容，节省您的时间和精力。

生产力工具电子邮件

MentorAI:通过，你可以向马库斯·奥勒留提问和描述生活中的问题和情况，他将提供个人指导和斯多葛哲学的建议作为回应。

MentorAI允许您提问并描述生活中的问题和情况，马库斯·奥勒留将以个人指导和斯多葛哲学的建议作为回应。它提供了与一位哲学家国王的互动体验，帮助您在生活中面对挑战时获得智慧和指导。

智慧指导哲学

TravAI:是一款AI驱动的旅行培训产品，提供交互式AI培训、模拟、评估和智能助手，为旅行行业人员提供最新的技能和知识。

TravAI是一款旅行行业的AI驱动培训产品，通过注入AI技术，为培训注入活力。它能创建引人入胜、交互式的培训课程，进行逼真的角色扮演模拟，并设计能够真正起作用的测验。同时，TravAI利用您的数据为旅行团队量身定制个性化学习体验，让培训不再是通用的、一刀切的。它是培训旅行业专业人员的更智能、更快速的方式。

旅行培训 AI

Nextminds:是一家提供在线辅导服务的平台，为所有科目和学术水平的学生提供个性化辅导。

Nextminds是一个提供在线辅导服务的平台，通过与经验丰富的导师在线互动，为学生提供个性化的学习经验。平台提供ICSE、CBSE和州委员会等多种教育体系的辅导。Nextminds的主要优点是学生可以在舒适的家中与专业的导师进行一对一的在线学习，为学生提供高质量的辅导服务。

在线辅导学习个性化

Pedagogue.io:每天花费10分钟，提升您的AI技能。

Pedagogue是一款AI技能培训平台，旨在帮助个人和企业提升AI技能。通过该平台，用户可以学习AI工具、技术和策略，并获得40%的生产力提升。Pedagogue的优势在于更新及时的内容库、个性化的技能培养、有趣的学习方式以及具有商业价值的数据驱动洞察。

AI 技能培训教育

LexiGym:你的语言学习伴侣。🚀 # #HinkouLabs

LexiGym是一款语言学习应用，帮助用户提升语言技能。它具有离线和多语言支持的创新功能，是最强大的语言学习伴侣。用户可以根据自己的预算选择免费使用或付费订阅，灵活选择学习方式。LexiGym还提供易于创建字典和智能学习等功能，以及详细的训练统计数据。

语言学习词汇训练多语言

Alevels.ai:A Levels AI是一个利用人工智能提高A Levels学习成绩的工具。

A Levels AI利用人工智能技术，提供个性化的学习计划和辅导资源，帮助学生在A Levels考试中取得优异成绩。它通过分析学生的学习情况和弱点，为其提供针对性的学习建议和练习题。A Levels AI还提供实时答疑和学习进度跟踪功能，帮助学生更好地掌握知识。

教育考试辅导人工智能

MailReply:是一款AI助手，可生成专业且人性化的邮件回复，节省时间。

MailReply通过AI生成邮件回复，帮助用户节省时间。它可以在保持人类写作风格的同时，根据邮件内容生成上下文相关的回复。MailReply适用于Windows和macOS，并兼容多种邮件客户端。

邮件回复 AI助手工具

Notification harbor:高性能团队的电子邮件营销平台

Notification harbor是一个为电子邮件营销团队提供AI优化的电子邮件内容和自动化流程的平台。通过使用LLM技术，我们可以在短短5分钟内创建高性能的电子邮件营销内容，并且随着时间的推移，产品甚至可以自我优化。我们的平台简化了电子邮件营销活动的方式，确保每个活动都能精准地与您的目标受众建立联系。AI生成的电子邮件模板根据您提供的信息和要求选择最合适的模板。实时个性化电子邮件可以提高用户参与度和转化率，并根据每个用户实时定制内容。AI驱动的电子邮件营销使您的团队在创建电子邮件模板和文本方面节省了60％的时间。

电子邮件电子邮件营销 AI优化

Magic Loops:通过结合ChatGPT自动化与代码，创建简单的自动化任务

Magic Loops是一种基于ChatGPT的自动化工具，可以连接数据、发送电子邮件、接收短信、爬取网站等功能。它能够帮助用户自动化生活中的各种任务，提高工作效率。Magic Loops的主要优点是可以与各种数据源和应用程序集成，轻松实现个性化的自动化需求。

自动化工具 ChatGPT

ReplyAuto:Reply Auto是一款AI邮件助手，能够根据上下文理解邮件内容，并提供智能回复。

Reply Auto是一款使用AI技术的邮件助手，它能够自动分析邮件内容，根据上下文提供智能回复。它的主要优点是提高工作效率，减轻用户的邮件负担，并能够个性化定制回复。Reply Auto定位于帮助用户更高效地处理电子邮件，提高工作效率。

邮件智能回复工作效率

Mailman Workcation:智能邮递员 - 自动化影响力的智能Twitter机器人

AI Mailman利用最新的人工智能技术创建世界上最准确的邮件，比人类更快速和高质量。它提供简单的用户界面，能够创建世界上最强大的邮件模板，打开率更高。使用AI Mailman创建的邮件打开率是其他方式的10倍，生成时间只需10秒。

邮件自动化影响力

Inpost:一款AI驱动的移动应用程序，可以改善个人电子邮件体验。

Inpost.ai是一款基于AI的移动应用程序，可以优化个人电子邮件体验。它帮助用户智能地组织和清理收件箱，专注于重要的电子邮件。它提供无缝的邮件交互，提供增强的安全性和独家功能。通过高级AI模型分析邮件内容，而不暴露用户的敏感信息。用户可以轻松追踪支出、管理发票，并利用促销优惠来优化个人预算。Inpost.ai还提供定制的收件箱分类，让用户能够个性化和高效地管理和优化收件箱。

电子邮件 AI 个人化

Leadog:AI驱动的冷邮件营销、线索跟踪和互动

Leadog.io是一款AI驱动的冷邮件营销平台，提供冷邮件发送、线索跟踪和互动等功能。它采用先进的AI技术来优化冷邮件营销策略，提供精确的邮件投递和跟踪，帮助用户更好地了解和转化潜在客户。

冷邮件线索跟踪营销工具

Prospect AI:一键查找网站上的电子邮件地址和联系人信息

Prospect AI是一款插件，可以帮助销售团队、数字营销人员和公关专业人员免费查找公司的联系人。它使用人工智能技术，快速获取所需的联系人信息，帮助用户拓展业务关系。

市场营销销售潜在客户

Email whisperer:写作完美邮件，让你的电子邮件沟通更上一层楼！

Email Whisperer是一个用于Gmail和Outlook的AI电子邮件编写工具。它可以帮助你轻松地写出完美的电子邮件，提供重新表达、拼写检查和修正功能。它能够提高你电子邮件的清晰度和风格，并确保邮件无错误。Email Whisperer是一个提高电子邮件写作效率的工具，让你的邮件专业而准确。

生产力电子邮件 AI工具