南开大学与字节跳动研究人员推出开源AI工具ChatAnything：用文本描述生成虚拟角色

2023-11-22 14:08 · 稿源：站长之家

划重点:
1. 🎭 **ChatAnything框架介绍**:南开大学与字节跳动研究人员合作推出一种名为ChatAnything的新型框架，旨在以在线方式生成基于大型语言模型（LLM）的角色的拟人化形象。
2. 🗣️ **MoV和MoD创新概念**:研究团队提出了两个创新概念，即“混合声音”（MoV）和“扩散混合”(MoD)，用于实现声音和外观的多样生成。MoV利用文本到语音算法生成预定义音调，而MoD结合文本到图像生成技术和说话头算法简化生成交互式对象的过程。
3. 🧠 **ChatAnything框架的挑战与解决方案**:研究人员在使用当前模型生成的拟人化对象时遇到了检测困难，提出通过像素级引导注入人脸关键点以增加检测率。他们还介绍了ChatAnything框架的四个主要模块，包括LLM控制模块、肖像初始化器、文本到语音模块混合和动作生成模块。

站长之家（ChinaZ.com）11月22日消息:南开大学与字节跳动研究人员合作推出了一项引人注目的研究，发布了一种名为ChatAnything的全新AI框架。该框架专注于通过在线方式生成基于大型语言模型（LLM）的角色的拟人化形象，从而创造具有定制视觉外观、个性和语调的人物。

简答的说，ChatAnything是一个创新的产品，利用语言模型技术为LLM角色创建具有视觉外观、个性和语调的拟人化角色。通过混合语音和外观生成概念，用户只需几个文本输入即可定制角色。该产品采用面部标志控制和评估数据集，通过像素级引导实现更高的人类面部特征生成率。ChatAnything支持文本和图像输入，为用户提供创造独特虚拟角色的自由度。

研究团队充分利用了LLMs的上下文学习能力，通过精心设计的系统提示生成具有个性的拟人化形象。他们提出了两个创新概念:混合声音（MoV）和扩散混合(MoD)，以实现声音和外观的多样生成。MoV使用文本到语音(TTS)算法生成预定义音调，根据用户提供的文本描述选择最匹配的音调。而MoD则结合了文本到图像生成技术和说话头算法，简化了生成交互式对象的过程。

然而，研究人员在使用当前模型生成的拟人化对象时遇到了一个挑战，即这些对象通常无法被预先训练的面部关键点检测器检测到，导致面部运动生成失败。为了解决这个问题，他们在图像生成过程中引入了像素级的引导，注入人脸关键点，显著提高了面部关键点检测率，从而实现了基于生成的语音内容的自动面部动画。

研究人员在论文中详细讨论了大型语言模型（LLMs）的最新进展以及它们在上下文学习方面的能力，将它们置于学术讨论的前沿。他们强调了需要一个能够生成具有定制个性、语音和视觉外观的LLM增强人物的框架的重要性。对于个性生成，他们利用LLMs的上下文学习能力，使用文本到语音(TTS)API创建了一个声音模块池，MoV模块根据用户文本输入选择音调。

研究人员进一步介绍了ChatAnything框架的四个主要模块，包括LLM控制模块、肖像初始化器、文本到语音模块混合和动作生成模块。他们通过引入扩散模型、语音变换器和结构控制，创建了一个模块化和灵活的系统。为了验证引导扩散的有效性，研究人员创建了一个包含不同类别提示的验证数据集，并使用预训练的面部关键点检测器评估了面部关键点检测率，展示了他们提出的方法的影响。

ChatAnything框架为生成具有拟人特征的LLM增强人物提供了全面的解决方案。研究人员在解决面部关键点检测方面提出了创新性的解决方案，并在验证数据集中取得了令人鼓舞的结果。这项工作为将生成模型与说话头算法相结合以及改善数据分布的对齐提供了未来研究的可能性。

项目地址:https://chatanything.github.io

相关论文:https://arxiv.org/abs/2311.06772作者:AI_Fox https://www.bilibili.com/read/cv27716378/?jump_opus=1出处:bilibili

（举报）

相关推荐

关键词：

荐AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking；阿里开源Wan-Animate模型革新AI视频生成；字节跳动发布豆包翻译模型，支持28种语言互译；华为与浙大联合推出安全大模型DeepSeek-R1-Safe；阿里云即将发布跨模态模型Qwen3-Omni；xAI推出计算成本降低98%的Grok4Fast模型；YouTube发布多项AI创作辅助功能；IBM推出轻量级文档处理模型Granite-Docling-258M；中科院发布类脑大模型SpikingBrain实现百倍速度突破；OpenAI将推出仅限Pro用户的计算密集型新功能。

AI日报美团大模型 LongCat-Flash-Thinking
ChatExcel重磅发布：基于AMD锐龙AI MAX+ 395处理器的数据分析Mini AI 工作站

ChatExcel发布搭载AMD锐龙AI MAX+395处理器的Mini AI工作站，重构数据全链路，打造“找数-做数-分析数-看数-用数”的商业闭环平台。依托处理器96GB超大显存和统一内存架构，实现本地流畅运行GPT-oss-120B等大型模型，保障数据安全的同时显著提升分析效率。该方案以财务场景为例，支持多任务并行处理，将原本需1天完成的月度报表压缩至2小时，解决“数据不外发”与“高效处理”的核心矛盾。

文章搜索核心标签 AMD锐龙AI
美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

9月23日，美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。该模型在保持极致速度的同时，性能更强大、更专业，在逻辑、数学、代码、智能体等多个领域的推理任务中达到全球开源模型最先进水平（SOTA），部分任务性能接近闭源模型GPT5-Thinking。它增强了智能体自主调用工具能力，扩展了形式化定理证明能力，成为国内首个结合深度思考、工具调用与非形式化、形式化推理的大语言模型。在数学、代码、智能体等高复杂度任务上表现尤为突出，多项基准测试成绩领先开源及闭源顶尖模型，已在HuggingFace、Github全面开源。

高效推理模型 LongCat-Flash-Thinking 开源模型
荐AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Coding大模型；苹果悄然研发ChatGPT式应用

快手发布KAT系列代码大模型，腾讯推出“混元图像3.0”实现多模态突破，苹果研发类ChatGPT应用升级Siri，谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型，YouTube Music测试AI音乐主播功能，VideoFrom3D框架简化3D视频生成，Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型，展现强大性能。

AI日报快手KAT系列大模型
续科天下发布全新XUKE TECH产品体系，为AI时代构建可靠数据基石

续科天下发布XUKE TECH完整AI数据处理系统，推出Base、Embed、Vault三款核心产品，解决企业AI化过程中的非结构化数据处理难题。该系统能统一处理多模态数据，通过向量化转换和安全存储管理，形成端到端解决方案，帮助企业将70%的数据预处理精力转向模型开发，显著缩短AI项目上线周期，已在金融、互联网等领域验证实效。

AI数据预处理非结构化数据处理智能数据基础设施
女子用ChatGPT选号中百万大奖全部捐出帮助有需要的人

美国弗吉尼亚州女子卡丽爱德华为非经常购彩者，近日通过手机向ChatGPT询问彩票号码建议，AI提供几组数字供参考。她购买后幸运中得15万美元（约106万元人民币）大奖。领奖时她当场宣布将全部奖金捐出，帮助有需要的人，并表示自己已足够幸运，希望以此鼓励其他中奖者回馈社会。

ChatGPT 彩票中奖 AI推荐
Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

Reviews.ai是一个消费者反馈聚合平台，帮助品牌将客户评论转化为可执行的洞察。该平台专注于评论分析，通过AI驱动功能（如按需报告、主题分类和智能代理）提升产品与服务。近期从Review Monitor更名后，团队迁移至DigitalOcean云平台，解决了原有专用服务器架构的扩展瓶颈。迁移过程在合作伙伴Aquazeel支持下高效完成，仅用数周，成本降低近30%。新架构采用Droplets、托管数据库和负载均衡器，支持灵活扩展。未来计划利用GPU Droplets增强AI能力，进一步优化大型语言模型处理效率。

消费者反馈品牌洞察评论分析
曝苹果为新Siri做了内部版ChatGPT 正测试搜索个人数据、执行App内操作等功能

苹果公司正在开发一款类似ChatGPT的手机应用“Veritas”，用于内部测试明年将推出的新版Siri。该应用可快速评估Siri新功能，包括搜索个人数据、执行App内操作（如编辑照片）等。虽然不面向消费者发布，但该工具标志着苹果对Siri的全面升级已进入新阶段，旨在帮助员工高效完成测试。

苹果 Siri ChatGPT
StarRocks Connect 2025 圆满落幕：AI Native 时代，数据分析未来已来

StarRocks Connect 2025峰会圆满落幕，聚焦AI Native时代的数据分析未来。活动汇聚全球开发者与行业专家，分享StarRocks在复杂业务场景中的实践，探讨技术演进方向。从性能引擎到AI原生平台，StarRocks 4.0将支持多智能体协作框架，提升数据分析效率。多家企业展示应用案例，覆盖电商、金融、旅游等领域，验证了其高性能与成本优势。开源精神推动技术创新，共同探索数据智能的无限可能。

StarRocks 数据分析 AI
数贸会今日开幕！每日互动展台人气火爆，GAI Station引领AI办公新体验

2025全球数字贸易博览会于9月25日在杭州开幕。每日互动公司（展位7A-T022）集中展示了AI产业实践与数据流通领域成果，重点推出10万元级智能工作站GAI+Station，集成写作、会议纪要、智能问答等功能，内置8大模型能力，破解成本与安全痛点。其“发数站”战略打通数据高效流通链路，已在医疗、交通等多领域落地，“数智绿波”应用覆盖全国30多个省市，通行效率提升20%以上。此外，AITA超级营销助手实现升级，机器狗互动表演吸引关注。展会期间将举办10余场专业发布，涵盖数据要素、大模型应用等行业实战，助力企业把握数字化机遇。

2025全球数字贸易博览会每日互动 AI产业实践

今日大家都在搜的词：

热文

3 天
7天

南开大学与字节跳动研究人员推出开源AI工具ChatAnything：用文本描述生成虚拟角色

荐AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

ChatExcel重磅发布：基于AMD锐龙AI MAX+ 395处理器的数据分析Mini AI 工作站

美团发布高效推理模型LongCat-Flash-Thinking：部分性能接近GPT5

荐AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Coding大模型；苹果悄然研发ChatGPT式应用

续科天下发布全新XUKE TECH产品体系，为AI时代构建可靠数据基石

女子用ChatGPT选号中百万大奖全部捐出帮助有需要的人

Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

曝苹果为新Siri做了内部版ChatGPT 正测试搜索个人数据、执行App内操作等功能

StarRocks Connect 2025 圆满落幕：AI Native 时代，数据分析未来已来

数贸会今日开幕！每日互动展台人气火爆，GAI Station引领AI办公新体验

今日大家都在搜的词：

热文

苹果iOS18.7.1正式版更新发布重要安全修复

OPPO A6开售：售价1599元起搭载7000mAh六年长寿电池

AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型

罗永浩替小米说公道话：海报小字是行业陋习

腾讯QQ闪传功能上线支持单文件最大10GB传输

苹果iOS 26.0.1正式版发布：修复iPhone 17系列Wi-Fi、拍照等Bu

OPPO Find X9系列定档：10月16日发布

鸿蒙智行享界S9T上市13天大定破 15000 台

王腾小红书账号注销快手账号已被封禁抖音账号已私密视频号已

鸿蒙智行9月交付新车52916台：全系累计交付突破95万台

小米17破今年国产手机首销纪录卢伟冰：需求远超预期

苹果iOS18.7.1正式版更新发布重要安全修复

苹果将推出iPhone 17e：搭载A19 芯片支持灵动岛

OPPO A6开售：售价1599元起搭载7000mAh六年长寿电池

小米17系列开售5分钟破25年国产手机首销纪录

AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型

AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠

AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Co

iPhone调休闹钟上热搜苹果客服回应：需手动设置

小米17/Pro/Pro Max今日首销：4499元起

站长商机