智源研究院开源发布新一代生成式多模态基础模型 Emu2

2023-12-22 08:16 · 稿源：站长之家

站长之家(ChinaZ.com) 12月22日消息:2023年12月21日，智源研究院发布了新一代多模态基础模型 Emu2。Emu2通过大规模自回归生成式多模态预训练，显著推动了多模态上下文学习能力的突破。

Emu2在少样本多模态理解任务上表现出色，超越了主流多模态预训练大模型 Flamingo-80B 和 IDEFICS-80B。在 VQAv2、OKVQA、MSVD、MM-Vet、TouchStone 等多个少样本理解、视觉问答、主体驱动图像生成任务上，Emu2取得了最优性能。

Emu2是目前最大的开源生成式多模态模型，基于 Emu2微调的 Emu2-Chat 和 Emu2-Gen 模型分别是目前开源的性能最强的视觉理解模型和能力最广的视觉生成模型。Emu2-Chat 可以精准理解图文指令，实现更好的信息感知、意图理解和决策规划。Emu2-Gen 可以接受图像、文本、位置交错的序列作为输入，实现灵活、可控、高质量的图像和视频生成。

微信截图_20231222081722.png

Emu2使用了更简单的建模框架，并训练了从编码器语义空间重建图像的解码器，将模型规模化到37B 参数。Emu2采用大量图、文、视频的序列，建立了基于统一自回归建模的多模态预训练框架，将图像、视频等模态的 token 序列直接和文本 token 序列交错在一起输入到模型中训练。

通过对多模态理解和生成能力的评测，Emu2在少样本理解、视觉问答、主体驱动图像生成等任务上取得了最优性能。在16-shot TextVQA 等场景下，Emu2相较于 Flamingo-80B 超过12.7个点。在 DreamBench 主体驱动图像生成测试上，Emu2比之前的方法取得了显著提升。

Emu2具备全面且强大的多模态上下文学习能力，可以照猫画虎地完成多种理解和生成任务。Emu2-Chat 经过对话数据指令微调，可以精准理解图文指令，完成多模态理解任务。Emu2-Gen 可以接受任意 prompt 序列作为输入，生成高质量的图像和视频。

Emu2的训练方法是在多模态序列中进行生成式预训练，使用统一的自回归建模方式。相比于 Emu1，Emu2采用了更简单的建模框架，训练了更好的解码器，并将模型规模化到37B 参数。

项目:https://baaivision.github.io/emu2/
模型:https://huggingface.co/BAAI/Emu2
代码:https://github.com/baaivision/Emu/Emu2
Demo:https://huggingface.co/spaces/BAAI/Emu2
论文:https://arxiv.org/abs/2312.13286

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
代码、模型全开源！贾佳亚团队多模态模型 Mini-Gemini登上热榜

香港中文大学终身教授贾佳亚团队最近推出了一款名为Mini-Gemini的多模态模型，该模型在多模态任务榜单上取得了显著成绩，其性能堪比GPT-4与DALLE3的结合。Mini-Gemini模型以其更精确的图像理解能力、更高质量的训练数据和更强的图像解析推理能力著称。这一成果不仅为开源社区带来了新的活力，也为多模态模型的发展和应用开辟了新的可能性。

Mini-Gemini AI头条
谷歌推多模态视频模型VLOGGER，自动生成丰富动作视频

谷歌的研究人员最近推出了一款名为VLOGGER的多模态扩散模型，能够自动生成带语音、丰富动作的人物视频。用户只需向VLOGGER输入图像和语音，就可以获得逼真的视频效果。VLOGGER的推出为虚拟数字人的制作提供了更便捷、高效的解决方案，同时也在多模态视频生成领域取得了重要的技术突破。

VLOGGER 谷歌 AI头条
多模态大模型Reka Core发布性能与GPT-4相媲美

RekaCore是一款最新发布的多模态大型语言模型，其性能可与GPT-4相媲美，甚至在某些方面超越了现有的前沿模型。这一技术突破为人工智能领域带来了新的里程碑，特别是在图像、视频和音频的上下文理解能力方面。随着Core的进一步优化和应用，我们有理由相信，它将在多个领域产生深远的影响，推动人工智能技术的进步和社会的发展。

多模态大模型 AI头条
Mini-Gemini:简单有效的AI框架，增强多模态视觉语言模型

中国香港中文大学和SmartMore的研究人员推出了一种名为Mini-Gemini的新颖框架，通过增强多模态输入处理来推动VLMs的发展。Mini-Gemini采用了双编码器系统和一种新颖的补丁信息挖掘技术，结合一个特别策划的高质量数据集，使其能够有效处理高分辨率图像并生成内容丰富的视觉和文本内容，从使其脱颖出。正如研究人员所承认的那样，Mini-Gemini在视觉理解和推理能力方面仍有改进�

Gemini Mini-Gemini AI头条
钉钉 AI 升级：加入多模态、工作流等能力

3月28日，钉钉AI助理进行了重磅升级，新增了图片理解、文档速读、工作流等功能。这次升级使得钉钉AI助理率先尝试了多模态和长文本处理技术，展现出更强大的能力。用户可以在钉钉APP或PC客户端直接体验这些功能，享受AI带来的便捷与高效。

AI助理图片理解文档速读
马斯克XAI发布Grok-1.5 Vision 多模态模型可处理文本和图片信息

在人工智能领域，多模态模型的发展一直是行业关注的焦点。马斯克XAI公司发布了其最新的多模态模型——Grok-1.5Vision，这一模型不仅能够处理文本信息能够理解和分析各种视觉数据，如文档、图表、截图和照片，标志着公司在人工智能技术上迈出了重要一步。随着该模型的进一步优化和应用，我们有理由相信，它将在多个领域发挥重要作用，推动人工智能技术向前发展。

Grok-1.5Vision AI头条
理想汽车 Mind GPT 多模态认知大模型通过国家备案

理想汽车宣布其全自研的多模态认知大模型——MindGPT，已正式通过国家《生成式人工智能服务管理暂行办法》的备案。这一里程碑式的事件标志着理想汽车成为首个通过该备案的汽车厂商自研大模型。它不仅支持方言自由说、指令自由说具备简洁模式以及全时全车免唤醒的能力，为用户提供了更加便捷、智能的交互体验。

理想汽车多模态认知大模型 Mind
李未可科技正式推出WAKE-AI多模态AI大模型

4月18日，2024中国生成式AI大会上李未可科技正式发布为眼镜等未来终端定向优化等自研WAKE-AI多模态大模型，具备文本生成、语言理解、图像识别及视频生成等多模态交互能力。该大模型围绕GPS轨迹视觉语音打造新一代LLM-Based的自然交互，同时多模态问答技术的加持，能实现所见即所问、所问即所得的精准服务。李未可科技合伙人&AI负责人古鉴表示WAKE-AI将逐步开放平台能力，便于更多企业及开发者调用WAKE-AI能力，共建AI硬件生态。
比Gemini Pro1.5强！可解读视频的多模态模型Pegasus-1公测

TwelveLabs最新发布了Pegasus-1的公测版本，这款视频-语言基础模型在视频理解领域取得了新突破。Pegasus-1是一款具有约17亿参数的视频-语言模型，能够以卓越的准确性和细节处理能力从视频输入中生成语言描述。Pegasus-1的不断进化与创新，为视频理解技术开辟新的可能性。

Pegasus-1 AI头条
李未可WAKE-AI大模型：让多类终端能快速低成本的定制多模态AI

36kr研究院发布了《2024年AIGC行业研究:多模态大模型与商业应用》，文中基于AIGC产业生态现状和技术发展路径，深入分析AIGC商业化应用的方向与产业发展趋势。其中在36kr研究院梳理的产业图谱中，发现杭州李未可科技与字节跳动的豆包、腾讯云混元及华为云盘古等大模型等一起出现在闭源模型层，甚至在跨模态生成应用层也占据一地。李未可科技这类结合自身业务垂类场景，提前布局中间层及终端应用层的自研大模型或许能给市场带来不小的惊喜。

AIGC 商业化应用产业发展

Nextminds:是一家提供在线辅导服务的平台，为所有科目和学术水平的学生提供个性化辅导。

Nextminds是一个提供在线辅导服务的平台，通过与经验丰富的导师在线互动，为学生提供个性化的学习经验。平台提供ICSE、CBSE和州委员会等多种教育体系的辅导。Nextminds的主要优点是学生可以在舒适的家中与专业的导师进行一对一的在线学习，为学生提供高质量的辅导服务。

在线辅导学习个性化

Pedagogue.io:每天花费10分钟，提升您的AI技能。

Pedagogue是一款AI技能培训平台，旨在帮助个人和企业提升AI技能。通过该平台，用户可以学习AI工具、技术和策略，并获得40%的生产力提升。Pedagogue的优势在于更新及时的内容库、个性化的技能培养、有趣的学习方式以及具有商业价值的数据驱动洞察。

AI 技能培训教育

LexiGym:你的语言学习伴侣。🚀 # #HinkouLabs

LexiGym是一款语言学习应用，帮助用户提升语言技能。它具有离线和多语言支持的创新功能，是最强大的语言学习伴侣。用户可以根据自己的预算选择免费使用或付费订阅，灵活选择学习方式。LexiGym还提供易于创建字典和智能学习等功能，以及详细的训练统计数据。

语言学习词汇训练多语言

Alevels.ai:A Levels AI是一个利用人工智能提高A Levels学习成绩的工具。

A Levels AI利用人工智能技术，提供个性化的学习计划和辅导资源，帮助学生在A Levels考试中取得优异成绩。它通过分析学生的学习情况和弱点，为其提供针对性的学习建议和练习题。A Levels AI还提供实时答疑和学习进度跟踪功能，帮助学生更好地掌握知识。

教育考试辅导人工智能

MailReply:是一款AI助手，可生成专业且人性化的邮件回复，节省时间。

MailReply通过AI生成邮件回复，帮助用户节省时间。它可以在保持人类写作风格的同时，根据邮件内容生成上下文相关的回复。MailReply适用于Windows和macOS，并兼容多种邮件客户端。

邮件回复 AI助手工具

Notification harbor:高性能团队的电子邮件营销平台

Notification harbor是一个为电子邮件营销团队提供AI优化的电子邮件内容和自动化流程的平台。通过使用LLM技术，我们可以在短短5分钟内创建高性能的电子邮件营销内容，并且随着时间的推移，产品甚至可以自我优化。我们的平台简化了电子邮件营销活动的方式，确保每个活动都能精准地与您的目标受众建立联系。AI生成的电子邮件模板根据您提供的信息和要求选择最合适的模板。实时个性化电子邮件可以提高用户参与度和转化率，并根据每个用户实时定制内容。AI驱动的电子邮件营销使您的团队在创建电子邮件模板和文本方面节省了60％的时间。

电子邮件电子邮件营销 AI优化

Magic Loops:通过结合ChatGPT自动化与代码，创建简单的自动化任务

Magic Loops是一种基于ChatGPT的自动化工具，可以连接数据、发送电子邮件、接收短信、爬取网站等功能。它能够帮助用户自动化生活中的各种任务，提高工作效率。Magic Loops的主要优点是可以与各种数据源和应用程序集成，轻松实现个性化的自动化需求。

自动化工具 ChatGPT

ReplyAuto:Reply Auto是一款AI邮件助手，能够根据上下文理解邮件内容，并提供智能回复。

Reply Auto是一款使用AI技术的邮件助手，它能够自动分析邮件内容，根据上下文提供智能回复。它的主要优点是提高工作效率，减轻用户的邮件负担，并能够个性化定制回复。Reply Auto定位于帮助用户更高效地处理电子邮件，提高工作效率。

邮件智能回复工作效率

Mailman Workcation:智能邮递员 - 自动化影响力的智能Twitter机器人

AI Mailman利用最新的人工智能技术创建世界上最准确的邮件，比人类更快速和高质量。它提供简单的用户界面，能够创建世界上最强大的邮件模板，打开率更高。使用AI Mailman创建的邮件打开率是其他方式的10倍，生成时间只需10秒。

邮件自动化影响力

Inpost:一款AI驱动的移动应用程序，可以改善个人电子邮件体验。

Inpost.ai是一款基于AI的移动应用程序，可以优化个人电子邮件体验。它帮助用户智能地组织和清理收件箱，专注于重要的电子邮件。它提供无缝的邮件交互，提供增强的安全性和独家功能。通过高级AI模型分析邮件内容，而不暴露用户的敏感信息。用户可以轻松追踪支出、管理发票，并利用促销优惠来优化个人预算。Inpost.ai还提供定制的收件箱分类，让用户能够个性化和高效地管理和优化收件箱。

电子邮件 AI 个人化

Leadog:AI驱动的冷邮件营销、线索跟踪和互动

Leadog.io是一款AI驱动的冷邮件营销平台，提供冷邮件发送、线索跟踪和互动等功能。它采用先进的AI技术来优化冷邮件营销策略，提供精确的邮件投递和跟踪，帮助用户更好地了解和转化潜在客户。

冷邮件线索跟踪营销工具

Prospect AI:一键查找网站上的电子邮件地址和联系人信息

Prospect AI是一款插件，可以帮助销售团队、数字营销人员和公关专业人员免费查找公司的联系人。它使用人工智能技术，快速获取所需的联系人信息，帮助用户拓展业务关系。

市场营销销售潜在客户

Email whisperer:写作完美邮件，让你的电子邮件沟通更上一层楼！

Email Whisperer是一个用于Gmail和Outlook的AI电子邮件编写工具。它可以帮助你轻松地写出完美的电子邮件，提供重新表达、拼写检查和修正功能。它能够提高你电子邮件的清晰度和风格，并确保邮件无错误。Email Whisperer是一个提高电子邮件写作效率的工具，让你的邮件专业而准确。

生产力电子邮件 AI工具

Humanize AI by AI Text Converter:将AI生成的文本转换为与人类写作相匹配的内容。

Humanize AI Text是一个免费在线的AI文本人性化转换工具，能够绕过AI检测，并将AI生成的文本转换为与人类写作相匹配的内容。

AI转换工具文本人性化 AI检测绕过

Happily.ai:使用，超越传统调查。我们的AI平台分析员工情绪，提供可操作的见解，为健康、投入、高绩效的团队提供支持。

Happily.ai是一个AI工具包，帮助人力资源和经理人通过无忧无虑的参与、认可和绩效管理来提高人才留存和团队生产力。

员工参与度人力资源绩效管理

ChatKPI:是一款基于AI的数据分析工具，可以通过文本消息跟踪销售趋势、识别热门产品、了解客户行为，提供图表、定制CSV等功能。

ChatKPI是一个AI数据分析工具，旨在帮助Shopify商家做出更明智的数据驱动决策。它可以提供实时洞察力，跟踪销售趋势，识别热门产品，了解客户行为，并通过自然语言对话提供个性化的商业洞察。ChatKPI可以通过文本消息或在Shopify商店内安装的应用程序使用。

数据分析销售趋势热门产品

Limodify.AI | Email Marketing Design Meets AI:Limodify.AI通过AI技术提供电子商务邮件创建服务。

Limodify.AI革新了电子商务邮件的创建过程，只需点击几下，选择格式，输入关键信息，即可在30秒内获得准备好发送的AI设计的邮件。节省时间，利用先进技术，精确实现您的营销目标。立即免费开始使用。

电子商务邮件营销 AI

PurplePro:使用AI技术，只需两个点击即可启动您的忠诚度俱乐部。

PurplePro是一个使用AI技术的插件，它可以帮助您在短短两个点击的时间内启动您的忠诚度俱乐部。PurplePro通过游戏化和动态的积分规则增加用户参与度，并奖励他们。它还提供了强大的推荐、挑战、问卷和可变奖励功能，帮助您将首次用户转化为忠实的客户。

忠诚度俱乐部用户参与度奖励

LISUTO:株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。

LISUTO株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。LISUTO AIは、AIタッガーやイメージタッガーなどのサービスを提供し、商品のタグ登録やナビゲーション改善などを自動化し、効率を向上させます。

データ構造化 AI eコマース

geni:免费将您的普通产品转变为非凡的产品

geni-e是一款一体化的AI产品图像解决方案，企业可以使用该解决方案自动生成更好的产品图像。通过使用我们预设的背景设置，上传产品图像或使用自定义提示生成产品图像，您可以将在线商店的形象提升到一个新的水平。

智源研究院开源发布新一代生成式多模态基础模型 Emu2

今日大家都在搜的词：

热文

站长商机