跨模态

5月20日，百度文库宣布行业首发「智能画本」功能，并对用户全面开放。同时，百度文库宣布与“猪猪侠”IP达成战略合作，行业首创“3D风格AI画本”创作功能，引领“IP创作”走向人机共创时代。据悉，百度文库将联合“猪猪侠”IP版权方广东咏声动漫股份有限公司，打造全球领先的“3D+AI”智能画本解决方案，在跨模态技术、IP内容共创上展开深度合作，携手打造“猪猪侠”...

特别声明：本页面标签名称与页面内容，系网站系统为资讯内容分类自动生成，仅提供资讯内容索引使用，旨在方便用户索引相关资讯报道。如标签名称涉及商标信息，请访问商标品牌官方了解详情，请勿以本站标签页面内容为参考信息，本站与可能出现的商标名称信息不存在任何关联关系，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述反馈文件后，将会依法依规核实信息，第一时间沟通删除相关内容或断开相关链接。

与“跨模态”的相关热搜词：

相关“跨模态” 的资讯284篇

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
百度文库行业首发「智能画本」功能，跨模态AI内容创作行业领先

5月20日，百度文库宣布行业首发「智能画本」功能，并对用户全面开放。同时，百度文库宣布与“猪猪侠”IP达成战略合作，行业首创“3D风格AI画本”创作功能，引领“IP创作”走向人机共创时代。据悉，百度文库将联合“猪猪侠”IP版权方广东咏声动漫股份有限公司，打造全球领先的“3D+AI”智能画本解决方案，在跨模态技术、IP内容共创上展开深度合作，携手打造“猪猪侠”
荐零门槛用AI画漫画，跨模态内容创作进入next level

AI这把火，烧了一年多。有AI可以帮你写PPT，有的会写歌，有的能帮公司批量生成营销素材，有的擅长“量子速读”提炼长文本。AI时代的增长曲线，显然越来越陡峭了。

AI漫画
百度文库重磅发布「跨模态AI漫画及画本创作能力」，让「人人都能成为漫画师」

4月16日，Create2024百度AI开发者大会在深圳举行。百度创始人、董事长兼首席执行官李彦宏全面展示了百度文库全新推出的「智能漫画」、「智能画本」功能，引领内容创作进入跨模态时代。百度文库「一站式AI内容创作平台」在跨模态能力和场景上的延伸，将为更多普通人提供低门槛创作体验，引领全民化、大众化的内容生产浪潮。
荐走在GPT 4.5前面？3D、视频直接扔进对话框，大模型掌握跨模态推理

给你一首曲子的音频和一件乐器的3D模型，然后问你这件乐器能否演奏出这首曲子。你可以通过听觉来辨认这首曲子的音色，看它是钢琴曲还是小提琴曲又或是来自吉他;同时用视觉识别那是件什么乐器。用等价的线性投影模块替换其中一个Q-Former后，图像-3D的性能会下降一半以上，音频-视频的性能会下降超过10个点。

GPT
百度回应文心一言文生图套壳质疑：能力来自文心跨模态大模型

针对部分网友有关“文心一言文生图功能”的反馈，百度官方回应称，文心一言完全是百度自研的大语言模型，文生图能力来自文心跨模态大模型ERNIE-ViLG。在大模型训练中，百度使用的是全球互联网公开数据，符合行业惯例。百度还表示，文心一言正在大家的使用过程中不断学习和成长，请大家给自研技术和产品一点信心和时间，不传谣信谣，也希望文心一言能够给大家带来�

百度文心一言文生图
蜜度携“跨模态信息检索”与“智能校对”两大应用开启数智化新未来

在刚刚落幕的2022世界人工智能大会（WAIC）中，上海蜜度信息技术有限公司不仅与上海市人工智能行业协会主办了“数据智能与内容认知高峰论坛”，邀请数据智能领域的国内外学者共同深度探讨了技术演进与未来愿景;在展览活动中更通过“蜜小智”“蜜小度”“蜜小校”等虚拟形象，带领观众沉浸式地感受了跨模态信息检索与智能校对两大数据智能应用在具体场景中的赋能...蜜度旗下AI智能校对平台“蜜度校对通”就是基于智能校对应用而开发的专业软件......

模态 AI 场景
蜜度发布人工智能前沿应用成果MiduCMR 实现多模态信息跨模态搜索

基于MiduCMR，蜜度索骥推出跨模态检索功能，实现视频、音频、图片、文本等不同模态信息在统一语义空间中的跨模态检索；蜜度版权通推出文本、图片、视频的版权保护与监测功能，实现多模态信息融合的一站式知识产权保护...引擎从微博、论坛、App、短视频等来源的多模态信息中，提取视频、音频、图片、文本内容并对其进行单模态理解和多模态融合，将海量全媒体信息映射到统一语义空间，跨越不同模态内容间的语义鸿沟，自动理解、关联多模态间的关键要素......

蜜度信息检索人工智能技术
岩芯数智展示机器人多模态能力

在2024世界人工智能大会上，上海岩芯数智携Yan1.2多模态大模型亮相，不仅可以让大模型在手机、电脑、甚至树莓派端无损运行可以让机器人准确理解用户的模糊指令和意图。研发团队展示了一款部署Yan1.2多模态大模型的智能机器人“小智”，它能够基于Yan1.2的语音和视觉处理能力，实时识别环境、准确理解用户的模糊指令和意图，并据此控制其机械躯体高效完成各类复杂任务。当有人问“小智，你现在看到了什么”或手捧书籍邀请“小智”一同看书时，它能够基于多模态能力进行学习和创作，精确描述环境和人物特征、学习书籍信息。

人工智能多模态大模型 Yan1.2
荐中国版GPT-4o炸场：国内首个流式多模态交互模型，现场实时且丝滑

没等到GPT-4o，商汤先把《Her》给发布出来了!就在刚刚，商汤直接在现场来了个炸裂的LiveShow，话不多说，直接看效果:不仅声音非常拟人还是实时、随时可以打断的那种!它宛如被安上了一对儿眼睛，可以做到精准无误的所见即所得。就连手绘的粗糙的简笔画，AI也能俏皮地跟人类做互动:一波LiveShow秀下来，引得观众掌声连连、“哇”声一片。思路已然清晰，技术不断进步，属于A

商汤
荐 AI日报：百度文心4.0免费开放；AI lab开源超强多模态大模型；对标GPT-4o！商汤发布日日新5o

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、百度文心智能体平台免费开放文心4.0版本百度文心智能体平台最新推出的文心大模型4.0版本免费开放给公众使用，极大地扩展了平台的功能和应用范围。这一投资有望降低电影�

文心一言4.0
马上消金引入防伪大模型，打造多模态生物核验与防伪平台

全球知名权威科技刊物《麻省理工科技评论》最新发布报告显示，数字经济时代，以“Deepfake”为代表的深度换脸技术更加智能化和高度真实化。深度伪造技术被非法用于经济、政治、社会等领域，形成严重危害，深度伪造检测面临更大挑战。马上消费已将防伪大模型引入日常风控反欺诈管理流程中，呈现迭代周期短、拦截性能强、可解释性强等特性，大幅提升用户体验，实现了人机协同的金融防伪新应用模式。

Deepfake技术数字经济深度伪造检测
首个支持多模态交互的机器人平台方案！科大讯飞机器人超脑平台2.0发布

快科技6月27日消息，科大讯飞在今天的讯飞星火V4.0发布会上，还揭晓了机器人超脑平台2.0项目，将以视听融合的多模感知交互和基于大模型的机器人大脑。通过软硬件一体的方式构建机器人新交互，将讯飞星火大模型进一步赋能机器人领域。据悉，讯飞机器人超脑平台解决了机器人在嘈杂环境下听、说、理解和思考的难题。借助这套系统，机器人不仅能实现语音识别、自然语�

科大讯飞讯飞星火V4.0发布会机器人超脑平台2.0项目
松鼠Ai引领教育科技新纪元，发布全新多模态智适应教育大模型

在数字化浪潮的推动下，教育领域正经历着前所未有的变革。上海松鼠云上人工智能技术有限公司于上海盛大召开全新多模态智适应教育大模型发布会，再次引发了业界的广泛关注。我们有理由相信松鼠Ai将继续引领教育科技的新潮流和新方向。

人工智能技术教育科技多模态智适应教育
Gemini视频推理遥遥领先GPT-4o，Jeff Dean连续转发三次，首个视频多模态基准Video-MME来了

OpenAI和谷歌接连两场发布会，把AI视频推理卷到新高度。但业界还缺少可以全面评估大模型视频推理能力的基准。综合实验结果可以看出，当前的多模态大模型在视频理解，尤其是长视频理解方向仍然有很长进步空间，一方面是要提升模型的多模态长上下文理解能力，Gemini1.5Pro最高支持百万长度的上下文窗口，这是其表现优异的依仗，另一方面也亟需构建相应的高质量长视频理解数据集，这方面当下仍处于空白。

Video-MME Gemini
悦灵犀AI多模态重磅更新“视”不可挡

北京2024年6月11日，悦享控股有限公司，一家以技术驱动的新一代移动互联网基础设施与平台服务提供商今天宣布，悦灵犀AI发布2.0多模态重磅更新，采用了更加先进复杂的算法和模型，拥有更强大的应用能力，以及更全面的人工智能新交互功能。这标志着悦灵犀AI在底层技术层面取得重大突破，在应用层面实现了质的飞跃，为用户带来前所未有的应用体验，以及更加丰富、多样和真实的生成效果。悦享控股致力于以"悦享"为核心的产业生态布局，巩固和强化核心竞争力，实现长期可持续的规模化发展。

人工智能移动互联网技术驱动
生数科技完成数亿元 Pre-A 轮融资加速布局多模态大模型

生数科技完成数亿元Pre-A轮融资，该轮融资由北京市人工智能产业投资基金、百度联合领投，中关村科学城公司等跟投，启明创投等数位老股东继续支持。生数科技已经获得来自蚂蚁集团、BV百度风投、卓源亚洲、锦秋基金、达泰资本、智谱AI等机构的投资。2022年提出了Diffusion与Transformer融合架构U-ViT，进一步开源了多模态扩散模型UniDiffuser，验证了大规模训练融合架构的可行性和效果。

人工智能 Pre-A轮融资多模态技术
多模态模型再进化，已学会看图玩扑克、算“12点”

在科技领域，多模态模型的决策能力一直是研究的热点。UC伯克利等高校的研究团队提出了一种名为RL4VLM的全新强化学习框架，成功地提升了多模态大模型在决策任务上的表现。这项研究不仅为多模态模型的性能提升提供了新的思路，也为未来人工智能的发展开辟了新的可能性。

多模态模型 AI头条
多模态模型学会打扑克：表现超越GPT-4v，全新强化学习框架是关键

只用强化学习来微调，无需人类反馈，就能让多模态大模型学会做决策!这种方法得到的模型，已经学会了看图玩扑克、算“12点”等任务，表现甚至超越了GPT-4v。这是来自UC伯克利等高校最新提出的微调方法，研究阵容也是相当豪华:图灵奖三巨头之一、Meta首席AI科学家、纽约大学教授LeCunUC伯克利大牛、ALOHA团队成员SergryLevineResNeXt一作、Sora基础技术DiT作者谢赛宁香港大学数据科学学院院长、UC伯克利教授马毅该方法名为RL4VLM，论文预印本已经上线，相关代码也已在GitHub中开源。从提示词上看，这项研究采取了如下的提示过程作为多模态模型的输入，并且给出了期望的输出形式:消融实验结果表明，如果这一过程中不采用思维链，则任务成功率会出现大幅下降。

多模态模型 GPT-4v
荐多模态大模型不够灵活，谷歌DeepMind创新架构Zipper：分开训练再「压缩」

最近的一系列研究表明，纯解码器生成模型可以通过训练利用下一个token预测生成有用的表征，从成功地生成多种模态的新序列，从文本、蛋白质、音频到图像，甚至是状态序列。能够同时生成多种模态输出的多模态模型一般是通过某种形式的词汇扩展来实现的，即在预训练阶段或在后期微调阶段进行跨模态对齐。更多研究细节，可参考原论文。

多模态大模型
Soul 基于多模态模型丰富社交形式，为用户带来多重感官交互的社交盛宴

社交不仅仅局限于文字的简单传达包括视觉体验和听觉体验的全方位调动。文字、图片、视频、音频等多模态集合是线上社交的主流形式。在当今AIGC技术的迅猛发展下，Soul社交形式的不断迭代升级，可以吸引更多用户群体的目光，并成为用户们交流互动的首选平台。

社交平台 AIGC技术多模态研究
ambientGPT：开源多模态MacOS基础模型操作界面可调用GPT-4o API

一款名为ambientGPT的开源项目备受关注。这款工具是一款多模态MacOS基础模型操作界面，可以调用GPT-4oAPI或者本地开源模型进行问答，并能直接访问屏幕内容不需要截图。该技术的推出，预示着未来在智能模型应用领域将会迎来更多创新和便利。

ambientGPT GPT-4o AI头条
马斯克的xAI正努力实现Grok多模态化将支持上传照片获得文本回复

埃隆・马斯克的人工智能公司xAI正在努力为其Grok聊天机器人增加多模态输入功能。根据公开的开发者文件，埃隆·马斯克的人工智能公司xAI在向其Grok聊天机器人添加多模态输入方面取得了进展。值得注意的是，大型语言模型的基准测试经常受到批评，因为如果这些基准测试包含在它们的训练数据中，这些模型就可以在基准测试上表现良好。

xAI Grok AI头条
Meta发布类GPT-4o多模态模型Chameleon

Meta最近发布了一个名为Chameleon的多模态模型，它在多模态模型发展中设立了新的标杆。Chameleon是一个早期融合的基于token的混合模态模型家族，能够理解并生成任意顺序的图像和文本。Chameleon模型的发布，展示了Meta在多模态模型领域的重大进展，它不仅推动了多模态模型的发展，也为未来的研究和应用提供了新的可能性。

Meta Chameleon AI头条
荐国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro！稳坐端侧多模态铁王座

【新智元导读】杀疯了!一夜之间，全球最强端侧多模态模型再次刷新，仅用8B参数，击败了多模态巨无霸GeminiPro、GPT-4V。其OCR长难图识别刷新SOTA，图像编码速度暴涨150倍。我们也将持续回报社区，开源更多优秀模型、数据、infra工具等，将开源开放的星火播撒世界协作创新之苍穹。

GPT-4V
智谱开源新一代多模态大模型CogVLM2

智谱·AI最近宣布推出新一代多模态大模型CogVLM2，该模型在关键性能指标上相较于前一代CogVLM有了显著提升，同时支持8K文本长度和高达1344*1344分辨率的图像。CogVLM2在OCRbench基准上性能提升了32%，在TextVQA基准上性能提升了21.9%，显示出强大的文档图像理解能力。CogVLM2的两个模型在多个基准中取得了最先进的性能，同时在其他性能上也能达到与闭源模型相近的水平。

智慧科技人工智能大数据
面壁智能推出最新一代端侧多模态模型 MiniCPM-Llama3-V2.5

面壁智能推出了最新一代端侧多模态模型MiniCPM-Llama3-V2.5，这款模型具有超强的综合性能，能够超越GeminiPro和GPT-4V等多模态巨无霸。MiniCPM-Llama3-V2.5在OCR方面取得了SOTA的成绩，能够精准识别难图、长图和长文本。MiniCPM-Llama3-V2.5展现出了强大的多模态综合能力，为端侧AI模型的发展带来了新的突破。
GPT-4o成为全领域SOTA！基准测试远超Gemini和Claude，多模态功能远超GPT-4

【新智元导读】OpenAI半小时的发布会让很多人第一反应是直呼「失望」，但随着官网放出更多demo以及更多网友开始试用，大家才发现GPT-4o真的不可小觑，不仅在各种基准测试中稳拿第一有很多发布会从未提及的惊艳功能。OpenAI在发布会上官宣GPT-4o之后，各路大神也开始了对这个新模型的测评，结果就是，GPT-4o在多项基准测试上都展现了SOTA的实力。随着大模型之战愈演愈烈，相信对于开源和闭源的激烈讨论依旧会持续下去。

GPT-4o OpenAI
荐 Meta首发「变色龙」挑战GPT-4o，34B参数引领多模态革命！10万亿token训练刷新SOTA

【新智元导读】GPT-4o发布不到一周，首个敢于挑战王者的新模型诞生!最近，Meta团队发布了「混合模态」Chameleon，可以在单一神经网络无缝处理文本和图像。10万亿token训练的34B参数模型性能接近GPT-4V，刷新SOTA。*表示共同一作，†表示关键贡献者，‡表示工作流程负责人，♯表示项目负责人。

Meta GPT-4o
荐多模态GPT-4o来了，最先嗨起来的是一波女性用户

整场发布会最为重磅的发布之一，莫过于OpenAI团队成员对于新模型语音能力的演示，搭载了GPT-4o的ChatGPT，不仅真正实现了实时响应，可以任意打断，更重要的是，ChatGPT第一次拥有了“察言观色”的能力，它能看到用户表情，理解用户语气中的情感变化，同时能够给出不同风格、情绪的回应。更新后的ChatGPT不论是从响应速度上是其他方面，变得更像人了。长期观察用户行为，�

GPT-4o
MiniMax推出人生搭子「海螺 AI」已接入自研多模态大模型

MiniMax公司推出了一款人生搭子产品，名为「海螺AI」，也可以称为「小海螺」。这款产品可以帮助学生、职场新人、自由工作者、创作者等各类人群，作为一个外挂大脑和人生搭子，帮助化解信息过载和高速运转带来的压力。小海螺会24*7在线解决用户工作和生活中的问题，同时也希望能陪伴用户在人生的不同阶段。

人生搭子海螺AI 智能助手

热文

3 天
7天

跨模态

与“跨模态”的相关热搜词：

相关“跨模态” 的资讯284篇

热文

站长商机