阿里达摩院公布多模态对话专利：丰富人机对话方式

2023-03-26 16:18 · 稿源：快科技

近日，阿里巴巴达摩院（杭州）科技有限公司申请的多模态对话方式、装置、设备及存储介质”专利获批公布（申请公布号：CN115840841A）。

根据摘要显示的信息，该专利涉及一种多模态对话方法、装置、设备及存储介质。

专利通过获取与同一问题关联的多模态信息，对所述多模态信息进行意图识别，得到意图信息，并对所述多模态信息进行槽位识别，得到一个或多个槽位值。

然后，根据所述意图信息和所述一个或多个槽位值，生成该多模态信息对应的一个或多个回复信息，使得用户可以通过多种模态信息对同一问题和该问题针对的目标对象进行描述。

这使得人机对话系统可以从多个模态理解同一问题，并针对同一问题生成一个或多个回复信息，如果是多个回复信息，则多个回复信息的模态不同，从而实现了多模态对话，使得用户和人机对话系统之间的对话方式灵活多样，提高了用户体验。

阿里达摩院公布多模态对话专利：丰富人机对话方式

值得一提的是，根据此前消息，阿里达摩院正在进行类似ChatGPT的生成式人工智能研发，并已经开放给公司内部员工进行测试。

此次公布的专利，与达摩院在AI方面的研究也有着密不可分的关系。

（举报）

相关推荐

关键词：

荐多模态和Agent成为大厂AI的新赛点

这是《窄播Weekly》的第52期，本期我们关注的商业动态是:当大厂的AI竞争策略开始倾斜向应用场景，多模态能力和代理执行成为两个焦点。大模型落地C端场景的核心，就是让大模型的能力越来越接近人。沿着这个主旋律，可以划分出两个进化方向:一个是持续降低用户与大模型进行有效沟通的难度;另一个则是让大模型具备执行更复杂任务的能力。前者的实现，需要给到大模型多

AI竞争策略多模态能力大模型应用
荐多模态和Agent成为大厂AI的新赛点

本期《窄播Weekly》聚焦AI大厂竞争策略向应用场景倾斜的趋势，重点分析了多模态能力和代理执行两大发展方向。文章指出，大模型落地的核心在于让人机交互更自然，具体表现为：1）通过多模态技术降低用户使用门槛，如阿里夸克新推出的"拍照问夸克"功能；2）通过代理执行提升复杂任务处理能力，如字节、百度等推出的通用Agent产品。国内外厂商路径差异明显：国�

AI应用场景多模态能力代理执行
可灵AI发布全新2.0模型：上线多模态视频编辑功能

快科技4月16日消息，据报道，可灵AI在北京举行灵感成真”2.0模型发布会，正式发布可灵2.0视频生成模型及可图2.0图像生成模型。据介绍，可灵2.0模型在动态质量、语义响应、画面美学等维度保持领先；可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显著提升。3月27日，全球AI基准测试机构Artificial Analysis发布了最新的全球视频生成大模型榜单，快手可灵1.6pro（高品质模

可灵AI 视频生成模型图像生成模型
紫东太初多模态RAG全新发布：端到端问答准确率提升33%

在产业智能化进程中，如何高效融合企业专有知识资产，构建领域专属认知引擎，是企业迈向智能决策与高效运营的关键。然而，传统检索增强生成(RAG)技术受限于语言单模态处理能力，仅能实现文本知识库与文本查询之间的浅层理解，难以满足复杂业务场景的需求，在实际应用中暴露出两大缺陷:信息表征缺失:忽略知识库中多模态富文档的视觉语义信息，如版面结构、图表关�

产业智能化企业知识资产多模态检索
荐UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成

复旦大学与美团研究者提出UniToken框架，首次在统一模型中实现图文理解与生成任务的"双优表现"。该方案融合连续和离散视觉编码，有效解决了传统多模态建模中的"任务干扰"和"表示割裂"问题。通过三阶段训练策略（视觉语义对齐、多任务联合训练、指令强化微调），UniToken在多个基准测试中性能超越专用模型。其创新性体现在：1）统一的双边视觉编码

UniToken 多模态建模视觉编码
业界唯一！百度网盘上线多模态AI笔记效率提升10倍

快科技5月2日消息，过往，用户在通过视频学习并记录笔记时，总免不了要不停切换平台软件，暂停、截屏、记录、插图、批注、切换返回视频过程繁琐而低效。为了应对这种情况，百度网盘和百度文库联合研发上线了AI笔记”，支持全自动学习、半自动学习、辅助学习三种模式。如今只要在网盘里面任意打开一个学习视频，在右侧就能看到AI笔记”功能，用户可以自主输入内容，也可以让其直接生成图文并茂、结构清晰的笔记。而且每个重要知识点旁会有时间戳，点击时间戳即可跳转到视频中对应位置，实现视频和笔记内容的顺滑关联。此外AI笔记”还可以帮

百度网盘 AI笔记视频学习
开源即支持！基于昇腾MindSpeed MM玩转InternVL3多模态理解最新模型

多模态理解领域当前已成了各家AI大模型公司“军备竞赛”的关键点之一，国内外知名AI大模型公司都争相通过发布最先进的多模态大语言模型展现其在多模态理解领域的前沿能力。近期，上海AI实验室推出了其最新的多模态大语言模型InternVL3 系列，相比上一代InternVL2. 5 模型，该模型展现出卓越的多模态感知和推理能力，同时进一步扩展了其工具使用、GUI代理、工业图像分析等

多模态理解 AI大模型 InternVL3
荐AI日报：国内首个多模态AI程序员上岗；字节启动Top Seed计划招募AI人才；DeepSeek R1T Chimera上线OpenRouter

【AI日报】今日AI领域重要动态：1.百度发布文心快码3.5及多模态AI程序员"文心快码Comate Zulu"，提升开发效率；2.字节跳动启动"Top Seed"计划，招募30名AI博士人才；3.DeepSeek开源R1T Chimera模型上线OpenRouter平台；4.阿里AI工程师余亮获"全国劳动模范"称号；5.开源图像编辑工具Step1X-Edit登陆Hugging Face，性能媲美GPT-4o；6.谷歌被曝每月向三星支付巨额资金预装Gemini应用

人工智能 AI编程工具多模态交互
荐独家对话adidas：打破成交纪录，找到中国市场的增长“心法”

中国运动户外市场正经历前所未有的高速增长，据行业预测，2025年中国运动服饰市场规模将突破6000亿元，年增速超10%，运动户外领域的服饰、鞋类以及垂类用品等非标产品不断推陈出新，两个变化正在悄然影响整个行业:一是行业再也无法凭借“一个爆款、多年不愁”的打法通吃市场，品牌既要做优产品、又要做精营销，才能持续满足和触达消费者;二是运动户外产品的高频次�

运动市场户外服饰品牌营销
荐全球首部AI电影登陆院线：70分钟的长片，AI怎么做？｜对话主创

全球首部AI长片《海上女王郑一嫂》在新加坡上映，标志着AI影视制作进入新阶段。该片由FizzDragon团队耗时两年完成，通过AI技术生成70分钟完整剧情和流畅画面，突破了AI内容时长限制。制作过程中面临剧本复杂度、人物一致性、镜头调度等挑战，团队采用分镜训练AI、后期人工修正等方式解决技术瓶颈。影片原型为传奇女海盗郑一嫂，展现了女性在男性主导领域的奋斗历程。文章指出AI影视制作已从短片扩展到长片领域，但技术仍存在局限：长镜头和复杂对白处理困难，人物形象难以保持完全一致。Netflix、芒果TV等平台已尝试AI动画和综艺制作，而《流浪地球2》《封神第一部》等商业大片也运用AI技术提升特效效率。业内态度从抵触转向接纳，AI可降低60%重复性工作成本，成为创作效率的"双轮驱动"。快手、字节等互联网大厂加速开发AI工具，推动影视工业基建完善。专家认为AI不会完全取代人类创作，而是成为提升质量与效率的新工具，为行业带来新的解题思路。

AI影视制作 AIGC动画短片 AI导演综艺

热文

3 天
7天

阿里达摩院公布多模态对话专利：丰富人机对话方式

荐多模态和Agent成为大厂AI的新赛点

荐多模态和Agent成为大厂AI的新赛点

可灵AI发布全新2.0模型：上线多模态视频编辑功能

紫东太初多模态RAG全新发布：端到端问答准确率提升33%

荐UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成

业界唯一！百度网盘上线多模态AI笔记效率提升10倍

开源即支持！基于昇腾MindSpeed MM玩转InternVL3多模态理解最新模型

荐AI日报：国内首个多模态AI程序员上岗；字节启动Top Seed计划招募AI人才；DeepSeek R1T Chimera上线OpenRouter

荐独家对话adidas：打破成交纪录，找到中国市场的增长“心法”

荐全球首部AI电影登陆院线：70分钟的长片，AI怎么做？｜对话主创

热文

AI侵权纠纷愈演愈烈，特朗普罢免美国版权主管

三星、LG本月开始为iPhone 17批量生产OLED面板

在由人类创造的“AI驱动”的世界里，人类该何去何从？

2027 年太晚了？随着竞争加剧，iPhone 已失去光彩

C++创始人：需要改变的不是语言，而是开发者的思维方式！

隐私被抛弃，监控成为主流？Meta为其AI眼镜新增人脸识别功能

Anthropic推出Claude网络搜索API，押注“后谷歌时代”信息访问

苹果高管称：10 年后，可能 iPhone 将不复存在！

特朗普关税政策颠覆汽车行业，福特率先开启“涨价潮”！

AI侵权纠纷愈演愈烈，特朗普罢免美国版权主管

三星、LG本月开始为iPhone 17批量生产OLED面板

基于安卓16的三星 One UI 8 本月发布首个测试版本

在由人类创造的“AI驱动”的世界里，人类该何去何从？

苹果“为彼此创造”不再？听乔纳森·艾维忆往昔、谈传承

每年多付1230亿美元？特朗普关税或将“掏空”美国人的钱包

站长商机