首页 > 业界 > 关键词  > 微软最新资讯  > 正文

微软 Azure 发布能跨多种模态生成内容的 CoDi 模型:同时处理和生成文本、图像、视频和音频

2023-07-11 14:03 · 稿源:站长之家

站长之家(ChinaZ.com) 7月11日消息:作为人工智能领域的一项显著进步,微软 Azure 认知服务研究中心和北卡罗来纳大学 NLP(自然语言处理)团队的研究人员日前推出了 CoDi这是一种尖端的生成模型,能够跨多个领域无缝生成高质量内容。

untitled-design_mkvx.2496.png

图片来自 Microsoft

这一突破性的发展为更全面地理解世界和人类理解提供了新的可能性,为沉浸式人机交互提供了平台,改变了人类与计算机的互动方式。

这篇名为《Any-to-Any Generation via Composable Diffusion(通过可组合扩散进行任意到任意生成)》的研究论文将 CoDi 引入作为一种创新的生成模型,能够同时处理和生成文本、图像、视频和音频等多种模态的内容。通过允许从不同输入模态的多样组合中进行协同生成内容,CoDi 在追求集成和可组合的多模态人工智能系统的过程中迈出了重要一步。

CoDi 的出现是微软雄心勃勃的 i-Code 项目的一部分,该项目致力于推进多模态人工智能能力的发展。凭借其无缝整合来自多种来源的信息并生成连贯输出的能力,CoDi 有望彻底改变人机交互的多个领域。

探索 CoDi 人工智能模型的实际应用

CoDi 在辅助技术领域具有变革性的潜力,使残障人士能够更有效地与计算机进行交互。通过在文本、图像、视频和音频等多种模态下无缝生成内容,CoDi 可以为用户提供更沉浸、更易访问的计算体验。

此外,CoDi 还有潜力通过提供全面互动的学习环境来重塑定制化学习工具。学生可以接触与各种来源整合的多模态内容,增强对学科的理解和参与度。

环境计算的概念,即技术与我们的日常生活无缝集成,也可以从 CoDi 的能力中获益匪浅。该模型能够即时生成多模态内容,为跨设备和环境的体验创造更加沉浸和个性化的体验,提升整体用户体验。

CoDi 也将彻底改变内容生成。该模型能够跨多种模态生成高质量的输出,从而简化内容创作流程并减轻创作者的负担。无论是生成引人注目的社交媒体帖子、制作互动多媒体演示,还是打造引人入胜的故事体验,CoDi 的能力有可能重塑内容生成领域的格局。

随着人工智能领域的不断进展,像 CoDi 这样的模型代表着多模态人工智能系统发展的重要里程碑。CoDi 能够无缝生成文本、图像、视频和音频的高质量内容,展示了打造更加身临其境、互联的人类人工智能未来的潜力。研究人员的工作使我们离释放人工智能在各个领域的全部潜力和彻底改变我们与计算机交互的方式又近了一步。

微软 CoDi 模型包含演示和代码的项目页面位于:codi-gen.github.io。

举报

  • 相关推荐
  • 对标Sora!谷歌发布AI视频生成器Veo 3:可同时生成视频和音效

    谷歌在I/O开发者大会上发布第三代视频生成模型Veo+3,对标OpenAI的Sora。该模型不仅能基于文本和图像生成高质量视频,还能为人物对话、鸟鸣等场景自动匹配音效,实现更逼真的视听体验。目前Veo+3面向美国Gemini Ultra订阅用户,月费249.99美元,并将纳入企业级Vertex AI平台。谷歌同期还发布了升级版图像模型Imagen 4、电影制作工具Flow等AI产品。值得注意的是,谷歌在AI图像生成领域并非一帆风顺,此前Imagen 3曾因生成含历史错误的图像引发争议。

  • 火山引擎推出豆包·语音播客模型:文本秒变双人对话播客,5 秒生成热点音频!

    5月20日,火山引擎推出豆包·语音播客模型,实现文本秒转专业播客内容。该模型三大优势:1)自然流畅的双人对话效果,语音拟真度高;2)支持热点话题即时生成,5秒产出最新资讯播客;3)提供端到端创作链路,支持超长文本/网页链接转播客。相比传统AI播客,解决了内容重复、机械感强等问题。模型即将登陆豆包APP及PC端,6月11日将在火山引擎大会上展示更多功能。

  • 全球首款生成式人形机器人运动大模型发布:可根据指令生成跑步、舞蹈等连贯动作

    今日上午,国家地方共建人形机器人创新中心联合复旦大学未来信息创新学院,正式发布了全球首款生成式人形机器人运动大模型 龙跃”(MindLoongGPT)。 龙跃大模型以自然语言驱动”为核心,构建了从多模态输入到高保真动作生成的完整闭环,颠覆传统运动控制范式。 也就是说,用户无需学习专业术语或操作复杂软件,仅需像与人类对话一样发出指令,例如以优雅的姿势递

  • 多模态2025:技术路线“神仙打架”,视频生成冲上云霄

    一场大会,聚集了中国多模态大模型的“半壁江山”。 智源大会2025为期两天的论坛中,汇集了学界、创业公司和大厂等三方的热门选手,关于多模态的集中讨论达到了前所未有的热度。其中,创业公司就有爱诗科技、生数科技、Sand.ai、智象未来、Luma AI、智谱等六家公司创始人、CEO分享心得;隶属大厂队的字节、腾讯、百度的多模态技术负责人,以及学术界的人大和MIT(麻省�

  • 豆包大模型1.6发布:全球第一梯队!可生成1080p高品质视频

    字节跳动旗下豆包大模型正式升级为1.6版,在推理、数学、指令遵循、Agent等方面的能力均有较大提升,同时豆包视频生成模型Seedance 1.0 pro、豆包语音播客模型也正式发布。 豆包大模型1.6包括三部分,分别是豆包1.6、豆包1.6-thinking、豆包1.6-flash。 其中,豆包1.6支持on/off/auto三种思考模式,豆包1.6-thinking强化了思考能力,支持多模态,在多个权威测评集上达到了全球第一梯队�

  • 如何用 DeepSeek 生成星球日更内容

    本文介绍如何利用DeepSeek工具高效生成星球日更内容。主要内容包括:1.注册登录DeepSeek官网进入对话界面;2.输入精准指令获取内容,如"生成7篇藏马鸡主题的星球日更";3.对生成内容进行相关性、实用性评估;4.通过补充指令优化不满意内容。该工具能快速提供多样化素材,解决持续创作压力,经过多次调整可获得符合定位的优质内容。操作流程简单,适合自媒体运营和社群内容创作。

  • 快手可灵AI上线2.1系列模型:生成5秒视频不到1分钟

    快手旗下可灵AI发布2.1系列模型,包含720p标准版和1080p高品质版,在性价比、生成速度和质量三大维度实现突破。新模型生成5秒视频仅需20-35灵感值,与上代保持相同成本;1080p视频生成时间不到1分钟,快于行业同级产品2-3倍。模型在动态表现、物理模拟和语义理解方面均有优化,人物动作更真实自然。可灵AI自发布以来发展迅猛,全球用户突破2200万,月活增长25倍,累计生成1.68亿视频和3.44亿图片。商业化进程加速,2025年Q1营收超1.5亿元人民币,展现强劲市场潜力。

  • 如何用 DeepSeek 生成周会临时发言内容

    本文介绍如何利用DeepSeek AI工具快速生成三种实用会议发言模板:1)进度汇报模板,包含已完成事项、当前进展和所需支持;2)提建议模板,包括现象观察、建议方案和预期效果;3)甩锅模板,说明影响因素、已采取措施和协作建议。操作步骤为:登录DeepSeek官网,输入指定格式指令,AI会自动生成模板内容,用户可根据实际情况替换变量、补充具体数据。该工具能帮助职场人士高效准备结构清晰、逻辑严谨的会议发言,适用于工作汇报、应急沟通等场景。

  • 如何用deepseek生成短视频脚本

    本文介绍如何利用DeepSeek工具快速生成30秒短视频脚本。该工具可根据用户需求,自动生成包含开场悬念、核心干货、反转情节和结尾互动的优质脚本。操作流程包括:1.登录DeepSeek官网;2.输入具体指令(如"生成洗发水广告脚本,需包含开场悬念+3个核心干货+结尾互动");3.检查并优化脚本内容;4.补充画面风格、背景音乐等细节。通过多次指令调整可获得更理想的脚本

  • AI日报:MiniMax推视频生成模型Hailuo 02;Cursor Pro取消500次请求限制;谷歌发布AI模型 Gemini 2.5 Flash-Lite

    本文汇总了AI领域最新动态:1)Cursor Pro取消500次请求限制;2)稀宇科技推出视频生成模型Hailuo02;3)谷歌发布轻量级AI模型Gemini2.5Flash-Lite;4)科大讯飞星火X1升级版7月上线;5)腾讯元宝推出AI编程模式;6)OpenAI将下架GPT-4.5 API;7)苹果Speech API转录速度超Whisper 55%;8)百度推出数字人互动直播间;9)Meta曾试图高薪挖角OpenAI人才;10)Krea1公测开放,解决"AI感"问题;11)特斯拉Grok车载AI助手即将上线;12)谷歌Gemini新增视频分析功能。