首页 > 业界 > 关键词  > 微软最新资讯  > 正文

微软 Azure 发布能跨多种模态生成内容的 CoDi 模型:同时处理和生成文本、图像、视频和音频

2023-07-11 14:03 · 稿源:站长之家

站长之家(ChinaZ.com) 7月11日消息:作为人工智能领域的一项显著进步,微软 Azure 认知服务研究中心和北卡罗来纳大学 NLP(自然语言处理)团队的研究人员日前推出了 CoDi这是一种尖端的生成模型,能够跨多个领域无缝生成高质量内容。

untitled-design_mkvx.2496.png

图片来自 Microsoft

这一突破性的发展为更全面地理解世界和人类理解提供了新的可能性,为沉浸式人机交互提供了平台,改变了人类与计算机的互动方式。

这篇名为《Any-to-Any Generation via Composable Diffusion(通过可组合扩散进行任意到任意生成)》的研究论文将 CoDi 引入作为一种创新的生成模型,能够同时处理和生成文本、图像、视频和音频等多种模态的内容。通过允许从不同输入模态的多样组合中进行协同生成内容,CoDi 在追求集成和可组合的多模态人工智能系统的过程中迈出了重要一步。

CoDi 的出现是微软雄心勃勃的 i-Code 项目的一部分,该项目致力于推进多模态人工智能能力的发展。凭借其无缝整合来自多种来源的信息并生成连贯输出的能力,CoDi 有望彻底改变人机交互的多个领域。

探索 CoDi 人工智能模型的实际应用

CoDi 在辅助技术领域具有变革性的潜力,使残障人士能够更有效地与计算机进行交互。通过在文本、图像、视频和音频等多种模态下无缝生成内容,CoDi 可以为用户提供更沉浸、更易访问的计算体验。

此外,CoDi 还有潜力通过提供全面互动的学习环境来重塑定制化学习工具。学生可以接触与各种来源整合的多模态内容,增强对学科的理解和参与度。

环境计算的概念,即技术与我们的日常生活无缝集成,也可以从 CoDi 的能力中获益匪浅。该模型能够即时生成多模态内容,为跨设备和环境的体验创造更加沉浸和个性化的体验,提升整体用户体验。

CoDi 也将彻底改变内容生成。该模型能够跨多种模态生成高质量的输出,从而简化内容创作流程并减轻创作者的负担。无论是生成引人注目的社交媒体帖子、制作互动多媒体演示,还是打造引人入胜的故事体验,CoDi 的能力有可能重塑内容生成领域的格局。

随着人工智能领域的不断进展,像 CoDi 这样的模型代表着多模态人工智能系统发展的重要里程碑。CoDi 能够无缝生成文本、图像、视频和音频的高质量内容,展示了打造更加身临其境、互联的人类人工智能未来的潜力。研究人员的工作使我们离释放人工智能在各个领域的全部潜力和彻底改变我们与计算机交互的方式又近了一步。

微软 CoDi 模型包含演示和代码的项目页面位于:codi-gen.github.io。

举报

  • 相关推荐
  • 快手进军AI Coding,开发工具、模型和Maas平台齐登场

    10月23日,快手StreamLake发布全新AI编程产品矩阵,以“工具+模型+平台”三位一体战略布局AI Coding领域。核心产品包括智能开发助手CodeFlicker、自研高性能编码模型KAT-Coder系列及企业级服务平台快手万擎。CodeFlicker提供全流程开发支持,KAT-Coder在权威测试中性能超越GPT-5,平台保障99.95%服务可用性。该生态旨在通过技术普惠,为企业与开发者提供颠覆性研发体验,推动AI编程普及。

  • 端侧AI驱动产业链变革,elexcon2026聚焦芯片/存储/嵌入式核心器件创新

    近期华为、三星、追觅、阿里巴巴等科技企业密集发布智能穿戴新品,推动设备从“手机配件”向“独立智能终端”转型。这一趋势正深刻影响上游技术路径与产业格局,在AI芯片、存储与嵌入式领域引发新一轮技术升级与价值重构。中国成为全球创新引擎,2025年第二季度全球腕戴设备出货量同比增长12.3%,中国市场增速达33.8%,占据全球近半份额。端侧AI驱动技术升级,供应�

  • OpenAI和微软的关系没那么糟,跟英伟达也没那么好

    OpenAI的动作比所有人想象的都要快。 上周二,OpenAI完成重组。其中一个重要变化是:彻底取消了与微软的排他性协议,结束了Azure长达六年的云服务独占模式。此前,OpenAI所有模型的训练、推理与部署都必须优先选择Azure,微软还享有优先购买权。 宣布与Azure“分手”后不到一周,OpenAI便火速宣布了与AWS的战略合作——双方达成一项价值380亿美元的云计算协议,OpenAI将全面接入

  • 佳能R50V双十一钜惠:漫展COS/汉服Vlog/直播带货一机搞定!

    佳能R50V微单相机以6000元内惊喜价格亮相双十一,配备全像素双核CMOS与智能对焦系统,支持人物/动物/车辆追踪。轻巧机身仅323克,优化握持设计便于外拍。具备6K超采4K录制、14种滤镜及美肤模式,竖拍界面完美适配短视频平台。USB直连实现4K60P直播供电,特写模式自动切换焦点,适合带货与教学。多档套餐覆盖从三脚架到专业滤镜,满足动漫COS、国风Vlog等多场景创作需求,是降低门槛提升品质的优选工具。

  • AI日报:腾讯发布全新ima2.0;微软发布 Copilot 一系列重磅更新;阿里夸克AI眼镜开启预售

    本文汇总近期AI领域重要动态:月之暗面再获数亿美元融资,显示资本对国产大模型的信心;Anthropic为Claude推出记忆功能,兼顾个性化与隐私保护;中科大与字节发布MoGA长视频生成模型,实现分钟级高质量生成;腾讯ima2.0升级任务模式,可自主拆解复杂流程;阿里夸克AI眼镜开启预售,融合拍摄与智能功能;微软Copilot新增群聊、记忆与Edge AI模式;Opera推出深度研究代理ODRA提升�

  • 创业者“奥斯卡”!卓世科技荣膺 HICOOL2025全球创业大赛二等奖

    10月16日,HICOOL2025全球创业者峰会在京开幕。卓世科技的“璇玑玉衡大模型+MaaS训练平台+零代码Agent平台”三位一体AI全栈方案,从全球万余项目中脱颖而出,荣获大赛二等奖。该方案在模型性能、易用性及商业化闭环方面展现世界级水准,为大模型产业化落地提供标杆路径。五年来,HICOOL累计吸引167国3.4万项目参赛,孵化16家独角兽,赛后融资总额超500亿元,已成为全球最具影响力的创业赛事之一。

  • AI日报:Hailuo 2.3发布;豆包AI编程史诗级升级;马斯克推出AI百科全书Grokipedia

    本期AI日报聚焦多领域突破:海螺AI 2.3实现视频生成技术跃升,支持双模式免费试用;豆包AI编程工具实现零基础可视化开发;马斯克推出AI百科Grokipedia;Mistral发布企业级AI开发平台;Anthropic推出金融版Claude,显著提升分析师效率;Pinterest升级AI购物助手功能;英伟达推出全能模型OmniVinci刷新性能纪录;DeepSeek模型在港大美股交易竞赛中以10.61%年化回报率夺冠。

  • OPPO ColorOS 16正式版11月升级机型公布:支持23款机型

    ColorOS 16正式版11月升级计划公布,涵盖OPPO Find X7/N3系列、一加Ace 5系列等23款机型。系统引入极光引擎、潮汐引擎及自研繁星编译器,显著提升流畅度并降低功耗。新增一键闪记功能,支持复杂图文与超长视频录制。生态互联实现突破,全面打通Apple Watch生态,支持打车、外卖等信息跨设备显示。通过软硬协同优化,为用户打造更流畅持久的操作体验。

  • OPPO ColorOS 16正式版推送:首批适配11款机型

    ColorOS 16正式版于10月30日启动推送,首批覆盖11款OPPO和一加热门机型。该系统引入极光引擎、潮汐引擎与繁星编译器三大流畅技术,实现感官、性能与底层的全方位提升。极光引擎打造业内首个“无缝隙架构”,确保全场景丝滑交互;潮汐引擎首发芯片级动态追帧技术,系统重载流畅度提升37%,功耗降低13%;繁星编译器首创安卓跨级融合编译技术,大幅提升低算力芯片性能。此次升级将增强品牌市场竞争力,为用户带来更出色的使用体验。

  • ​畅玩《战地6》,双11电脑DIY装机配置推荐

    双11期间恰逢《战地6》等热门游戏发布,是升级主机的绝佳时机。推荐一套专为FPS电竞优化的硬件组合:AMD锐龙7 9800X3D处理器凭借大缓存实现帧率爆发,技嘉B850M电竞主板配备一键超频与散热技术确保稳定输出,搭配技嘉RTX 5070魔鹰显卡支持DLSS4技术,游戏帧率最高提升6倍。三款产品性能超值,组合购买享优惠,注册后更享4年质保与免费维修服务。

今日大家都在搜的词: