首页 > 业界 > 关键词  > CoDi-2最新资讯  > 正文

任意文本、视觉、音频混合生成,多模态有了强大的基础引擎CoDi-2

2023-12-04 09:01 · 稿源: 机器之心公众号

研究者表示,CoDi-2标志着在开发全面的多模态基础模型领域取得了重大突破。今年5月,北卡罗来纳大学教堂山分校、微软提出一种可组合扩散(Composable Diffusion,简称 CoDi)模型,让一种模型统一多种模态成为可能。CoDi 不仅支持从单模态到单模态的生成,还能接收多个条件输入以及

......

本文由站长之家合作伙伴自媒体作者“机器之心公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • AI日报:智谱发布GLM-5V-Turbo多模态Coding大模型;Seedance 2.0 API正式全量开放;美团 LongCat-AudioDiT 开源

    本期AI日报聚焦多领域进展:智谱发布GLM-5V-Turbo多模态编程模型,实现视觉与编程深度融合;字节跳动火山引擎开放Seedance 2.0视频生成API;美团开源LongCat-AudioDiT,刷新语音克隆SOTA;字节豆包大模型日消耗Token破120万亿,国产模型调用量持续增长;蚂蚁数科推出专业级AI智能体DTClaw;Anthropic测试常驻代理Conway,支持独立UI与Webhook;谷歌即将开源120B参数Gemma 4模型;通义实验室发布Qwen3.6-Plus,提升编程智能体稳定性。

  • 搜狗输入法 Kuikly AI 工程化:Spec coding 的探索与落地

    本文分享了搜狗输入法团队在跨端开发框架Kuikly项目中探索AI工程化的实践经验。团队从实际需求出发,逐步沉淀出一套AI工程化方案,旨在实现需求自动关联、代码生成与效果测试的一站式AI愿景。文章指出,单纯依赖Vibe Coding模式存在需求模糊、代码质量波动等问题。为实现真正的工程化,团队从几个关键层面推进:首先,构建高质量、结构化的AI上下文文档系统,通过生成器与评估器的多轮对抗迭代,为AI提供精准的项目理解。其次,采用Spec-Kit标准化需求流程,将产品需求、设计稿转化为结构化工程文档,并由AI主导实施,使开发从“提示词即兴发挥”变为“基于明确规格的稳定执行”。实践表明,在新页面开发场景中,该模式能大幅提升效率,生成代码在架构分层、状态管理等方面符合项目要求,代码Review阶段基本无需架构返工。最后,文章展望了未来在打通D2C工具链、构建自动化验证机制以及扩展更多开发场景等方面的持续探索方向。

  • 聚焦AI+视听!itc保伦股份邀您相约2026北京InfoComm China展,共赴行业视听盛会

    北京InfoComm China 2026展会将于4月15日至17日在北京国家会议中心举行,标志着该品牌迎来二十周年里程碑。本届展会将汇聚全球400家参展企业,吸引超26,000名专业观众,集中展示AI技术应用、沉浸式体验、专业音视频与显示创新等前沿领域的最新成果。国内音视频系统解决方案服务商itc保伦股份将携六大场景展区及超15款明星产品亮相E3馆01展位,聚焦指挥中心、会议室等核心场景,呈现AI指挥调度、视频分析、智慧安防等一体化解决方案,并展示一系列行业前沿的音视频系统矩阵。展会还将提供详细的交通指南、周边酒店推荐及北京旅游攻略,方便参展观众规划行程。

  • 智微智能联合英特尔发布Gaudi2E四卡液冷工作站,赋能企业私有化AI算力

    英特尔与智微智能联合发布Gaudi2E四卡液冷工作站,为企业AI工作负载提供一站式私有化算力方案。该方案基于Xeon-W平台与四张Gaudi2E加速卡,支持三大“AI工厂”级应用场景:Token工厂实现每日5-10亿级Token生成能力;视频工厂支持电影级视频批量生产;代码工厂提供安全高效的本地化AI编程支持。产品通过一体化液冷设计实现高效散热与静音,适配办公环境,助力企业构建自主可控的AI算力基础设施。

  • 从 RTX 到 Spark:NVIDIA 为本地代理式 AI 加速 Gemma 4

    Google推出小巧、快速且具备多模态能力的Gemma4模型家族,与NVIDIA合作优化,可在各类设备上高效本地运行。该系列涵盖E2B至31B多种变体,专为从边缘设备到高性能GPU的高效部署设计。Gemma4支持推理、编码、智能体及多模态交互等丰富任务,并兼容OpenClaw等应用,实现任务自动化。用户可通过Ollama或llama.cpp在NVIDIA RTX GPU和DGX Spark上免费运行。

  • 2026 NVIDIA GTC 圆满落幕:阿丘科技携 Factory AI 亮相 GTC

    全球AI顶级盛会NVIDIA GTC 2026于3月16日至19日在美国加州圣何塞举行。NVIDIA创始人兼CEO黄仁勋发表主题演讲,揭示加速计算与AI的未来蓝图。阿丘科技以“Factory AI Pioneer”身份亮相,展示了基于NVIDIA平台的工业AI前沿技术与全场景解决方案,并与全球伙伴探讨AI与物理世界深度融合,如何重构工厂的质量与安全体系。阿丘科技还作为NVIDIA初创加速计划会员代表,在线上演讲中分享基于视觉平台的全厂AI方案。盛会虽落幕,但阿丘科技探索智能制造的旅程仍在继续。

  • 三星Music Studio画境艺术音响新品开售,双系共筑环绕声场与精致格调体验

    随着“耳朵经济”升级,消费者在追求高品质音效的同时,也注重音响设备与家居美学、情感体验的融合。三星Music+Studio画境艺术音响系列新品于4月13日开售,旨在为家庭带来沉浸式听觉享受与空间表达。其中,7系搭载3.1.1声道架构,支持高解析音频,配合Q交响乐技术,实现电视与音响协同发声,打造影院级环绕声场;5系设计简约,支持无线连接,适合多场景使用,提供便捷的高品质音乐体验。该系列重新定义了音响在家庭中的角色,融合声学科技与艺术设计,满足用户对声音、美学与情感的全方位追求。

  • 绿算技术亮相NVIDIA GTC 2026暨AI存储闭门会,分享存算协同新突破

    随着大模型推理从“可用”迈向“高效”,软硬件协同、数据通路重构与存算新架构已成为全球AI基础设施竞争的核心高地。近日,2026年NVIDIA亚太区AI存储研讨会在NVIDIA总部成功举办。作为AI存储与算力基础设施领域的创新先锋,绿算技术产品及研发中心总经理孔维海受邀出席,并在闭门会议中分享了前沿技术观点与绿算产品体系的最新进展。本次研讨会汇聚了NVIDIA、超云、DaoC

  • Colorwalk怎么火了?年轻人用色彩漫步治愈生活

    最近啊,一种名为“Colorwalk(色彩漫步)”的新型活动在年轻人当中那是火得一塌糊涂!以前大家出门散步就是随便走走,现在可不一样了,这“Colorwalk”给散步整出了新花样。 啥是“Colorwalk”呢?简单来说,就是出门前先在心里选好一种颜色,然后带着这个目标走上街头。在走路的过程中,眼睛可得放亮了,专门去寻找和捕捉所有带有这个颜色的事物,不管是街边的小花、路�

  • 京东开源图像模型JoyAI-Image-Edit:达到世界一流水平

    京东探索研究院近日开源了自研的JoyAI-Image-Edit图像模型,其核心突破在于能理解图像的三维空间结构,解决了传统AI修图空间逻辑混乱的问题。该模型具备三大空间编辑能力:视角变换、空间漫游和物体空间关系操控,并兼容15类通用编辑功能。应用场景广泛,尤其在具身智能领域,可为机器人理解世界提供关键底层能力。京东近期在AI领域动作频频,持续推动AI与产业深度融合。

今日大家都在搜的词: