首页 > AI头条  > 正文

AI图像编辑突破!字节跳动与港中大等联合开源DreamOmni2 解决AI理解抽象概念难题

2025-10-27 14:11 · 来源: AIbase基地

 在人工智能图像编辑与生成领域,一项新的突破性技术引起了广泛关注。字节跳动与香港中文大学、香港科技大学和香港大学联合研发的 DreamOmni2系统,已正式开源,标志着图像编辑生成技术的最新发展。

DreamOmni2的推出,致力于提升人工智能在图像处理中的指令遵循能力,实现了真正的多模态指令理解。这一系统能够同时理解文本指令与参考图像,显著改善了以往模型在处理抽象概念(如风格、材质、光照)时的局限性。用户与 AI 之间的交互更加自然,仿佛与一个了解自己意图的合作伙伴对话。

QQ20251027-141041.png

为了训练 AI 理解复杂的文本和图像指令,DreamOmni2的研发团队开发了一套创新的三阶段流程。首先,通过训练提取模型,AI 能够精准提取图像中的特定元素或抽象属性。接着,利用提取模型生成多模态指令编辑数据,形成包含源图像、指令、参考图像和目标图像的训练样本。最后,通过进一步提取与组合生成更多参考图像,构建出丰富的多模态指令生成数据集。这一系列步骤为系统的高质量训练打下了坚实基础。

QQ20251027-141058.png

在模型架构方面,DreamOmni2提出了索引编码和位置编码偏移方案,确保模型能够准确识别多张输入图像。同时,引入视觉语言模型(VLM),有效解决了用户指令与模型理解之间的鸿沟。这种创新设计提升了系统在处理指令时的准确性,使其能够更好地理解用户的真实意图。

经过测试,DreamOmni2在多模态指令编辑任务上的表现超越了所有参与比较的开源模型,接近顶尖商业模型。与传统的商业模型相比,DreamOmni2在处理复杂指令时,能够提供更高的准确性和一致性,避免了不必要的变更和图像瑕疵。

DreamOmni2的开源,不仅为 AI 创作提供了新的可能性,也为相关领域的研究者提供了统一的评判标准。这一技术的发布,预示着 AI 图像编辑与生成领域即将迎来新的革命。对于未来的发展,业内专家表示,DreamOmni2的成功将极大推动 AI 技术的普及和应用。

  • 相关推荐
  • 豆包语音合成模型 2.0 重磅升级,语义理解 + 情感演绎双突破

    10月16日,火山引擎升级豆包语音合成模型2.0与声音复刻模型2.0。新模型基于大语言模型架构,具备深度语义理解能力,实现从文本朗读到情感表达的进化。对话式合成支持多轮交互,声音复刻仅需5秒即可还原音色。针对教育场景优化,复杂公式符号朗读准确率达90%,覆盖数学、化学等全学科。目前模型已在火山引擎语音平台上线,为OPPO、Keep等客户提供多场景语音服务。

  • AI日报:微软发布首款自研图像生成模型 MAI-Image-1;百度世界大会时间公布;AI大牛开源nanochat教学工具

    微软发布首款自研图像生成模型MAI-Image-1,跻身LMArena前十,注重实用性与光影效果;百度世界2025大会将聚焦大模型与AI全球化战略;Meta新技术使RAG推理速度提升30倍;开源项目nanochat实现低成本构建聊天AI;谷歌NotebookLM新增动漫视频生成功能;中国农大发布神农大模型3.0助力智慧农业;腾讯启动"青云奖学金"培养AI人才;苹果FS-DFM模型长文本生成效率提升128倍;谷歌Lens整合AI图像编辑功能;港大与美团提出CodePlot-CoT方法,通过代码绘图解决数学难题,性能提升21%。

  • 百度百科词条总量突破3000万,联合《大学科普》等多机构推出科普专刊

    10月24日,百度百科联合《大学科普》推出“繁星计划”主题专刊,作为该刊2025年第3期面向全国高校发行,助力权威科普传播。同日,繁星计划新增北京林业大学林学院等5家合作机构,扩大行业影响力。该计划自2024年12月启动,已联合10万专家、500家机构共建超100万专业词条,百度百科词条总量突破3000万。通过与权威期刊合作,百度百科旨在为高校学子搭建连接前沿科学与知识普及的桥梁,践行“让知识轻松可及”的使命。

  • 阿里云与天猫启动“AI新品类联合计划” ,支持智能硬件规模化发展

    2025年9月24日,阿里云与天猫在杭州云栖大会联合启动“AI新品类联合计划”,旨在依托阿里云AI技术及天猫电商平台,为智能硬件企业构建从产品创新到商业落地的闭环。计划覆盖XR设备、机器人、无人机等品类,提供专项组织保障、定制化政策、资源倾斜及技术支持。双方将共同推动AI硬件产业发展,天猫平台已优化eSIM服务、搜索推荐、以旧换新及渠道对接,助力产品转化。数据显示,智能眼镜、机器人等品类增长显著,平台生态持续扩大,AI硬件将成为2025年双十一大促重点品类。

  • 闪开十年:深耕目的地充电,以联合运营模式引领行业变革

    扎根浙江的闪开公司以社区场景为核心,通过创新商业模式推动目的地能源消费变革。十年间,从电动自行车充电桩切入,构建“产品免费投放+联合运营”模式,实现资源与风险共担。业务拓展至新能源充电桩,形成“桩+桩+灯”组合,覆盖全国321城7万场景,投放充电设备超40万台。公司建立全链路安全防护体系,累计完成充电服务超10亿次,并与2000余家运营商共建合作网络,持续引领社区能源服务标准化与规模化发展。

  • 他提前马斯克7年就提出了硅基生命的概念

    中国创业者司马华鹏于2017年首次系统提出“硅基生命”概念,比马斯克公开讨论类似理念早七年。他构建了完整理论框架,强调硅基生命与碳基生命的“共生进化”关系,体现东方“天人合一”哲学。相比之下,马斯克2024年提出的概念更侧重“竞争进化”与风险意识。七年来,司马华鹏带领团队专注技术实践,从数字人研发到多模态AI系统,逐步推出拟人化数字生命体。尽管其贡献因语言壁垒和低调作风未被国际广泛认知,但技术积累与东方智慧正日益获得认可。

  • 专访金蝶智慧记:AI赋能小微商户,实现智能经营突破

    金蝶集团推出“智慧记AI”系统,专为小微商户设计。该系统通过五个AI角色(收银员、仓库管家、营销助手、财务顾问和生意参谋)提供全方位经营支持,能自动识别滞销商品、生成经营诊断报告。深圳一家零食店使用三周后,毛利率提升5%,库存周转从23天缩短至16天。目前产品已覆盖300万商户,并拓展至东南亚和中东市场,助力全球小微商户实现高效经营与数字化转型。

  • 贸易通与法大大签署战略合作协议,推动香港跨境合规电子签署解决方案

    10月20日,香港贸易通与法大大达成战略合作,共同推动电子签名服务在香港落地。贸易通将成为法大大旗下Nota Sign全球签署平台的香港独家经销商,聚焦本地客户需求。双方将基于贸易通T+数字平台开展系统集成,优化跨境文档签署流程,提升企业合规管理能力。此次合作整合了法大大的全球产品优势与贸易通的可信数字身份认证能力,旨在为香港及区域企业提供安全、合规、高效的跨境数字签约解决方案。

  • 京东回应下场造车:不直接涉及制造 三方联合推出

    京东汽车联合宁德时代、广汽集团推出"国民好车"计划,引发市场关注。京东明确表示不参与车辆制造,仅提供用户消费洞察与独家销售服务。新车整合三方优势:京东基于超6亿用户数据精准定位需求,广汽提供整车制造能力,宁德时代贡献电池技术及换电生态。该创新模式旨在打造一站式汽车消费解决方案,计划于京东11.11期间正式发布。消费者即日起可通过京东APP预约试驾,享受透明价格、集中售后等权益,重构传统购车流程中的比价耗时、售后分散等痛点。

  • 三星Galaxy AI:以用户需求为中心,不断突破移动体验上限

    三星正通过Galaxy AI技术将人工智能深度融入移动体验,以Galaxy S25系列和Z Fold7折叠屏手机为载体,突破智能手机能力边界。核心功能包括:即圈即搜彻底颠覆传统搜索模式,绘图助手实现智能图像创作,生成式编辑简化照片视频处理,转录助手自动生成会议纪要。借助端侧算力保障流畅体验,通过Knox加密技术守护隐私安全,让用户在工作、生活和创作中实现无缝切换。

今日大家都在搜的词: