首页 > AI头条  > 正文

腾讯AI新突破:X-Omni模型让智能生成告别"写字困难症",图文理解生成一步到位

2025-07-31 09:30 · 来源: AIbase基地

腾讯研究团队发布了全新的多模态AI模型X-Omni,该模型在图像生成和理解领域实现了重大突破,特别是在长文本渲染方面表现出色,有效解决了传统AI模型在图片文字生成中的准确性问题。

长期以来,AI图像生成模型在处理文字渲染时面临着显著挑战。传统的离散自回归模型采用逐个生成像素或代 币的方式构建图像,这种方法容易产生累积误差,导致生成的文字出现拼写错误、字符缺失或扭曲变形等问题。许多研究团队因此转向扩散模型或混合架构,认为单纯的自回归方法难以胜任高质量的文字渲染任务。

image.png

X-Omni采用了创新的强化学习框架来优化模型性能。该系统引入了多维度的奖励机制,包括美学质量评估器HPSv2、综合奖励模型Unified Reward、视觉语言理解模型Qwen2.5-VL-32B,以及专门的文字识别评估工具GOT-OCR2.0和PaddleOCR。这些组件协同工作,在模型生成过程中提供实时反馈和指导,显著提高了输出质量的稳定性和准确性。

X-Omni的核心优势在于实现了图像生成和理解功能的统一建模。传统方法通常将这两项任务分别处理,需要不同的模型架构和训练策略。X-Omni通过使用语义图像分词器SigLIP-VQ,将视觉信息转换为语言模型可以处理的语义代 币,使得同一个模型既能生成高质量图像,又能准确理解图像内容。

image.png

在性能测试方面,X-Omni在多个基准测试中表现优异。在文字渲染任务上,该模型无论处理英文还是中文文本都能保持高准确率,特别是在长文本渲染方面超越了包括GPT-4o在内的多个主流模型。在文本到图像生成任务中,X-Omni能够精确遵循复杂指令,生成符合要求的高质量图像。同时,在图像理解任务上,该模型在OCRBench等专业测试中的表现也超过了LLaVA-One Vision等专门的视觉理解模型。

值得注意的是,X-Omni在不使用分类器自由引导技术的情况下仍能维持高质量的生成效果。分类器自由引导是一种常用的优化技术,能够提高模型对指令的遵循度,但会增加计算开销。X-Omni无需依赖这种外部辅助机制就能实现优秀性能,表明其内部的视觉和语言模块已经实现了高度的协调统一。

image.png

从技术架构角度来看,X-Omni的成功证明了离散自回归模型在多模态任务中的潜力。通过引入强化学习的优化机制和统一的语义表示方法,该模型克服了传统自回归方法的局限性,为多模态AI的发展提供了新的技术路径。

X-Omni的发布标志着AI在图像生成和理解领域迈向了新的发展阶段。该模型不仅在技术指标上实现了突破,更重要的是验证了统一多模态建模的可行性,为构建更加智能和高效的AI系统奠定了基础。随着这类技术的不断完善,用户将能够通过自然语言更便捷地创建包含复杂文字内容的视觉作品,AI辅助内容创作的效率和质量都将得到显著提升。

论文地址:https://arxiv.org/pdf/2507.22058

  • 相关推荐
  • 昇腾赋能三维生成新突破!浙大团队实现跨模态可控3D CAD建模

    浙江大学与魔芯科技团队合作,基于昇腾平台NPU开发了首个三维模型生成算法Img2CAD。该技术突破性地将草图、图片等多模态输入通过Transformer结构高效转化为三维几何信息,无需可微渲染器,完整在NPU上实现训练和推理。研究成果可生成高精度3D模型,直接导入CAD软件编辑,已应用于3D打印、数字制造等领域。项目完成3篇论文,包括1篇中科院1区期刊和2篇CCF-A类会议论文,部分成果实现商业化落地。该技术标志着智能三维内容创作进入"低门槛、高效率、高质量"新阶段,未来将为工业设计、AR/VR等行业提供创新动能。

  • AI日报:GPT-5-Auto现身Mac客户端;阿里开源WebAgent项目WebShaper;腾讯推X-Omni多模态模型

    【AI日报】今日AI领域重要动态:1)阿里开源WebAgent项目WebShaper,GAIA评测超越Claude4-Sonnet;2)Moonvalley推出草图转视频功能,支持手绘生成电影级视频;3)腾讯X-Omni模型实现图文理解重大突破;4)百度搜索测试AI应用中心入口;5)Midjourney+新增个性化推荐功能;6)GPT-5或于2025年夏季发布;7)Ollama推出桌面客户端;8)OWL团队开源多智能体协作工具Eigent;9)OpenAI年收入激增至120亿美元;10)英伟达H20芯片因安全风险被约谈;11)万兴科技天幕2.0模型国内排名第四,与华为云共建AI视频实验室。

  • 男子编造2岁女儿被抱走遭处罚:为博关注 由AI大模型生成

    近日,一则细节详尽的“2岁女儿王喵喵被抱走”的寻人启事在网络上疯狂传播,引发超百万次点击与大量转发,众多网友纷纷加入转发助力寻找的行列。 启事中描述走失者王喵喵为2岁女性,眼睛大大的,笑时会露出两颗小虎牙,在嘉兴市南湖区新丰镇乌桥超市被一大妈抱走,还附上了“父亲”与“母亲”的联系电话,字里行间满是焦灼,让人感觉是心急如焚的家长发出的求�

  • 腾讯旗下AI工作台ima上线新功能:支持上传文件生成AI播客

    腾讯旗下AI工作台ima迎来重大升级,以活知识库 大模型的深度耦合重构知识管理体系。 此次更新突破性地实现了多模态知识转化用户上传文件即可生成AI播客,Xmind思维导图经智能解析后自动沉淀为结构化知识库,共享知识库更支持关键信息置顶功能。 这些创新使得碎片化知识如同被注入生命力,通过动态重组转化为驱动组织进化的智能中枢。

  • 家电循环经济:回收拆解只是第一步

    文章探讨了废旧家电循环经济的深层价值。数据显示2012-2023年,中国规范拆解处理超9亿台"四机一脑",产生2100万吨拆解物,其中塑料443万吨、金属472万吨等。这些废旧家电通过专业处理后,一台冰箱的铝可制30多个易拉罐,洗衣机铁件能做100多个笔筒。海尔智家视频展示了塑料颗粒经过数十道工序后纯度达99.9%,最终变成汽车零件、打印机外壳等新产品。文章强调循环经济链条远比"回收拆解"更长远,需要建立专业再生体系实现资源价值的深度转化,让每件旧家电都能在产业链中持续流动,这正是循环经济的核心意义。

  • KTV用AI生成的MV惊现骷髅:顾客直呼“辣眼睛” 门店回应可切换

    ​近日,多名消费者在社交平台发帖吐槽魅KTV新上线的AI视频功能,称其生成的抽象画面严重破坏K歌体验。 走访多家魅KTV门店发现,部分门店已全面启用该AI系统。某门店工作人员透露,系统更新后所有歌曲默认播放AI生成视频,“但90%的顾客都会要求切换回原版MV,包厢服务人员可现场操作”。另一未更新系统的门店则表示,顾客仍可正常观看原唱MV。

  • 3371套空调已到位!黑龙江财经学院因“强冷”选海尔

    黑龙江财经学院为应对罕见高温天气,一次性采购3371台海尔空调改善学生学习生活环境。这批空调已进入安装阶段,针对高校宿舍环境特点,海尔提供定制化方案:配备快速制冷机型应对酷暑,同时加装减震垫、降噪处理等降低噪音影响。入夏以来,海尔空调已中标多所高校项目,全国高校空调安装项目总金额超4.5亿元,海尔占比超50%居市场第一。据最新数据,海尔空调零售额份额跃居行业第二,是TOP3品牌中唯一正增长品牌。据悉,8月7日海尔将发布70℃强劲制冷新品,为高校应对高温提供新方案。

  • AI模型怎么计费?大模型费用计算器助你精准预算,告别复杂参数困扰

    随着AI大模型普及应用,企业开发者面临复杂的计费挑战:主流模型采用Token计费,但不同模型Token换算差异大(如1Token=1.8汉字或1汉字),输入输出Token分开计价且输出更贵,隐藏成本包括上下文累积、重复调用等。定价模式多样(按量/包月),模型间价差显著(如DeepSeek V3成本仅为GLM-4Plus的1/3)。专业工具AIbase费用计算器(https://model.aibase.com/zh/calculator)可精准预估成本,覆盖GPT-4、文心一言等主流模型,智能处理Token换算和隐藏成本,提供多模型对比分析。实际案例显示,处理10万次咨询时文心一言成本(800元)显著低于GPT-4(2000+元)。未来趋势包括价格战推动成本下降、计费模式多元化(任务分级/套餐组合),建议企业建立成本监控体系,通过场景化分析和动态模型调整实现性价比最优。AI时代,专业计费工具将成为精准控制成本的关键。

  • 告别“数据录入机器”:ToB智能体如何让CRM回归业务本质

    2025年腾讯全球数字生态大会上,销售易推出首款AI CRM产品NeoAgent,基于大模型技术重构企业销售流程。该产品通过语音指令自动完成客户拜访规划、关联历史数据并生成策略建议,实现从菜单点击到自然对话的交互变革。销售易通过"三阶跃迁"模式:解放双手的语音转结构化记录、突破菜单层级的智能检索、结合销售方法论的场景赋能,深度重构CRM系统。产品依托统一数据平台,实现多模态信息整合与权限管控,采用混合模型架构平衡响应速度与决策质量。目前已在米其林等企业应用中显著提升销售转化率,并通过"用户+流量"混合收费模式验证商业化路径。这标志着ToB领域AI正从效率工具向"数字同事"进化,其核心价值在于理解业务、适配场景并创造增量。

  • 美团拼好饭推出百万亮厨计划:联合20万商家图文、直播展示后厨环境

    今日,美团宣布,即日起,拼好饭正式推出百万亮厨”计划,将联合20万商家打造透明开放标杆,通过图文实况、视频直播等,向顾客即时更新真实的后厨环境。 同时,还将推动100万商家升级明厨亮灶,建设透明后厨。 美团表示,对于通过实况直播等各种形式开放后厨的商家,拼好饭将予以专项扶持和补贴。

今日大家都在搜的词:

热文