首页 > AI头条  > 正文

昆仑万维开源多模态统一预训练模型 Skywork UniPic

2025-07-30 09:14 · 来源: AIbase基地

7月30日,昆仑万维正式推出并开源了采用自回归路线的多模态统一预训练模型Skywork UniPic。该模型在单一架构中深度融合了图像理解、文本到图像生成及图像编辑三大核心能力,基于大规模高质量数据端到端预训练,展现了优异的通用性与可迁移性。

微信截图_20250730091348.png

模型采用MAR编码器与SigLIP2主干网络,突破了传统多模态模型依赖VQ或VAE编码器导致的语义信息保留不足的局限,实现了跨任务的深度协同。用户仅需输入提示词,即可同时完成图像理解、生成及风格转绘等复杂操作,例如生成特定场景的图片或对图像进行风格化编辑。

在性能方面,Skywork UniPic以1.5B参数规模实现了接近大型统一模型的效能。在指令遵循、复杂指令生图及图像编辑等基准测试中,该模型均达到行业领先水平,尤其在消费级显卡上即可流畅运行,显著降低了技术应用门槛。

模型的成功得益于精炼的数据构建体系、专用的Reward Model优化及渐进式多任务训练策略。通过高效能语料库与分层分辨率训练机制,Skywork UniPic兼顾了模型性能与训练效率,避免了传统方法中能力权衡的技术瓶颈。

此次开源是昆仑万维持续推动AI技术普惠的重要举措。此前,公司已开源多个领域的大模型,而Skywork UniPic的加入将进一步助力AI成为触手可及的创意工具。用户可通过指定链接获取模型权重、技术报告及代码仓库等核心资源。

模型权重:

https://huggingface.co/Skywork/Skywork-UniPic-1.5B

技术报告:

https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf

代码仓库:

https://github.com/SkyworkAI/UniPic

  • 相关推荐
  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • 三星Galaxy Z系列智能生态体验新篇章 多模态AI体验会川渝站开启

    7月25日,三星在川渝地区举办Galaxy Z系列新品AI体验活动,展示全新Galaxy Z Fold7和Flip7折叠屏手机。新品搭载多模态AI技术,配备Samsung One UI8系统,通过智能分屏、跨应用分享等功能提升效率。AI助手Bixby支持多语言翻译、解题辅导等场景应用,Galaxy Watch8系列智能手表新增健康监测功能。三星通过硬件创新与AI深度整合,重新定义移动设备交互体验,推动行业进入以人为中心的智能协同新时代。

  • 荣耀MagicGUI大模型发布并开源!Magic V5首发搭载:跨应用/设备自动化

    该战略是荣耀新任CEO李健在3月的MWC 2025首次揭晓,是荣耀的全新人工智能战略计划,将从智能手机制造商向全球AI终端生态公司全面转型。 李健宣布,未来5年荣耀将投入100亿美元,与全球合作伙手共建AI设备生态。 分为三个实施阶段: 第一阶段是智慧手机,荣耀将与合作伙伴携手突破技术边界,共同创造代理型人工智能时代的新范式; 第二阶段是智慧生态系统,荣耀将打�

  • 腾讯混元3D世界模型在魔搭社区开源首发

    7月27日,腾讯混元3D世界模型1.0在魔搭社区开源首发。这是业界首个开源的沉浸式3D世界生成模型,支持文字/图片输入快速生成完整3D场景,将原本需要数周的建模时间缩短至几分钟。该模型显著提升了游戏开发、VR、数字内容等领域的创作效率,开发者可免费下载体验,还能通过魔搭社区提供的4000+MCP服务和调试工具进行优化训练。作为中国最大AI开源社区,魔搭已汇聚500+机构、7万+模型,覆盖36个国家1600万开发者。此前腾讯开源的混元MoE模型Hunyuan-A13B也在该社区首发。

  • AI日报:智谱AI重磅发布GLM-4.5;阿里开源Wan2.2;阶跃星辰推全新模型Step3

    【AI日报】本期重点内容:1.智谱AI发布开源大模型GLM-4.5,在推理、编码和智能体能力方面达到SOTA水平;2.阿里开源视频生成模型Wan2.2,采用MoE架构提升计算效率;3.阶跃星辰推出AI研究助手"阶跃深研",支持金融医疗等专业领域研究;4.微软Edge浏览器新增Copilot模式,提供智能搜索体验;5.Anthropic对Claude用户实施使用限制引发争议;6.阶跃星辰发布321B参数大模型Step3;7.蚂�

  • 主流AI多模态大模型有哪些?超全的多模态大模型指南分享

    2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据,实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型,对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。

  • 阿里开源通义万相2.2:可生成电影级高清视频

    阿里云宣布旗下通义万相2.2模型正式开源。 通义万相2.2最令人瞩目的,当属其生成电影级高清视频的能力。目前,该模型单次便可生成5秒的高清视频。 这5秒视频绝非普通水准。在光影、色彩、构图以及人物微表情等细节处理上,通义万相2.2达到了专业电影制作的水平。 此次开源,通义万相2.2推出了文生视频(Wan2.2-T2V-A14B)、图生视频(Wan2.2-I2V-A14B)和统一视频生成(Wan2.2-TI2V-

  • AI日报:可灵发布灵动画布创意工作台;Coze Studio和Loop正式开源;WPS AI 3.0灵犀版本发布

    【AI日报】汇总了近期AI领域重要动态:1)字节跳动开源Coze两大核心项目,降低AI开发门槛;2)可灵AI发布"灵动画布"创意工作台,创作者突破4500万;3)Runway推出视频编辑模型Aleph,支持自然语言指令操作;4)金山办公发布WPS AI 3.0,实现智能文档创作;5)京东升级大模型品牌JoyAI;6)浦东设立20亿AI种子基金;7)阿里开源WebSailor框架提升信息检索效率;8)我国大模型数量突破1500个,居全球领先;9)蚂蚁数科联合发布金融大模型评测基准;10)腾讯开源混元3D世界模型,支持360°场景生成。

  • 聚焦WAIC 2025 | 携全双工语音通话大模型亮相,Soul App重塑人机互动新范式

    Soul App在2025世界人工智能大会上展示了AI社交创新方案,重点呈现了全双工语音/视频通话大模型技术。该技术突破传统"轮次对话"模式,赋予AI自主决策对话节奏的能力,实现更自然的人机互动。平台通过"AI社交练习"主题,展示了AI在群聊派对中的主持能力,能有效活跃气氛、鼓励用户参与。同时,Soul还探索了多模态交互,基于全双工语音和实时视频生成技术,构建"数字人格"促进深度社交连接。作为社交平台,Soul持续深化AI与社区融合,通过智能推荐和虚拟人生态,为用户提供即时情感支持和共鸣,推动社交向"情感共生"进化。CTO陶明表示,AI正深入个体关系网络,将拓展"情价比消费"等全新市场机会。

  • 智草与岐黄双模型赋能,APUS医疗MCP服务登陆魔搭社区

    APUS公司宣布其中西医大模型MCP服务正式上线魔搭社区。该服务基于开源通用智能体协议MCP,突破AI模型依赖训练数据的局限,能动态获取上下文信息或执行外部操作。APUS岐黄(西医)和智草(中医)大模型已累计为120万医患提供服务,其中岐黄大模型诊断准确率达92.3%,智草大模型在执业医师考试中展现80.3%的专业水准。此次合作将推动AI医疗技术在更多机构应用,为提升医疗服务质量、改善患者就医体验贡献力量,同时为开发者提供创新可能,预计将在医疗行业掀起新一轮创新应用浪潮。

今日大家都在搜的词: