首页 > AI头条  > 正文

昆仑万维开源「Skywork UniPic 2.0」模型

2025-08-13 09:18 · 来源: AIbase基地

昆仑万维集团在SkyWork AI技术发布周的第三天,宣布正式开源其最新研发的「Skywork UniPic2.0」模型。这一统一多模态模型的发布,标志着多模态人工智能领域的又一次重大突破。Skywork UniPic2.0是一个面向统一多模态建模的高效训练和推理框架,它通过生成和编辑模块的轻量化,以及多模态理解模型的联合训练,构建了理解、生图、编辑一体化的核心能力,旨在实现“高效、高质、统一”的多模态生成模型。

微信截图_20250813091518.png

Skywork UniPic2.0由三个核心模块组成:生图编辑、统一模型能力和生图编辑后训练。该模型基于SD3.5-Medium架构,将原本只支持文本输入的模型改进为同时接受文本和图像输入,扩展了生图能力至生图和编辑双能力。通过冻结生图编辑模块,多模态模型Qwen2.5-VL-7B,Pre-Train连接器来构建出理解生成编辑一体化能力,再通过连接器和生图编辑模块一起联合微调,实现最终的一体化理解、生图、编辑模型。

Skywork UniPic2.0的发布,不仅为开发者与研究者提供了一个全面开源的平台,包括模型权重、推理代码、强化策略等,而且其生成模块基于2B参数的SD3.5-Medium架构训练,生图和编辑指标超越了具有更大参数量的其他模型。此外,该模型引入了强化学习,基于Flow-GRPO首创渐进式双任务强化策略,有效提升了模型对复杂指令的理解能力与图像生成和编辑的一致性。

微信截图_20250813091544.png

项目主页:

https://unipic-v2.github.io/

技术报告:

https://github.com/SkyworkAI/UniPic/blob/main/UniPic-2/assets/pdf/UNIPIC2.pdf

GitHub地址:

https://github.com/SkyworkAI/UniPic/tree/main/UniPic-2

HuggingFace Gradio:

https://huggingface.co/spaces/Skywork/UniPic2-Metaquery

HuggingFace Model: 

https://huggingface.co/Skywork/UniPic2-SD3.5M-Kontext-2B; https://huggingface.co/Skywork/UniPic2-Metaquery-9B

  • 相关推荐
  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • 昆仑万维UniPic 2.0“小钢炮”模型炸场,一个模型搞定理解+生成+编辑

    大模型又迎来新一波的迭代周期。 近日,从Open AI发布GPT-5,到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周,连续5天每天发布一个新模型,而8月13日发布的,正是其本周发布的第三款模型——多模态统一模型UniPic2.0。 UniPic2.0主打的是,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力

  • 昆仑万维技术周启幕:SkyReels模型重塑内容创作基建

    2025年8月11日,昆仑万维启动SkyWork+AI技术发布周,将连续五天发布五大领域AI模型:视频生成模型Skyreels、世界模型、生图一体化模型、智能体(Agent)模型和AI音乐创作模型Mureka。首日发布的Skyreels-A3是全球首个支持分钟级长视频生成的模型,通过四大技术创新解决直播电商等场景痛点,可实现180秒连贯视频生成、影视级运镜控制与自然动作交互。该模型采用多模态协同生成范式,突破传统视频生成技术误差累积限制,并通过Step蒸馏技术将推理步数压缩至4步,生成时间缩短至80秒。商业化方面,昆仑万维已形成"研发-产品变现-现金流反哺"闭环,2025年Q1经营性现金流净额增长58.3%,旗下DramaWave、Mureka等产品年化流水分别达1.2亿和1200万美元。此次技术周标志着中国AI企业首次跑通规模化盈利路径。

  • AI日报:可灵2.1推出全新首尾帧功能;昆仑万维上线AI音乐模型Mureka V7.5;腾讯云推出AI开发工具CloudBase AI CLI

    本文介绍了AI领域最新动态:1)快手可灵2.1推出首尾帧功能,提升视频生成效果;2)昆仑万维发布Mureka V7.5音乐模型,优化人声表现;3)腾讯云推出AI开发工具CloudBase AI CLI,可减少80%编码量;4)海外新品MuleRun通过虚拟机和AI Agent带来创新游戏体验;5)Meta开源DINOv3视觉模型,无需标注即可实现卓越性能;6)宇树科技人形机器人H1获1500米赛跑金牌;7)谷歌Gemini新增记忆功能和隐私聊天模式;8)香港大学开源OpenCUA框架,打造个性化电脑助手;9)OpenAI考虑在ChatGPT引入广告;10)谷歌发布超小型开源模型Gemma 3 270M,支持手机端运行。

  • AI日报:昆仑万维发布SkyReels-A3模型;百度搜索PC端全面上线AI搜索;Grok 4 AI模型永久免费开放

    AI日报栏目聚焦人工智能领域最新动态:1)昆仑万维发布SkyReels-A3模型,实现语音驱动数字人生成;2)xAI宣布Grok4模型永久免费开放;3)OpenAI发布GPT-5提示词指南;4)百度PC端上线AI搜索功能;5)微软Windows Co pilot接入GPT-5;6)百川智能开源医疗大模型Baichuan-M2性能超越GPT-oss120b;7)苹果iOS26将集成ChatGPT-5;8)谷歌推出3D视觉编辑框架BlenderFusion;9)轻量级TTS模型Kitten TTS参数仅1500万;10)MiniCPM-V

  • AI日报:混元推四款小尺寸开源模型;昆仑万维发布新推理大模型MindLink;谷歌Gemini 2.5 Deep Think发布

    【AI日报】汇总了最新AI领域动态:1)腾讯开源混元系列小尺寸模型,适用于消费级显卡;2)昆仑万维发布推理大模型MindLink,提升回答透明度;3)B站推出AI原声翻译功能,保留UP主音色;4)谷歌Gemini 2.5在数学奥赛夺金,展现强大推理能力;5)OpenAI展示GPT-5网络信息整合特性;6)苹果组建AI团队挑战ChatGPT;7)高德地图推出全球首个AI原生地图应用;8)Adobe推出AI图像合成工具Harmonize;9)NVIDIA发布革命性视频渲染技术;10)谷歌推出Android Studio免费AI编程助手;11)开源结构化信息提取工具LangExtract;12)Figma开发者模式升级提升设计转代码效率。

  • ISC.AI PARK:科技博主集体打卡!AI原来可以这么“酷”

    ISC.AI2025大会8月6-7日在北京国家会议中心成功举办,以"ALL IN AGENT"为主题。展会全新升级为"ISC.AI PARK",吸引超万名观众参观。360集团、华为、百度智能云等科技巨头及行业领军企业参展,集中展示了AI与数字安全领域的前沿技术和创新应用。AI互动区设置办公、生活、娱乐等场景体验,机器人表演、智能设备等吸引观众驻足。科技博主现场互动体验AI赋能安全行业的产品,直观感受AI技术带来的变革。大会展现了AI技术在各领域的融合应用,推动构建更安全智能的世界。

  • 国产AI视频平台最全比价:万兴天幕2.0超高性价比,可灵PixVerse瞄准高价高品质

    2025年第三季度,中国AI视频生成赛道迎来定价体系的分水岭时刻。国际巨头谷歌Veo以每秒0.75美元(约5.4元人民币)的"好莱坞级定价"筑高技术壁垒,而国内市场呈现双轨制格局:万兴科技旗下万兴天幕2.0以"0.25元/条"的颠覆性价格突入大众市场,可灵与PixVerse则以1.56-1.79元/条的价格坚守品质溢价路线。国产玩家根据技术禀赋与市场定位分化出两条路径:普惠下沉派通过错峰无限权益降低算力成本;专业精耕派依托影视级运镜模板支撑高价策略。当技术参数差距收窄至毫厘之间,这场围绕"毛票"与"元角"的定价博弈,正在重划内容生产工具的普及边界。

  • OpenAI发布2款开源模型:gpt-oss系列 能力接近o3和o4-mini

    OpenAI发布开源模型系列GPT-OSS,包含120B和20B两个版本。120B旗舰模型适配单H100 GPU架构,20B轻量版适合边缘计算。两款模型均开放完整推理链监控接口,支持动态参数调节和任务微调优化,性能接近闭源的GPT-O3和O4-mini。该系列突破性地支持代理功能,包括网页交互和Python代码执行,在标准化测试中表现优异。开源策略为开发者提供高性能替代方案,重新定义了AI模型的应用边界。

  • AI日报:阿里新发布Qwen3-4B模型;小红书发布开源模型dots.vlm1;MiniMax Speech 2.5语音生成模型上线

    AI日报栏目聚焦人工智能领域最新动态:1)阿里发布Qwen3-4B轻量级模型,手机端可运行;2)小红书开源多模态大模型dots.vlm1,在图表推理方面表现突出;3)MiniMax推出语音生成模型Speech2.5,多语种表现提升;4)Midjourney推出HD视频模式,提升专业影像质量;5)Cursor1.4版本增强异步任务处理能力;6)谷歌否认AI搜索影响网站流量,但数据显示用户行为改变;7)MiniCPM-V4.0开源发布,号称"手机上的GPT-4V";8)AMD与高通宣布支持OpenAI的gpt-oss系列模型;9)腾讯开源WeKnora文档智能解析工具;11)疑似GPT-5信息在GitHub泄露;12)FlowSpeech实现书面语转口语的TTS技术突破。

今日大家都在搜的词: