昆仑万维开源「Skywork UniPic 2.0」模型

2025-08-13 09:18 · 来源： AIbase基地

昆仑万维集团在SkyWork AI技术发布周的第三天，宣布正式开源其最新研发的「Skywork UniPic2.0」模型。这一统一多模态模型的发布，标志着多模态人工智能领域的又一次重大突破。Skywork UniPic2.0是一个面向统一多模态建模的高效训练和推理框架，它通过生成和编辑模块的轻量化，以及多模态理解模型的联合训练，构建了理解、生图、编辑一体化的核心能力，旨在实现“高效、高质、统一”的多模态生成模型。

微信截图_20250813091518.png

Skywork UniPic2.0由三个核心模块组成:生图编辑、统一模型能力和生图编辑后训练。该模型基于SD3.5-Medium架构，将原本只支持文本输入的模型改进为同时接受文本和图像输入，扩展了生图能力至生图和编辑双能力。通过冻结生图编辑模块，多模态模型Qwen2.5-VL-7B，Pre-Train连接器来构建出理解生成编辑一体化能力，再通过连接器和生图编辑模块一起联合微调，实现最终的一体化理解、生图、编辑模型。

Skywork UniPic2.0的发布，不仅为开发者与研究者提供了一个全面开源的平台，包括模型权重、推理代码、强化策略等，而且其生成模块基于2B参数的SD3.5-Medium架构训练，生图和编辑指标超越了具有更大参数量的其他模型。此外，该模型引入了强化学习，基于Flow-GRPO首创渐进式双任务强化策略，有效提升了模型对复杂指令的理解能力与图像生成和编辑的一致性。

微信截图_20250813091544.png

项目主页:

https://unipic-v2.github.io/

技术报告:

https://github.com/SkyworkAI/UniPic/blob/main/UniPic-2/assets/pdf/UNIPIC2.pdf

GitHub地址:

https://github.com/SkyworkAI/UniPic/tree/main/UniPic-2

HuggingFace Gradio:

https://huggingface.co/spaces/Skywork/UniPic2-Metaquery

HuggingFace Model:

https://huggingface.co/Skywork/UniPic2-SD3.5M-Kontext-2B; https://huggingface.co/Skywork/UniPic2-Metaquery-9B

相关推荐

荐AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

【AI日报】主要内容： 1. B站测试"花生AI"视频工具，3分钟可成片，同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0，实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI，苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision，支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐，仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新：恢复GPT-4o默认模式，为GPT-5引入多模式选择，优化交互体验

AI视频创作花生AI B站AI工具
昆仑万维UniPic 2.0“小钢炮”模型炸场，一个模型搞定理解+生成+编辑

大模型又迎来新一波的迭代周期。近日，从Open AI发布GPT-5，到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周，连续5天每天发布一个新模型，而8月13日发布的，正是其本周发布的第三款模型——多模态统一模型UniPic2.0。 UniPic2.0主打的是，在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力

大模型多模态 AI生图
昆仑万维技术周启幕：SkyReels模型重塑内容创作基建

2025年8月11日，昆仑万维启动SkyWork+AI技术发布周，将连续五天发布五大领域AI模型：视频生成模型Skyreels、世界模型、生图一体化模型、智能体(Agent)模型和AI音乐创作模型Mureka。首日发布的Skyreels-A3是全球首个支持分钟级长视频生成的模型，通过四大技术创新解决直播电商等场景痛点，可实现180秒连贯视频生成、影视级运镜控制与自然动作交互。该模型采用多模态协同生成范式，突破传统视频生成技术误差累积限制，并通过Step蒸馏技术将推理步数压缩至4步，生成时间缩短至80秒。商业化方面，昆仑万维已形成"研发-产品变现-现金流反哺"闭环，2025年Q1经营性现金流净额增长58.3%，旗下DramaWave、Mureka等产品年化流水分别达1.2亿和1200万美元。此次技术周标志着中国AI企业首次跑通规模化盈利路径。

AI技术多模态AI 视频生成
荐AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型Mureka V7.5；腾讯云推出AI开发工具CloudBase AI CLI

本文介绍了AI领域最新动态：1)快手可灵2.1推出首尾帧功能，提升视频生成效果；2)昆仑万维发布Mureka V7.5音乐模型，优化人声表现；3)腾讯云推出AI开发工具CloudBase AI CLI，可减少80%编码量；4)海外新品MuleRun通过虚拟机和AI Agent带来创新游戏体验；5)Meta开源DINOv3视觉模型，无需标注即可实现卓越性能；6)宇树科技人形机器人H1获1500米赛跑金牌；7)谷歌Gemini新增记忆功能和隐私聊天模式；8)香港大学开源OpenCUA框架，打造个性化电脑助手；9)OpenAI考虑在ChatGPT引入广告；10)谷歌发布超小型开源模型Gemma 3 270M，支持手机端运行。

AI日报快手可灵视频生成
荐AI日报：昆仑万维发布SkyReels-A3模型；百度搜索PC端全面上线AI搜索；Grok 4 AI模型永久免费开放

AI日报栏目聚焦人工智能领域最新动态：1)昆仑万维发布SkyReels-A3模型，实现语音驱动数字人生成；2)xAI宣布Grok4模型永久免费开放；3)OpenAI发布GPT-5提示词指南；4)百度PC端上线AI搜索功能；5)微软Windows Co pilot接入GPT-5；6)百川智能开源医疗大模型Baichuan-M2性能超越GPT-oss120b；7)苹果iOS26将集成ChatGPT-5；8)谷歌推出3D视觉编辑框架BlenderFusion；9)轻量级TTS模型Kitten TTS参数仅1500万；10)MiniCPM-V

AI技术数字人创作语音驱动
荐AI日报：混元推四款小尺寸开源模型；昆仑万维发布新推理大模型MindLink；谷歌Gemini 2.5 Deep Think发布

【AI日报】汇总了最新AI领域动态：1)腾讯开源混元系列小尺寸模型，适用于消费级显卡；2)昆仑万维发布推理大模型MindLink，提升回答透明度；3)B站推出AI原声翻译功能，保留UP主音色；4)谷歌Gemini 2.5在数学奥赛夺金，展现强大推理能力；5)OpenAI展示GPT-5网络信息整合特性；6)苹果组建AI团队挑战ChatGPT；7)高德地图推出全球首个AI原生地图应用；8)Adobe推出AI图像合成工具Harmonize；9)NVIDIA发布革命性视频渲染技术；10)谷歌推出Android Studio免费AI编程助手；11)开源结构化信息提取工具LangExtract；12)Figma开发者模式升级提升设计转代码效率。

人工智能开源模型腾讯混元
ISC.AI PARK：科技博主集体打卡！AI原来可以这么“酷”

ISC.AI2025大会8月6-7日在北京国家会议中心成功举办，以"ALL IN AGENT"为主题。展会全新升级为"ISC.AI PARK"，吸引超万名观众参观。360集团、华为、百度智能云等科技巨头及行业领军企业参展，集中展示了AI与数字安全领域的前沿技术和创新应用。AI互动区设置办公、生活、娱乐等场景体验，机器人表演、智能设备等吸引观众驻足。科技博主现场互动体验AI赋能安全行业的产品，直观感受AI技术带来的变革。大会展现了AI技术在各领域的融合应用，推动构建更安全智能的世界。

ISC.AI2025 AI互动黑客集市
国产AI视频平台最全比价：万兴天幕2.0超高性价比，可灵PixVerse瞄准高价高品质

2025年第三季度，中国AI视频生成赛道迎来定价体系的分水岭时刻。国际巨头谷歌Veo以每秒0.75美元（约5.4元人民币）的"好莱坞级定价"筑高技术壁垒，而国内市场呈现双轨制格局：万兴科技旗下万兴天幕2.0以"0.25元/条"的颠覆性价格突入大众市场，可灵与PixVerse则以1.56-1.79元/条的价格坚守品质溢价路线。国产玩家根据技术禀赋与市场定位分化出两条路径：普惠下沉派通过错峰无限权益降低算力成本；专业精耕派依托影视级运镜模板支撑高价策略。当技术参数差距收窄至毫厘之间，这场围绕"毛票"与"元角"的定价博弈，正在重划内容生产工具的普及边界。

AI视频生成定价体系万兴天幕2.0
OpenAI发布2款开源模型：gpt-oss系列能力接近o3和o4-mini

OpenAI发布开源模型系列GPT-OSS，包含120B和20B两个版本。120B旗舰模型适配单H100 GPU架构，20B轻量版适合边缘计算。两款模型均开放完整推理链监控接口，支持动态参数调节和任务微调优化，性能接近闭源的GPT-O3和O4-mini。该系列突破性地支持代理功能，包括网页交互和Python代码执行，在标准化测试中表现优异。开源策略为开发者提供高性能替代方案，重新定义了AI模型的应用边界。

人工智能开源模型 OpenAI
荐AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1；MiniMax Speech 2.5语音生成模型上线

AI日报栏目聚焦人工智能领域最新动态：1)阿里发布Qwen3-4B轻量级模型，手机端可运行；2)小红书开源多模态大模型dots.vlm1，在图表推理方面表现突出；3)MiniMax推出语音生成模型Speech2.5，多语种表现提升；4)Midjourney推出HD视频模式，提升专业影像质量；5)Cursor1.4版本增强异步任务处理能力；6)谷歌否认AI搜索影响网站流量，但数据显示用户行为改变；7)MiniCPM-V4.0开源发布，号称"手机上的GPT-4V"；8)AMD与高通宣布支持OpenAI的gpt-oss系列模型；9)腾讯开源WeKnora文档智能解析工具；11)疑似GPT-5信息在GitHub泄露；12)FlowSpeech实现书面语转口语的TTS技术突破。

AI模型移动端AI 阿里通义千问

昆仑万维开源「Skywork UniPic 2.0」模型

荐AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

昆仑万维UniPic 2.0“小钢炮”模型炸场，一个模型搞定理解+生成+编辑

昆仑万维技术周启幕：SkyReels模型重塑内容创作基建

荐AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型Mureka V7.5；腾讯云推出AI开发工具CloudBase AI CLI

荐AI日报：昆仑万维发布SkyReels-A3模型；百度搜索PC端全面上线AI搜索；Grok 4 AI模型永久免费开放

荐AI日报：混元推四款小尺寸开源模型；昆仑万维发布新推理大模型MindLink；谷歌Gemini 2.5 Deep Think发布

ISC.AI PARK：科技博主集体打卡！AI原来可以这么“酷”

国产AI视频平台最全比价：万兴天幕2.0超高性价比，可灵PixVerse瞄准高价高品质

OpenAI发布2款开源模型：gpt-oss系列能力接近o3和o4-mini

荐AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1；MiniMax Speech 2.5语音生成模型上线

今日大家都在搜的词：

热文

苹果正式入驻小红书 iPhone 17系列下月发布

苹果iOS 18.6.1正式版发布：美版Apple Watch血氧功能上线

AI日报：腾讯混元开源Hunyuan-GameCraft；最强图像编辑器nano-

全球首款女团机器人10580元拍出接入京东Joy Inside智能体

华为MatePad Air 12英寸2025发布：售价2799元起

AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型M

华为MatePad 11.5 S官宣8月15日发布

阿里小号宣布暂缓停服：可继续正常使用

华为MatePad Air新款官宣8月15日发布

REDMI Note 15 Pro系列官宣下周发布

微信聊天可以引用部分文字了！还可用表情包回复

站长商机