首个直播流扩散AI模型MirageLSD震撼发布，实时视频转换开启无限可能！

2025-07-18 08:57 · 来源： AIbase基地

近日，MirageLSD，全球首个人工智能直播流扩散（Live-Stream Diffusion， LSD）模型正式发布，其强大的实时视频转换能力引发行业热议。这款由Decart AI团队打造的创新模型，能够以不到40毫秒的超低延迟，将任意视频流实时转换为用户期望的场景，为直播、游戏开发、动画制作及虚拟换装等场景带来前所未有的可能性。

实时视频转换，突破传统局限

MirageLSD的发布标志着视频生成技术进入了一个全新的阶段。与传统视频扩散模型需要数秒甚至数分钟的处理时间不同，MirageLSD实现了24帧/秒的运行速度和小于40毫秒的响应延迟，能够实时处理无限长度的视频流。这一突破得益于团队在CUDA Megakernel优化和抗漂移训练上的技术创新，整体效率提升超过100倍，彻底打破了传统视频生成模型在时延和长度上的瓶颈。

无论是来自摄像头、视频聊天、电脑屏幕还是游戏画面，MirageLSD都能作为输入源，实时将视频内容转换为用户指定的场景。例如，您可以将普通的视频通话变成一场星际冒险，或将现实中的木棒对决变成光剑大战。这种无限生成与实时交互的能力，为用户提供了前所未有的创作自由。

简单交互，释放创意潜能

MirageLSD不仅技术强大，其操作方式也极为简便。通过简单的交互方式，如手势控制，用户即可实时改变视频中的外观、场景或服装。例如，在直播中轻轻挥手，就能将背景切换为热带雨林，或将自己的服饰变为虚拟的未来战甲。这种直观的操作方式大大降低了技术门槛，让普通用户也能轻松上手，创造出令人惊叹的视觉效果。

此外，MirageLSD支持连续提示和编辑，用户可以在视频生成过程中动态调整内容，确保输出的画面始终与创意保持一致。这种高度的灵活性和可控性，使得MirageLSD在创意内容生产中展现出巨大潜力。

赋能多场景，30分钟开发一款游戏

MirageLSD的应用场景极为广泛，尤其在游戏开发领域展现出惊人潜力。据悉，开发者可以利用MirageLSD在短短30分钟内快速构建一款游戏，并由该模型自动处理所有图形效果。例如，开发者可以输入任意视频流或游戏画面，MirageLSD能够实时将其转换为全新的虚拟世界，无论是奇幻森林还是赛博朋克都市，都能轻松实现。

除游戏开发外，MirageLSD还在直播、动画制作和虚拟换装等领域展现出巨大价值。主播可以利用该技术实时改变直播场景，动画创作者能够快速生成动态视觉效果，而虚拟换装功能则为电商和时尚行业提供了创新的展示方式。这些应用场景的广泛性，使得MirageLSD成为跨行业的通用工具。

技术突破，引领行业未来

MirageLSD的核心技术——直播流扩散（LSD）模型，基于Diffusion Forcing技术，通过逐帧去噪和历史增强训练，解决了传统自回归模型在长时间生成中的误差累积问题。相比其他视频生成模型，MirageLSD不仅能够生成无限长度的视频，还能保持画面的时间一致性和高质量输出，为实时交互应用奠定了坚实基础。

此外，MirageLSD的开发团队在高效GPU汇编代码和数学优化方面进行了深入探索，显著提升了模型的运行效率。这种技术创新不仅推动了视频生成技术的发展，也为未来的多模态AI模型（如音频、情感、音乐等）铺平了道路。

视频生成的新纪元

作为AI领域的先锋，MirageLSD的发布无疑为视频生成技术开启了新的篇章。其实时性、无限生成能力和简单交互特性，将彻底改变内容创作的方式。从个人创作者到大型企业，MirageLSD都提供了强大的工具，让创意不再受限于技术门槛。AIbase认为，这一技术的广泛应用将加速AI与现实世界的融合，带来更多创新场景。

目前，MirageLSD已开放试用，用户可通过官方网站体验其强大功能。未来，Decart AI团队还将推出更多基于MirageLSD的视频模型，覆盖音频、情感和音乐等多模态领域，进一步拓展AI的边界。

体验地址：https://mirage.decart.ai/

相关推荐

荐AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型上线；亚马逊推AI代码编辑器 Kiro

【AI日报】今日AI领域重要动态：1)美图推出RoboNeo，通过自然语言指令实现图片精修、品牌设计等全能影像处理；2)Unsloth AI将Kimi K2模型量化至1.8bit，体积缩减78%保持性能；3)谷歌Gemini嵌入模型登顶MTEB榜单，超越OpenAI；4)亚马逊发布免费AI代码编辑器Kiro，集成Claude模型；5)Claude新增应用工具目录功能提升工作效率；6)MiniMax完成近3亿美元融资，估值超40亿美元；7)UTCP新协议让AI代理直
荐AI日报：xAI 震撼发布Grok4；微软开源全新Phi-4-mini版本；上海累计82款大模型通过备案

AI日报栏目聚焦人工智能领域最新动态：1)xAI发布旗舰模型Grok4，在数学推理和代码生成表现突出，同时推出开发者专用Grok4Code；2)微软开源Phi-4-mini模型，推理效率提升10倍，适合边缘设备；3)上海82款大模型完成备案，垂直领域应用取得突破；4)Hugging Face推出开源桌面机器人Reachy Mini，支持Python编程；5)Perplexity发布AI浏览器Comet挑战Chrome；6)OpenAI将首次发布开放权重模型，打破闭源惯例；7)谷歌医疗AI模型MedGemma系列上新，单个GPU即可运行；8)OpenAI以约65亿美元收购AI硬件公司io Products，正式进军硬件市场。
MasterAgent颠覆性上线：一键式生成智能体集群，分钟级构建专属AI协作网络

全球首个L4+级智能体母系统MasterAgent在深圳发布，标志着AI从"被动执行工具"升级为能主动思考、跨界解决问题的"数字伙伴"。该系统突破性实现三大功能：一键生成智能体集群、多智能体自主协作、灵活定制优化。核心技术突破包括动态Agent生成框架将开发周期压缩至分钟级，以及去中心化多智能体协同机制，支持数百个智能体像"数字团队"一样高效协作。由深圳深元人工智能科技自主研发，其团队依托中国科学技术大学专家资源，已快速成长为国家级高新技术企业。这一突破让AI真正成为能创造实际价值的"新生产力单元"。
AI仙侠玄幻剧：用离谱和技术给你们一点震撼

凤凰男成“下蛋”工具、龙女一言不合就“炖妖”补身、“男妈”一胎诞下一窝小狐狸、“万妖窟”男团惨变“火锅底料”、铺垫老半天的“大boss”竟是Labubu……比离谱更离谱的AI仙侠玄幻短剧悄悄地火了。《遮天》首播即爆，全网话题量破亿;抖音账号“梦婆婆”连载的《九尾狐男妖爱上我》目前累计播放量已超1.1亿，冲上抖音+快手短剧综合热度榜TOP20，“癫”感十足的剧�
全球优质AI语音大模型盘点：Whisper、Gemini Speech

本文分析了当前主流AI语音大模型的核心优势与应用场景。全球顶尖模型包括：OpenAI Whisper（多语言识别与翻译）、Google Gemini（情感化语音生成）、Meta AudioCraft（音乐创作与风格转换）。国内讯飞星火（方言识别）、阿里通义（电商客服）、百度文心（车载场景）表现突出。技术突破点在于云端协同架构、零样本克隆和情感语音合成。选择模型需考虑语言支持、场景适配、部署

AI语音大模型语音交互技术多语言识别
荐AI日报：字节将发布AI编程工具TRAE2.0版本；Mistral重磅推出音频模型Voxtral；月之暗面回应Kimi K2 API速度慢

AI日报栏目聚焦AI领域最新动态：1)字节跳动将发布TRAE 2.0编程工具，新增语音交互功能；2)Mistral推出开源音频模型Voxtral，支持多语言；3)月之暗面回应Kimi K2API速度慢问题，正在优化系统；4)昆仑万维发布AgentOrchestra框架，实现多智能体协作；5)OpenAI前CTO创立的Thinking Machines Lab获20亿美元融资；6)Kimi-2上线，性能超越GPT-4.1；7)TRAE推出Kimi-K2模型服务，国际版支持Grok-4；8)字节跳动Seed�

人工智能编程工具字节跳动
荐AI之下，搜索获得“无限内容池”

搜索引擎诞生20余年，其核心一直考验对于海量信息检索、分析、匹配以及呈现的能力。它一头是搜索技术，一头是内容池。不夸张的说，如果搜索的能力是“巧妇”，可检索分析匹配的内容则是“米”，甚至在后搜索时代，搜索能力之间的差距在减小，用户有了更多的选择，但内容的数量和质量却参差不齐，用户搜索的体验大打折扣。为了满足给用户更好的搜索体验，百�

搜索引擎百度搜索信息检索
荐A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布ChatGPT Agent；Suno推人声替换功能

【AI日报】汇总了近期AI领域重要进展：1)月之暗面推出Kimi Playground平台，实现从对话助手到智能助理的转变；2)OpenAI发布ChatGPT Agent，支持自主执行浏览、购物等任务；3)Suno发布v4.5+版本，新增人声替换等音乐创作功能；4)谷歌Veo3视频生成模型上线，支持文本转视频；5)全球首个直播流扩散模型MirageLSD发布，实现实时视频转换；6)VSCode编程助手Traycer提升大型代码库处理效率；7)ART框架支持Python一键训练AI Agent；8)NVIDIA语音识别模型Canary-Qwen-2.5B词错率创新低；9)Mistral AI推出Le Chat挑战ChatGPT；10)百度小度上线首个支持物理交互的MCP Server；11)Lightricks的LTXV模型实现60秒高质量视频生成；12)开源模型LTX-Video13B支持30倍速高清视频生成。
最新AI模型哪里看?8个国内优质AI模型库与获取渠道盘点

文章探讨大模型API价格战背景下，开源模型+本地微调成为降本增效的新趋势。当前典型工作流已转变为：GitHub找代码→Hugging Face找权重→国内镜像站下载→本地/云端微调。模型库成为生产链起点而非单纯资源站。建议从三个维度筛选模型：1)协议类型决定商用权限；2)框架兼容性避免格式转换；3)场景标签匹配度节省检索时间。推荐8个国内优质模型获取渠道，包括AIbase（2.3万+模型）、阿里ModelScope（社区活跃）、百度EasyDL（零代码友好）等，各平台在电商、语音、交通等垂直领域各有优势。最后给出快速检索建议：商用需求优先查协议，垂直场景找专业平台，追踪更新可订阅RSS。
最新AI模型哪里看？查找最佳AI模型平台推荐

文章介绍了AI领域快速迭代背景下，开发者如何高效追踪最新模型动态。主要渠道包括：1）官方渠道（GitHub、公司官网/博客）；2）科技媒体和社区（Twitter、Reddit等）；3）专业聚合平台（推荐AIbase模型广场）。重点推荐AIbase平台，其优势在于：实时更新全球最新模型、结构化展示关键信息、支持多维筛选排序、直达相关资源链接。建议开发者善用官方渠道获取源头信息，同时�

最新AI模型模型发布研究动态

今日大家都在搜的词：

热文

3 天
7天

首个直播流扩散AI模型MirageLSD震撼发布，实时视频转换开启无限可能！

荐AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型上线；亚马逊推AI代码编辑器 Kiro

荐AI日报：xAI 震撼发布Grok4；微软开源全新Phi-4-mini版本；上海累计82款大模型通过备案

MasterAgent颠覆性上线：一键式生成智能体集群，分钟级构建专属AI协作网络

AI仙侠玄幻剧：用离谱和技术给你们一点震撼

全球优质AI语音大模型盘点：Whisper、Gemini Speech

荐AI日报：字节将发布AI编程工具TRAE2.0版本；Mistral重磅推出音频模型Voxtral；月之暗面回应Kimi K2 API速度慢

荐AI之下，搜索获得“无限内容池”

荐A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布ChatGPT Agent；Suno推人声替换功能

最新AI模型哪里看?8个国内优质AI模型库与获取渠道盘点

最新AI模型哪里看？查找最佳AI模型平台推荐

今日大家都在搜的词：

热文

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布Chat

华为鸿蒙智行：尊界S800上市50天大定破8000台

华为MatePad Pro 12.2开启预约预计7月24日正式发布

小米深圳大厦开园：卢伟冰现场喝小米粥

小米骨传导耳机2发布：699元 7月21日开售

AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布Chat

黄仁勋称想买一辆小米汽车英伟达在多方面与小米开展合作

华为鸿蒙智行：尊界S800上市50天大定破8000台

贾跃亭旗下FF获1.05亿美元融资将加速FX Super One生产交付

抖音：“抖音会议”App是诈骗软件会直接控制用户手机

华为MatePad Pro 12.2开启预约预计7月24日正式发布

理想i8开启预定：7月29日上市预售价35-40万元

小米深圳大厦开园：卢伟冰现场喝小米粥

站长商机