商汤科技推出Vimi视频生成大模型 C端应用Vimi相机开放内测

2024-07-09 14:09 · 来源： AIbase基地

在2024年世界人工智能大会（WAIC）上，商汤科技推出的可控人物视频生成大模型——Vimi。Vimi模型利用商汤先进的大模型技术，能够通过单张照片生成与目标动作一致的人物视频，实现精准的表情和肢体控制。该模型支持多种驱动方式，包括视频、动画、声音和文字，具有多年积累的面部跟踪技术和对细节的精确控制能力，能够生成高一致性、光影和谐的视频内容。

Vimi的稳定性尤为突出，能够生成长达1分钟以上的单镜头人物视频，且画面效果不会随时间劣化。它还能根据人物动作调整环境场景，模拟镜头角度变化和头发抖动，提供逼真的视觉效果。此外，Vimi还支持光影变化模拟，为视频创作者提供丰富的创作自由度。

微信截图_20240709140907.png

Vimi相机作为基于Vimi大模型的首款C端应用，主要面向广大女性用户，满足她们的娱乐创作需求。用户上传不同角度的高清人物图片后，Vimi相机能自动生成数字分身和不同风格的写真视频，提供多样化的生成风格。Vimi相机还支持通过单张图片生成趣味人物表情包，玩法多样，实现个性化创作。

目前，Vimi相机正开放内测，感兴趣的用户可以通过关注公众号并填写预约链接申请体验。

相关推荐

荐A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布ChatGPT Agent；Suno推人声替换功能

【AI日报】汇总了近期AI领域重要进展：1)月之暗面推出Kimi Playground平台，实现从对话助手到智能助理的转变；2)OpenAI发布ChatGPT Agent，支持自主执行浏览、购物等任务；3)Suno发布v4.5+版本，新增人声替换等音乐创作功能；4)谷歌Veo3视频生成模型上线，支持文本转视频；5)全球首个直播流扩散模型MirageLSD发布，实现实时视频转换；6)VSCode编程助手Traycer提升大型代码库处理效率；7)ART框架支持Python一键训练AI Agent；8)NVIDIA语音识别模型Canary-Qwen-2.5B词错率创新低；9)Mistral AI推出Le Chat挑战ChatGPT；10)百度小度上线首个支持物理交互的MCP Server；11)Lightricks的LTXV模型实现60秒高质量视频生成；12)开源模型LTX-Video13B支持30倍速高清视频生成。
荐A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0；通义千问发布Qwen Chat桌面客户端

本期AI日报重点报道了多项AI领域突破性进展：1.月之暗面推出万亿参数开源大模型Kimi K2，展现强大智能能力；2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统；3.通义千问发布桌面客户端Qwen Chat；4.IndexTTS2实现影视级语音合成；5.HuggingFace开源机器人Reachy Mini热销；6.Meta推出实时视频生成模型StreamDiT；7.PixVerse新增多关键帧视频生成功能；8.特斯拉推出仅支持AMD处理器的Grok AI助手；9.OpenAI推迟开源大模型发布以加强安全测试；10.Liquid AI开源边缘AI模型LFM2；11.AI"时间穿越"特效在社交媒体走红。

人工智能开源大模型技术趋势
荐AI日报：字节将发布AI编程工具TRAE2.0版本；Mistral重磅推出音频模型Voxtral；月之暗面回应Kimi K2 API速度慢

AI日报栏目聚焦AI领域最新动态：1)字节跳动将发布TRAE 2.0编程工具，新增语音交互功能；2)Mistral推出开源音频模型Voxtral，支持多语言；3)月之暗面回应Kimi K2API速度慢问题，正在优化系统；4)昆仑万维发布AgentOrchestra框架，实现多智能体协作；5)OpenAI前CTO创立的Thinking Machines Lab获20亿美元融资；6)Kimi-2上线，性能超越GPT-4.1；7)TRAE推出Kimi-K2模型服务，国际版支持Grok-4；8)字节跳动Seed�

人工智能编程工具字节跳动
荐A日报：B站升级动漫视频生成模型AniSora V3；字节开源4D视频生成框架EX-4D；DeepSWE开源AI Agent系统强势登顶

AI日报栏目汇总了近期AI领域的重要进展：1)字节跳动开源EX-4D框架，可将单目视频转换为多视角4D视频；2)B站开源动漫视频生成模型AniSora V3，支持多种风格；3)DeepSWE+开源基于Qwen3-32B的AI Agent系统；4)字节开源3亿参数图像编辑模型VINCIE-3B；5)Stability AI推出移动端音频生成模型Stable Audio Open Small；6)谷歌发布免费教育AI工具套件Gemini for Education；7)Topview推出革命性AI数字人带货技术Avatar

人工智能 AI技术趋势 4D视频生成
全球优质AI语音大模型盘点：Whisper、Gemini Speech

本文分析了当前主流AI语音大模型的核心优势与应用场景。全球顶尖模型包括：OpenAI Whisper（多语言识别与翻译）、Google Gemini（情感化语音生成）、Meta AudioCraft（音乐创作与风格转换）。国内讯飞星火（方言识别）、阿里通义（电商客服）、百度文心（车载场景）表现突出。技术突破点在于云端协同架构、零样本克隆和情感语音合成。选择模型需考虑语言支持、场景适配、部署

AI语音大模型语音交互技术多语言识别
荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

本文介绍了AI领域多项重要进展：1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen，显著提升建模效率；2)阿里发布多模态大模型HumanOmniV2，准确率达69.33%；3)钉钉AI表格实现1小时处理千项任务；4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级；5)微软推出Deep Research智能体，自动化研究流程；6)香港理工与OPPO联合开源视频超清框架DLoRAL；7)谷歌开源MCP工具箱简化AI与数据库集成；8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。
荐AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

【AI日报】今日AI领域重要动态：1)阿里开源支持链式推理的音频生成模型ThinkSound，实现高保真空间音频生成；2)谷歌Veo3升级，支持静态图片生成生动视频；3)Hugging Face发布30亿参数小模型SmolLM3，性能优于Llama-3.2-3B；4)阿里开源网络智能体WebSailor，展现强大推理和检索能力；5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5；6)Vidu Q1支持最多七张参考图像生成一致性视频；7)苹果�

人工智能音频生成链式推理
荐AI日报：xAI 震撼发布Grok4；微软开源全新Phi-4-mini版本；上海累计82款大模型通过备案

AI日报栏目聚焦人工智能领域最新动态：1)xAI发布旗舰模型Grok4，在数学推理和代码生成表现突出，同时推出开发者专用Grok4Code；2)微软开源Phi-4-mini模型，推理效率提升10倍，适合边缘设备；3)上海82款大模型完成备案，垂直领域应用取得突破；4)Hugging Face推出开源桌面机器人Reachy Mini，支持Python编程；5)Perplexity发布AI浏览器Comet挑战Chrome；6)OpenAI将首次发布开放权重模型，打破闭源惯例；7)谷歌医疗AI模型MedGemma系列上新，单个GPU即可运行；8)OpenAI以约65亿美元收购AI硬件公司io Products，正式进军硬件市场。
当空间智能学会思考：飞渡科技“峥嵘大模型”重塑智慧城市新一代“运行内核”

飞渡科技的"崑仑大模型"通过空间智能技术，构建了城市级数字底座，实现从物理世界到数字空间的映射。该技术已在智慧城市、智慧交通、低空经济、地下管网、灾害监测、文化保护等领域应用，推动城市治理从"被动应对"转向"主动预测"。在智慧交通领域实现毫秒级路网状态识别和动态信号优化；在地下管网实现毫米级泄漏预警；在低空经济构建超低空动态感知网络。该技术还应用于文化遗产数字化保护，通过三维建模留存历史建筑细节。飞渡科技表示，空间智能的价值在于共享，未来将与全球伙伴共建数字中国的空间智能新生态。
刷屏世俱杯的RGB-Mini LED有多能打？央视拆机探秘看球黑科技

海信在2025世俱杯期间展示了其RGB-Mini LED电视技术，通过红绿蓝三原色独立背光光源实现更纯净色彩和更高能效。相比传统电视需要二次色彩转换，该技术直接呈现原色，解决了拖影、色偏等问题，能效提升20%以上。海信通过自主研发的AI画质芯片和RGB背光芯片，攻克了三原色同步控制等技术难题。该技术已应用于85-116英寸大屏电视，成为行业认可的下一代显示方向，标志着中国显示技术从跟随到引领的跨越。

今日大家都在搜的词：

热文

3 天
7天

商汤科技推出Vimi视频生成大模型 C端应用Vimi相机开放内测

荐A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布ChatGPT Agent；Suno推人声替换功能

荐A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0；通义千问发布Qwen Chat桌面客户端

荐AI日报：字节将发布AI编程工具TRAE2.0版本；Mistral重磅推出音频模型Voxtral；月之暗面回应Kimi K2 API速度慢

荐A日报：B站升级动漫视频生成模型AniSora V3；字节开源4D视频生成框架EX-4D；DeepSWE开源AI Agent系统强势登顶

全球优质AI语音大模型盘点：Whisper、Gemini Speech

荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

荐AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

荐AI日报：xAI 震撼发布Grok4；微软开源全新Phi-4-mini版本；上海累计82款大模型通过备案

当空间智能学会思考：飞渡科技“峥嵘大模型”重塑智慧城市新一代“运行内核”

刷屏世俱杯的RGB-Mini LED有多能打？央视拆机探秘看球黑科技

今日大家都在搜的词：

热文

华为 MatePad Pro 12.2 英寸 2025 官宣 7 月 24 日发布

苹果iOS 26公测版本周发布：预计7月23日亮相

黄仁勋：总感觉公司快倒闭了任CEO没有趣味每一秒都有压力

华为Pura 80标准版7月23日开启预售

特斯拉Model3全球销量达300万辆夏日福利大放送

A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布Chat

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

黄仁勋称想买一辆小米汽车英伟达在多方面与小米开展合作

华为鸿蒙智行：尊界S800上市50天大定破8000台

贾跃亭旗下FF获1.05亿美元融资将加速FX Super One生产交付

华为MatePad Pro 12.2开启预约预计7月24日正式发布

理想i8开启预定：7月29日上市预售价35-40万元

小米深圳大厦开园：卢伟冰现场喝小米粥

小米骨传导耳机2发布：699元 7月21日开售

OPPO K13 Turbo系列支持IPX9/IPX8/IPX6满级防水将于7月21日发

站长商机