首页 > 业界 > 关键词  > 视频生成最新资讯  > 正文

马斯克炫酷变身毒液!实测通义Wan2.1首尾帧视频模型,还能“拼接”经典梗图

2025-04-21 08:58 · 稿源:量子位公众号

在GitHub狂揽1w+星标的通义万相Wan2.1,又双叒上新了!最新打开方式是酱婶儿的:给出开始(首帧)和结束(尾帧)两张图片,Wan2.1便能分分钟生成一段丝滑的5s、720p视频。根据前后视角的不同,还能自动调整镜头角度,缓慢变成高空俯拍,并同时保证人物光影正确:原来这是阿里通义万相Wa

......

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 阿里开源通义万相2.2:可生成电影级高清视频

    阿里云宣布旗下通义万相2.2模型正式开源。 通义万相2.2最令人瞩目的,当属其生成电影级高清视频的能力。目前,该模型单次便可生成5秒的高清视频。 这5秒视频绝非普通水准。在光影、色彩、构图以及人物微表情等细节处理上,通义万相2.2达到了专业电影制作的水平。 此次开源,通义万相2.2推出了文生视频(Wan2.2-T2V-A14B)、图生视频(Wan2.2-I2V-A14B)和统一视频生成(Wan2.2-TI2V-

  • 昇腾算力赋能视频生成革命 浙江大学团队攻克长时一致性难题

    浙江大学朱凌霄团队基于昇腾AI平台,研发出首个无需训练的长序列视觉指令生成框架LIGER,解决了视频生成领域长期存在的时序一致性难题。该技术通过历史提示和视觉记忆机制保持内容连贯性,并采用基于DDIM反演的记忆校准技术提升准确性。团队还提出引导式渐进蒸馏方法,在保持视频质量基础上实现8倍加速。研究成果入选ICLR2025,构建了包含569个任务的评估数据集。未来将深化多模态生成技术研究,构建自主创新的技术生态体系。

  • 腾讯旗下AI工作台ima上线新功能:支持上传文件生成AI播客

    腾讯旗下AI工作台ima迎来重大升级,以活知识库 大模型的深度耦合重构知识管理体系。 此次更新突破性地实现了多模态知识转化用户上传文件即可生成AI播客,Xmind思维导图经智能解析后自动沉淀为结构化知识库,共享知识库更支持关键信息置顶功能。 这些创新使得碎片化知识如同被注入生命力,通过动态重组转化为驱动组织进化的智能中枢。

  • 虹软旗下PSAI新功能上线:2天极速交付电商视觉成品,AI商拍再进阶

    虹软科技旗下智能商拍平台PSAI推出"AI服务助手"新功能,通过"提需求-拿成品"的一站式交付模式,将传统电商视觉制作周期从15天压缩至2天,成本削减超80%。该功能基于自研ArcMuse大模型技术引擎,实现四大突破:1)精准换脸技术保持模特形象一致性;2)服装版型材质细节处理更真实;3)智能光影协调确保场景融合自然;4)全流程托管服务支持48小时急速交付。目前已服务500+KA品牌,累计生成超3000万张图片,典型案例显示使用后商家GMV最高提升200%。PSAI通过"AI生成+修复"组合技术,正在重构电商视觉生产关系,推动行业从工具创新向生产流程变革演进。

  • 不止霸榜618!灵宇宙WAIC首秀新功能:拍玩具“活”过来,这才是AI万物有灵

    灵宇宙AI学伴小方机在2025世界人工智能大会(WAIC)上展示创新成果。这款专为3-15岁儿童设计的智能终端,凭借多模态交互方案成为展会人气产品。其核心亮点包括:1. "魔法唤醒学院"新功能,让玩具化身可对话角色,实现虚实融合;2. 内置一键通话和实时定位功能,解决家长安全焦虑;3. 基于哈佛Project Zero思维模型,通过"观察-提问-推理-拓展"引导孩子系统化学习。产品采用轻量化设计,整合火山、商汤等AI技术,支持图像识别、语音交互和角色扮演。区别于传统教育硬件,它通过LingOS系统实现"万物有灵"的沉浸式体验,让物理世界中的物体都能与孩子互动。创始人顾嘉唯表示,这不仅是学习工具,更是孩子的第一个AI伙伴,代表下一代智能终端的演进方向。

  • 全球用户超4500万!可灵AI发布灵动画布等全新功能

    在2025世界人工智能大会(WAIC)的生成式AI应用元年”论坛上,快手可灵AI发布了全新创意工作台灵动画布”并对其多图参考”功能进行了重磅升级。 灵动画布”集无限可视化空间、智能创作辅助与多人实时协作为一体,为创作者提供一站式创作体验。 升级后的多图参考”功能在角色/主体/场景一致性、动态质量和画风保持方面显著提升,并新增了局部内容或特定区域参考能�

  • OpenAI发布2款开源模型:gpt-oss系列 能力接近o3和o4-mini

    OpenAI发布开源模型系列GPT-OSS,包含120B和20B两个版本。120B旗舰模型适配单H100 GPU架构,20B轻量版适合边缘计算。两款模型均开放完整推理链监控接口,支持动态参数调节和任务微调优化,性能接近闭源的GPT-O3和O4-mini。该系列突破性地支持代理功能,包括网页交互和Python代码执行,在标准化测试中表现优异。开源策略为开发者提供高性能替代方案,重新定义了AI模型的应用边界。

  • AI日报:火山引擎发布豆包3.0;通义开源Qwen3非思考模型;谷歌偷偷升级Imagen 4

    【AI日报】栏目聚焦人工智能领域最新动态:1)火山引擎发布豆包系列AI模型升级,包括图像编辑3.0、同声传译2.0等;2)通义千问开源Qwen3-30B模型,支持多语言处理;3)OpenAI推出ChatGPT Study学习助手;4)中国发布HYPIR图像复原大模型;5)谷歌NotebookLM新增视频概览功能;6)谷歌Imagen4图像生成模型升级,性能媲美GPT-4o;7)昆仑万维开源多模态模型Skywork UniPic;8)理想汽车发布首搭VLA大模型的i8纯电SUV;9)谷歌在英国推出AI搜索模式;10)OWL团队开源多智能体协作工具;11)2025年用户增速最快APP榜单显示DeepSeek等AIGC应用表现突出。

  • AI日报:混元推四款小尺寸开源模型;昆仑万维发布新推理大模型MindLink;谷歌Gemini 2.5 Deep Think发布

    【AI日报】汇总了最新AI领域动态:1)腾讯开源混元系列小尺寸模型,适用于消费级显卡;2)昆仑万维发布推理大模型MindLink,提升回答透明度;3)B站推出AI原声翻译功能,保留UP主音色;4)谷歌Gemini 2.5在数学奥赛夺金,展现强大推理能力;5)OpenAI展示GPT-5网络信息整合特性;6)苹果组建AI团队挑战ChatGPT;7)高德地图推出全球首个AI原生地图应用;8)Adobe推出AI图像合成工具Harmonize;9)NVIDIA发布革命性视频渲染技术;10)谷歌推出Android Studio免费AI编程助手;11)开源结构化信息提取工具LangExtract;12)Figma开发者模式升级提升设计转代码效率。

  • 从数字世界迈向物理世界!清华×生数发布最新成果Vidar,基于视频大模型实现机器人物理操作

    清华大学生数科技团队研发的Vidar模型实现具身智能重大突破,首次让通用视频大模型具备"手脚"功能。该模型通过三级数据架构(海量通用视频+中等规模具身视频+少量机器人特定数据),仅需20分钟机器人真机数据即可快速泛化到新机器人本体,数据量仅为行业领先方法的1/80-1/1200。Vidar创新性地将任务解构为上游视频预测和下游动作执行,结合逆动力学模型实现视觉-

热文