首页 > 业界 > 关键词  > Pandora最新资讯  > 正文

Pandora:根据自然语言指令生成动作和视频的通用世界模型

2024-05-24 15:00 · 稿源:站长之家

划重点:

🔍 Pandora 是一个通向通用世界模型(GWM)的重要步骤,通过生成视频来模拟任何领域的世界状态。

🔍 Pandora 可以接受自然语言输入作为动作,并在视频生成过程中实时控制视频内容,与之前只能在视频开始时输入文本提示的文本到视频模型有着关键的不同。

🔍 Pandora 还可以生成基于相同初始状态但不同动作的多个替代未来的视频,让用户能够自主控制未来的发展。

站长之家(ChinaZ.com)5月24日 消息:Pandora 是一个研究通用世界模型(GWM)的重要进展,其目标是通过生成视频来模拟任何领域的世界状态,并提供自然语言的实时控制。

与之前的文本到视频模型不同,Pandora 可以接受自由文本的动作输入,实现在视频生成过程中对视频内容的实时控制。这种实时控制的能力实现了世界模型的互动内容生成承诺,并增强了强大的推理和规划能力。比如生成视频的过程中,用户可以输入指令如“让汽车向左转弯转”、“汽车前方发生爆炸事故”,Pandora 会即时地根据这些指令调整视频内容,实现动态控制。

image.png

产品入口网址:https://top.aibase.com/tool/pandora

Pandora 还能够生成基于相同初始状态但不同动作的多个替代未来的视频。用户可以通过输入不同的动作来控制视频的发展方向,实现对未来的自主控制。这种能力使得世界模型不再只是模拟替代未来,而是能够真正实现对未来的控制。

Pandora 能够在各种通用领域生成视频,包括室内 / 室外、自然 / 城市、人类 / 机器、2D/3D 等场景。通过使用高质量数据进行指导和训练,模型可以学习有效的动作控制,并在不同领域中实现迁移学习。例如,Pandora 在训练时只接触过2D 游戏 Coinrun,但可以无缝地将学到的动作应用于其他2D 游戏。

Pandora 将视频模型与自主生成的 Pandora 背骨结合在一起,可以生成更长的视频,甚至可以达到无限长度。通过这种结合,Pandora 能够生成长达8秒的视频,即使训练时的视频长度最多只有5秒。

然而,作为通向 GWM 的初步步骤,Pandora 仍然存在一些限制。它可能无法生成一致的视频,模拟复杂场景,理解常识和物理定律,以及遵循指令 / 动作。

Pandora 是通向通用世界模型的重要一步,它通过自然语言动作和视频状态的模拟生成,实现了对未来的自主控制,为交互式内容生成、强大的推理和规划能力提供了支持。

举报

  • 相关推荐
  • 大厂押注的AI和视频化,能成为播客的好出路吗?

    长期在国内市场不温不火的播客赛道,正在焕发出越来越蓬勃的新机。 8月15日,自带流量和多重话题标签的罗永浩入驻B站,并宣布将开启一档视频播客节目《罗永浩的十字路口》,8月19日,罗永浩发布了第一条视频播客,与理想汽车创始人李想进行了近4小时的深度对话,一度引发热议,在B站内的观看量超230万。 而由罗永浩掀起的这一波流量热潮背后,可以看出B站对于视频

  • 降低创作门槛!爱诗科技新一代生成式大模型加速AI视频大众化

    爱诗科技8月27日发布新一代AI视频生成模型PixVerse V5,实现秒级高质量视频生成,支持360P至1080P分辨率。新模型在真实度、灵活性及生成速度上显著提升,覆盖人物、二次元、商业广告等多场景创作。同步上线Agent创作助手,降低使用门槛,用户无需专业技巧即可一键生成专业级视频。该技术推动AI视频从专业工具走向大众化应用,加速行业落地。

  • AI日报:字节视频模型Waver 1.0发布;百度AI搜索APP“梯子AI”发布;谷歌推全新Gemini 2.5 Flash图像编辑模型

    本文汇总了AI领域最新动态:谷歌推出Gemini 2.5 Flash图像编辑模型,字节发布Waver 1.0视频生成工具;百度“梯子AI”提供无广告搜索;文心快码新增终端编码功能;腾讯游戏VISVISE工具集提升动画制作效率;自动驾驶配送机器人RM5进军外卖行业;DeepSeek V3.1出现字符Bug已修复;谷歌翻译升级实时同传和AI陪练;全球首现AI勒索软件PromptLock威胁网络安全;Anthropic推出Chrome浏览器AI助手Claude。

  • 百度正式发布AI搜索APP“梯子AI”:主打无广告智能搜索!

    百度旗下的AI搜索AppTizzy.ai”已完成了前期的测试,并正式更名为梯子AI”上架。 这款应用最初于8月10日发布,当时名称为Tizzy.ai”,更新后版本号从1.0.0直接跳至1.2.0。 据介绍,梯子AI定位为智能搜索助手,依托百度多个大模型能力开发而成,主打无广告智能搜索,整合深度思考、资源检索及影视娱乐功能,致力于为用户提供简单搜索,一触即达”的极致体验。

  • 共建模数生态,PhotonPay光子易携手正菱链通数科探索数字金融与AI产业融合新路径

    光子易与珠海正菱链通数科达成合作,双方将围绕珠海“模数空间”构建“AI+数据要素”产业生态,探索数字金融基础设施在大模型创业、科技企业国际化中的应用。光子易将提供跨境支付、全球资金流转与合规金融服务,助力珠海打造数字经济发展高地。此次合作将重点支持AI企业及出海科技公司,提供跨境资金流通、合规出海及品牌共建等服务,推动数字科技在湾区的深度

  • 天虹积分“地图”再创新,会员全域服务再升级

    文章探讨零售服务中技术支撑的重要性,强调两个关键要素:一是全面构建商品流通渠道,包括线上线下门店及外部平台合作;二是建立覆盖全渠道的会员权益体系,如积分场景。指出当前积分服务存在跨平台覆盖不足问题,影响用户体验和数据整合,并介绍彩虹数科通过“无感积分”和AI拍小票积分等技术方案提升效率,实现会员服务的全域覆盖,优化购物全流程体验。

  • AI模型库哪个好?2025年主流AI模型选型指南与API成本对比推荐

    AI时代企业核心挑战已从“能否做AI”转向“如何高效集成AI能力”。AI模型库通过聚合全球主流模型,提供透明化成本与能力信息,帮助企业实现快速原型验证、精准选型和成本优化。这种基础设施降低技术门槛,使非技术背景决策者也能深度参与技术选型,加速创新迭代并降低试错成本。

  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • AI最新资讯在哪里看?AIbase:高效获取国内外AI新闻头条与行业动态

    文章探讨了AI时代信息过载的困境:有价值的前沿动态、重磅模型发布和行业解读分散各处,筛选成本高、效率低下。AIbase资讯导航站应运而生,通过四大核心功能解决痛点:1)聚合主流信源,过滤低质噪音;2)结构化分类呈现大模型动态、行业应用等六大板块;3)提炼核心要点,拒绝标题党;4)高频更新确保信息鲜度。该平台致力于成为AI领域的"信息雷达",帮助用户节省70%信息搜集时间,将精力聚焦于思考与创造。适用于技术负责人快速掌握行业动态、产品经理调研案例、投资人捕捉趋势等多元场景。

  • 央视网首场AI晚会七夕“AI心动夜”即将开启 联合可灵AI打造视听盛宴

    8月28日晚8点,央视频与快手可灵AI联合打造的七夕晚会“AI心动夜”正式开启。晚会以“AI视频叙事+传统文化”为核心,通过AI技术融合文化传承、艺术创作与情感表达,呈现跨越虚拟与现实、科技与文化交融的七夕盛典。节目包括《星河告白》《千年婚服秀》等,展现不同时代的爱情故事与中华婚服之美,同时通过《与妻书》《许愿吧》等作品探讨革命年代的深情与当代浪漫。晚会将在央视频、快手等平台同步直播,带领观众体验科技与文化的精彩碰撞。

今日大家都在搜的词: