首页 > 业界 > 关键词  > Video-ChatGPT最新资讯  > 正文

视频解析工具Video-ChatGPT上线 可用文本描述视频内容

2023-05-29 16:08 · 稿源:站长之家

站长之家(ChinaZ.com)5月29日 消息:虽然像Runway ML这样的公司在将文本转换为视频方面取得了长足的进步,但 VideoChatGPT却另辟蹊径,赋予语言模型分析视频的能力。Video-ChatGPT 可以用文本描述视频的内容,例如,通过突出显示不寻常的元素来解释为什么剪辑可能很有趣。

开发人员通过一段长颈鹿从跳水板上跳入水中的视频来演示这一点。Video-ChatGPT 指出:“这并不常见,因为长颈鹿并不擅长杂技或潜水。”

链接到开源语言模型的预训练视频编码器

研究人员将 Video-ChatGPT 的设计描述为简单且易于扩展。它使用预训练的视频编码器,并将其与预训练然后微调的语言模型相结合。

QQ截图20230529160513.jpg

尽管名称如此,阿布扎比穆罕默德·本·扎耶德人工智能大学的项目并未使用 OpenAI 技术。相反,研究人员嵌入了一个线性层,将视频编码器连接到语言模型。

除了要求特定任务的用户提示外,语言模型还会使用定义其角色和一般工作的系统命令进行提示。

人机增强数据集

研究人员结合使用人工注释和半自动化方法来生成高质量数据,以微调 Vicuna 模型。这些数据的范围从详细描述到创造性任务和访谈,涵盖了各种不同的概念。

总的来说,该数据集包含大约86,000个高质量的问答,一些由人类注释,一些由 GPT 模型注释,一些由图像分析系统的上下文注释。

QQ截图20230529160526.jpg

Video-ChatGPT 的核心是其结合视频理解和文本生成的能力。它在视频推理、创造力和对时间和空间的理解方面的能力已经过广泛测试。

多模态人工智能未来

在最近文本生成取得重大进展之后,OpenAI 和谷歌等公司正在转向多模态模型。Bard 理解并可以对图像做出反应,并在其正式发布时展示了这些能力。

从图像到移动图像将是下一个合乎逻辑的步骤。谷歌已经宣布开发一款将于今年晚些时候发布的 带有 Project Gemini 的大型多模式 AI 模型。

举报

  • 相关推荐
  • GEO如何改变ChatGPT搜索和Perplexity的游戏规则

    本文对比ChatGPT与Perplexity两大AI搜索平台:ChatGPT作为全能型助手,整合搜索与多任务处理,但存在信息时效性不足;Perplexity专注垂直搜索,强调引用透明与权威来源。针对AI搜索优化(GEO),提出差异化策略:面向ChatGPT需构建结构化知识库、强化品牌实体识别;面向Perplexity需注重权威数据引用和元数据优化。文章还介绍了AIBase的GEO监测工具,通过曝光率等指标量化内容在AI生态中的可见度,并给出可落地的优化行动方案。

  • 如何让你的内容被 ChatGPT 优先引用?——GEO 优化实战指南

    传统SEO追求"谷歌首页排名",生成式AI时代则需追求"被AI引用"。AI模型不提供明确排名算法,更像黑箱,使内容创作者困惑。GEO优化的核心是让内容具备"可引用性":权威清晰、结构化信息、语义覆盖多维度、模型检索映射。需通过AIBase等GEO排名查询工具验证"AI曝光率",分析引用语境、竞争差距,调整内容结构以提升AI引用倾向。SEO优化机器如何找到你,GEO则优化AI如何引用你。

  • 如何提升品牌在AI回答中的提及率?GEO优化3招,让ChatGPT主动提及你的品牌

    本文探讨AI搜索时代品牌面临的"隐身危机",指出AI搜索用户年增538.7%,但品牌在AI回答中提及率不足20%。提出三大核心策略:1)构建权威背书矩阵,通过知乎等高权重平台获取自然提及;2)优化AI友好内容,采用对话式标题和结构化数据;3)建立数据监测闭环,通过A/B测试持续迭代。强调需善用监测工具实时追踪品牌在豆包、文心一言等AI模型的曝光表现,避免内容"注水"。最终实现从"被动等待"到主动抢占AI"第一屏"的转变。

  • OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

    OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas,以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动,实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS,未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用,其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史,旨在通过自然对话提升网络使用效率。

  • ChatGPT正秘密测试私信功能:支持用户之间直接交流

    OpenAI正在为其明星产品ChatGPT测试名为私信”(Direct Messages)的社交功能。 这一变化意味着ChatGPT正从原本用户与AI单向交互的语言模型工具,逐步转向具备人与人通过AI连接”能力的社交平台。 OpenAI此次测试的私信”功能允许用户创

  • AI日报:阿里夸克“C计划”曝光;Veo3.1将增加视频“精确编辑”功能;Anthropic推出Claude Code网页版

    今日AI领域动态:阿里夸克启动"C计划"布局对话式AI应用,剑指字节"豆包";Anthropic推出Claude Code网页版,支持浏览器直接编码;谷歌Veo新增视频"精确编辑"功能,提升创作效率;Fish Audio升级S1语音克隆模型,10秒即可复刻真人声音;AWS美东故障影响ChatGPT等多项服务;DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈;Adobe推出AI Foundry服务,支持企业定制品牌AI模型;Anthropic发布Claude for Life Sciences,加速生命科学研究。

  • Vidda 火星基地亮剑:C5 领衔四件套,改写影音产品性能规则

    Vidda在AWE展会发布多款创新产品:C5无界Master投影仪搭载SST架构DMD芯片、双激光器和122mm影院级镜头,实现6800CVIA高亮度和精准色彩;发现X2026电视采用"墨晶屏"技术,解决强光反光问题;同时推出V11开放式耳机与G11智能眼镜,以轻量化设计提升佩戴体验。整场发布会通过实机拆解和极限测试,展现品牌"技术平权"理念,强调用户体验优先于参数竞争。

  • AI日报:微软发布首款自研图像生成模型 MAI-Image-1;百度世界大会时间公布;AI大牛开源nanochat教学工具

    微软发布首款自研图像生成模型MAI-Image-1,跻身LMArena前十,注重实用性与光影效果;百度世界2025大会将聚焦大模型与AI全球化战略;Meta新技术使RAG推理速度提升30倍;开源项目nanochat实现低成本构建聊天AI;谷歌NotebookLM新增动漫视频生成功能;中国农大发布神农大模型3.0助力智慧农业;腾讯启动"青云奖学金"培养AI人才;苹果FS-DFM模型长文本生成效率提升128倍;谷歌Lens整合AI图像编辑功能;港大与美团提出CodePlot-CoT方法,通过代码绘图解决数学难题,性能提升21%。

  • AI日报:谷歌发布Veo 3.1;通义千问推Qwen Chat Memory功能;Sora2免费用户可生成15秒视频

    本期AI日报聚焦多项技术更新:谷歌Veo 3.1视频模型新增音频生成与精细化编辑功能;通义千问推出记忆功能提升对话连贯性;Sora2免费用户可生成15秒视频,Pro版支持25秒;百度文心助手升级8种创作模式;谷歌Flow工具增强视频光影编辑与音频合成能力;Anthropic发布高性价比Claude Haiku 4.5;北京查处首例AI虚假广告案,涉伪造主持人带货;阿里推出响应仅200毫秒的编程工具Qoder CLI。

  • 超擎速度!全国首批NVIDIA DGX Spark率先抵达超擎数智,现货在仓,交付启动

    10月19日,全国首批NVIDIA DGX Spark桌面级AI超算率先抵达超擎数智并开始交付。这款"全球最小AI超算"在发布72小时内落地中国市场,为企业和科研机构提供强劲算力。产品预装完整AI软件栈,实现开箱即用,配备详细快速指南和专业支持团队,助力开发者无缝对接顶尖计算能力,加速AI本地化开发创新。

今日大家都在搜的词: