首页 > 业界 > 关键词  > Video-ChatGPT最新资讯  > 正文

视频解析工具Video-ChatGPT上线 可用文本描述视频内容

2023-05-29 16:08 · 稿源:站长之家

站长之家(ChinaZ.com)5月29日 消息:虽然像Runway ML这样的公司在将文本转换为视频方面取得了长足的进步,但 VideoChatGPT却另辟蹊径,赋予语言模型分析视频的能力。Video-ChatGPT 可以用文本描述视频的内容,例如,通过突出显示不寻常的元素来解释为什么剪辑可能很有趣。

开发人员通过一段长颈鹿从跳水板上跳入水中的视频来演示这一点。Video-ChatGPT 指出:“这并不常见,因为长颈鹿并不擅长杂技或潜水。”

链接到开源语言模型的预训练视频编码器

研究人员将 Video-ChatGPT 的设计描述为简单且易于扩展。它使用预训练的视频编码器,并将其与预训练然后微调的语言模型相结合。

QQ截图20230529160513.jpg

尽管名称如此,阿布扎比穆罕默德·本·扎耶德人工智能大学的项目并未使用 OpenAI 技术。相反,研究人员嵌入了一个线性层,将视频编码器连接到语言模型。

除了要求特定任务的用户提示外,语言模型还会使用定义其角色和一般工作的系统命令进行提示。

人机增强数据集

研究人员结合使用人工注释和半自动化方法来生成高质量数据,以微调 Vicuna 模型。这些数据的范围从详细描述到创造性任务和访谈,涵盖了各种不同的概念。

总的来说,该数据集包含大约86,000个高质量的问答,一些由人类注释,一些由 GPT 模型注释,一些由图像分析系统的上下文注释。

QQ截图20230529160526.jpg

Video-ChatGPT 的核心是其结合视频理解和文本生成的能力。它在视频推理、创造力和对时间和空间的理解方面的能力已经过广泛测试。

多模态人工智能未来

在最近文本生成取得重大进展之后,OpenAI 和谷歌等公司正在转向多模态模型。Bard 理解并可以对图像做出反应,并在其正式发布时展示了这些能力。

从图像到移动图像将是下一个合乎逻辑的步骤。谷歌已经宣布开发一款将于今年晚些时候发布的 带有 Project Gemini 的大型多模式 AI 模型。

举报

  • 相关推荐
  • Chat Video:用GPT分析和总结视频

    ChatVideo是一个基于人工智能的视频分析和管理工具,致力于帮助用户高效学习和管理视频。在这个视频泛滥的时代,ChatVideo凭借其独特的AI技术,为用户节省大量时间,真正释放视频的价值。如果你希望高效管理视频,ChatVideo一定是你的最佳选择。

  • 谷歌版ChatGPT与旗下邮箱、视频、地图等,实现全面集成!

    9月20日,谷歌在官网宣布推出BardExtensions。借助该扩展用户可在谷歌的Gmail、谷歌文档、网盘、Google地图、视频等产品中使用Bard。当用户在Gmail、谷歌文档、网盘、Google地图、视频等产品中使用Bard时,其敏感数据将受到多重加密保护,不会被Bard查看、搜集用于训练AI模型。

  • 淘宝,多了一个“ChatGPT”入口

    正在悄然切换,进入AI时代。现在打开淘宝,搜索“淘宝问问”,你可以直接跳转到一个全新的页面。它还不是最终形态,如何让电商和AI更好地结合,找到那条打通最佳的用户体验和购物链路的路径,才是真正的挑战。

  • Rerender A Video源代码放出!解决AI视频闪烁问题

    RerenderAVideo是一项令人印象深刻的技术成果,它旨在将大型文本到图像扩散模型的能力扩展到视频领域。该项目提出了一种零训练的文本引导视频到视频翻译框架,能够在视频帧之间确保时间一致性,这一直是一个巨大的挑战。命令行支持:提供了灵活的命令行脚本,允许用户通过命令行参数控制翻译过程。

  • 开了眼的ChatGPT真让人开了眼了

    给自己放个假吧ChatGPT,再更新的这么快,网友的脑洞可就跟不上了。ChatGPT宣布了一次重要更新,然后有了全面的多模态能力。

  • 库克证实苹果正在开发,类ChatGPT产品

    9月29日,Appleinsider消息,苹果CEO蒂姆·库克在接受《伦敦标准晚报》采访时回应,正在加大对人工智能、机器学习人才的招聘,用于开发生成式AI产品。AI功能几乎遍布苹果的所有产品,例如,AppleWatch的跌倒检测、碰撞检测、心房颤动检测、心电图等,这些都是最典型的应用案例。相信在不远的将来,我们会在siri、iphone、iwatch等产品中,使用上苹果版ChatGPT。

  • ChatGPT的“地下经济”,给AI行业带来了什么?

    自从ChatGPT问世以来,大模型如何落地、盈利,就成了无数创业者都在思考的问题。一个尴尬的现实是,现阶段C端最受欢迎的一类AI应用,实在让人很难以启齿……尽管ChatGPT发布后,OpenAI十分注重模型的安全性、合规性,但还是有很多开发者攻破了ChatGPT的安全漏洞,让GPT实现了“越狱”,并开发出了各种突破限制的AI应用。这样的“预演”,在C端大模型落地困难的今天,无疑提供了一种另类的“经验”。

  • ChatGPT重磅升级:可以看图、听声音、说话啦!

    美东时间9月25日,OpenAI在官网宣布,对ChatGPT进行重磅升级实现看图、听声音、输出语音内容三大功能。早在今年3月OpenAI发布GPT-4模型时,就展示过看图的功能,但由于安全、功能不完善等原因一直没有开放。BeMyEyes将ChatGPT的看图功能,植入在应用中,为盲人和弱视群体提供服务。

  • ChatGPT开口说话了:五种不同语音 语气更像真人

    OpenAI宣布给聊天机器人ChatGPT增加了语音交谈的功能。这将给谷歌、苹果等巨头在智能语音助手领域带来冲击。OpenAI工作人员表示,他们已经测试了语音和图像功能,并增加了安全措施,以确保机器人对敏感话题作出适当的回应。

  • OpenAI 宣布自 GPT-4 发布以来的最大更新:ChatGPT 现在可以「看、听、说」

    OpenAI宣布,其聊天机器人ChatGPT现在可以「看、听、说」,或者至少能够理解口语,用合成的声音回应并处理图像。这次更新是自引入GPT-4以来OpenAI最大的一次改进。但该公司还指出,在此过程中转录被视为输入,并可能用于改进大型语言模型。