Twelve Labs使视频内部搜索变得简单而强大

2022-03-17 08:00 · 稿源： cnbeta

随着视频在我们日常互动和创造的媒体中占的比重越来越大，跟踪和索引这些内容的需求也越来越大。Twelve实验室有一个总结和搜索视频的机器学习解决方案，可以使消费者和创作者更快、更容易。

这家初创公司提供的能力是能够输入一个复杂但模糊的查询，如"Courtney唱国歌的办公室聚会"，并立即得到不仅是视频，而且是视频中发生的时刻。在YouTube或大学档案馆里，你经常可以找到你想要的视频。但接下来会发生什么？你翻阅视频，寻找你要找的部分，或者翻阅文字记录，试图想出他们措辞的确切方式。

这是因为当你搜索视频时，你实际上是在搜索标签、描述和其他基本元素，这些元素很容易被大规模地添加。在浮现你想要的视频方面，有一些算法的魔力，但系统并没有真正理解视频本身。业界已经将问题过度简化，认为标签可以解决搜索问题。而现在许多解决方案确实依赖于，例如，识别出视频的某些帧包含猫，所以它添加了标签#cats。但是视频不仅仅是一系列的图像，而是复杂的数据。

Twelve实验室建立一个新的神经网络，它可以同时接受视觉和音频，并围绕它制定上下文；这被称为多模态理解。这是目前人工智能领域的一个热词，因为当人工智能系统狭隘地专注于一种"感觉"，如音频或静态图像时，我们似乎已经达到了理解世界的极限。例如，Facebook最近发现，它需要一个人工智能同时关注一个帖子中的图像和文字，以检测错误信息和仇恨言论。

对于视频，如果你看的是单个帧，并试图用带有时间戳的文字记录来进行联想，你的理解就会受到限制。当人们观看视频时，他们会自然地将视频和音频信息融合到角色、行动、意图、因果关系、互动和其他更复杂的概念中。

Twelve实验室声称其视频理解系统已经建立了类似的东西。人工智能被训练成从多模态的角度来处理视频，从一开始就将音频和视频联系起来，并创造他们所说的更丰富的理解，其中包括更复杂的信息，比如画面中项目之间的关系，连接过去和现在，就比如说，如果有一个YouTuber搜索“Beast先生挑战Joey Chestnut吃汉堡”，它就会理解挑战某人，以及谈论挑战的概念。

Twelve实验室将其工具构建成一个简单的API，可以被调用来索引一个视频（或一千个），生成一个丰富的摘要，并将其连接到一个选定的图表。因此，如果你记录了所有的手拉手会议或技能分享研讨会或每周的头脑风暴会议，那些变得可搜索，不仅仅是按时间或与会者，而是按谁说话，什么时候，关于什么，并包括其他行动，如画图或展示幻灯片等等信息。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
IBM申请名为 “LAB” 的专利，利用合成数据训练LLM

IBM近日申请了一项名为“LAB”的专利，旨在利用合成数据来训练LLM模型，以加速企业AI技术的发展。AI模型对数据有着巨大的需求提供大量、质量高、相关性强的数据常常成为一项挑战。IBM可能会利用这一专利来支持那些正在构建自己AI模型的企业，提供一种相对于收集真实用户数据言更少资源密集的方法。

IBM LLM AI头条
WeLab汇立集团获发明专利，加速数据处理能力！

WeLab汇立集团宣布由其创新研究中心团队研发的“数据对象的鉴权方法、终端及存储介质”获国家知识产权局颁发发明专利证书。该专利通过提供一种数据提取方法、装置、设备及存储介质，目的在于解决现有技术中提取特征指标值时，数据处理速度较慢的技术问题。通过采用这种高效、安全且灵活的数据处理技术，企业将能够在竞争激烈的市场中保持领先地位，为用户提供卓越的服务。

数据对象鉴权方法终端
聚势共赢同创未来｜联泰科技与Formlabs战略合作签订仪式圆满落幕

2024年3月26日，联泰科技与Formlabs战略合作签订仪式及技术交流会在广东东莞圆满落幕!本次战略合作的达成将进一步推动双方企业在3D打印领域的深度融合，以期用专业实力共筑增材制造行业发展新未来。联泰科技与Formlabs战略合作签订仪式现场联泰科技副总经理&营销中心总经理汪超先生表示，非常荣幸能够与Formlabs达成此次战略合作。联泰科技与Formlabs的携手同行将是增材制造领域对新质生产力的再一次生动诠释，期待双方在后续的合作中带给行业更多的精彩内容。

联泰科技 Formlabs 3D打印
最强大模型Llama 3正式发布已达GPT4级别

Meta公司宣布了一项重大技术进展，发布了其最新的开源模型——Llama3。这一模型包含两种参数规模:8B和70B，预计将于今年7月正式面世。MetaAI还整合了搜索功能，可以直接访问网络上的实时信息，无需切换应用。

Llama3 AI头条
CTRL-F-VIDEO：允许用户在视频中搜索特定的单词或短语

在数字化时代，视频已成为人们获取信息的重要渠道。查找视频中特定内容的效率一直是一个挑战。虽然项目还处于初级阶段，偶尔可能会出现一些小问题，但它提供了一个创新的思路，为视频内容的搜索和管理开辟了新的可能性。

视频 AI头条
荐AI日报：最强大模型Llama 3发布；Midjourney推社交新功能Room；超强AI视频自动剪辑工具Captions；手机上可以玩大模型了

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、最强大模型Llama3正式发布Llama3是Meta公司最新发布的开源模型，拥有80亿和700亿参数规模，预计7月正式发布。教师免费使用该AI平台设计个性化课堂体验，提供实时洞察力支持学�

Llama3
MoneyPrinterTurbo：一键自动生成短视频的开源工具视频时长可达1分钟

随着短视频在社交媒体和营销领域的普及，一款名为MoneyPrinterTurbo的工具应运生，旨在帮助用户轻松制作出专业品质的短视频。项目地址：https://github.com/harry0703/MoneyPrinterTurbo这款工具的强大之处在于，用户只需输入一个主题或几个关键词，就能自动生成一分钟长的短视频。且它是开源的，这意味着开发者可以不断改进和扩展其功能，为用户带来更好的体验。

MoneyPrinterTurbo AI头条
Meta将为智能眼镜引入强大AI功能

Meta将在4月为其Ray-Ban智能眼镜引入一系列相当强大的AI功能。这些新功能将允许用户通过一个简单的命令快速识别他们正在查看的物体。这些新功能无疑将为用户带来更加便捷、实用的智能眼镜体验。

Meta AI头条
WotoKOL旗下WotoHub海外红人智能营销云搜索全面升级

现如今海外网红营销赛道，已赫然成为商业领域中一股不容忽视的力量。就在在企业积极拓展海外市场疆界，寻求全球化战略布局过程中，有两个问题常常困扰大家:一方面，卖家尝试通过细微的标签找寻意向红人时，却因标签过多陷入搜索结果局限的窘境;另一方面，若选择放宽关键词范围，却又会导致搜索结果庞杂不精确，匹配意向红人如大海捞针。WotoHub坚守在技术创新前沿，依靠独到的战略远见与先进的算法力量，使用户能够更加广泛且有效地接触全球范围内的高品质带货红人，从为广泛的用户群打造卓越的产品应用体验，并最大化服务价值的输出。

海外网红营销全球化战略意向红人
OpenAI 转录了超过一百万小时的 YouTube 视频来训练 GPT-4

《华尔街日报》报道称，人工智能公司在收集高质量训练数据方面遇到了困难。《纽约时报》详细介绍了一些公司处理这一问题的方法，其中涉及到了人工智能版权法的模糊灰色区域。但这些公司的另一个选择是使用他们能找到的任何东西，无论他们是否获得许可，这可能会引发版权法方面的担忧。

人工智能数据收集训练模型

今日大家都在搜的词：

热文

3 天
7天

Twelve Labs使视频内部搜索变得简单而强大

今日大家都在搜的词：

热文

站长商机