首页 > 业界 > 关键词  > VSP最新资讯  > 正文

VSP-LLM:可通过观察视频中人的嘴型来识别唇语

2024-02-28 17:46 · 稿源:站长之家

站长之家(ChinaZ.com)2月28日 消息:VSP-LLM是一种通过观察视频中人的嘴型来理解和翻译说话内容的技术,也就是识别唇语。该技术能够将视频中的唇动转化为文本(视觉语音识别),并将这些唇动直接翻译成目标语言的文本(视觉语音翻译)。不仅如此,VSP-LLM还能智能识别和去除视频中不必要的重复信息,使处理过程更加快速和准确。

VSP-LLM的开发基于AV-HuBERT模型代码,后者是Facebook开发的一个自监督的视觉语音模型。AV-HuBERT能够从视频中学习语音表示,尤其是从人的唇动中识别语音信息。因此,VSP-LLM利用了AV-HuBERT在视觉语音识别方面的先进技术,作为其视觉语音处理组件的基础。

image.png

项目地址:https://top.aibase.com/tool/vsp-llm

该技术结合了视觉语音处理和大语言模型(LLMs)的新型框架,旨在利用LLMs的上下文理解能力来提高视觉语音识别和翻译的准确性和效率。

VSP-LLM的工作原理包括自监督学习、去除输入帧中的冗余信息、利用大语言模型进行上下文建模、多任务执行和低秩适配器(LoRA)。

首先,通过自监督学习的方式,VSP-LLM训练一个视觉语音模型来理解和识别视频中提取的唇动作。自监督学习使得模型能够在没有明确标注的数据情况下,通过自我生成的反馈来学习和提取有用的信息。

其次,为了提高处理效率,VSP-LLM设计了一种去重方法,通过识别视觉语音单元减少输入帧中的冗余信息,进而减少模型需要处理的数据量。

然后,通过将自监督视觉语音模型提取的信息映射到LLMs的输入空间中,VSP-LLM能够实现视觉到文本的映射,进而利用LLMs的上下文建模能力来理解和翻译视频中的唇动作。

此外,VSP-LLM能够执行多任务,包括将视频中的唇动作识别为具体文本(视觉语音识别)或直接翻译这些唇动作成目标语言的文本(视觉语音翻译)。

最后,为了进一步提升训练的计算效率,VSP-LLM采用了低秩适配器(LoRA)技术,这种优化训练过程的方法能够减少计算资源的需求。

举报

  • 相关推荐
  • 小米汽车回应YU7门把手是否会冻住:可通过敲击等方式破冰

    针对网友关注的冬季门把手使用问题,小米官方也给出了具体应对方案。在极寒天气下,若门把手表面出现结冰情况,其翻盖可向车内运动,车主可通过按压、敲击等方式进行破冰操作。若破冰后碎冰落在门把手窝内,车主可自行清除;若碎冰较少,也可等待翻盖复位时将碎冰推出。

  • 如何用 DeepSeek 生成简洁吸引人的招聘广告

    本文介绍如何利用AI工具DeepSeek快速生成优质招聘广告。在当前激烈的招聘竞争中,高效产出优质广告至关重要。操作流程包括:1.访问DeepSeek官网注册登录;2.输入具体指令,如"帮我撰写针对XX岗位的招聘广告";3.查看生成结果并进行优化调整;4.复制最终文案用于各大招聘平台发布。该工具能快速生成简洁吸引人的广告内容,包含企业亮点和应聘方式,适用于智联招聘、BOSS直聘等平台,帮助HR提升招聘效率。

  • 巴菲特⻘睐的ROE探索法―Reporto让你三步 识别⼀家好公司

    文章介绍了巴菲特推崇的ROE(净资产收益率)分析方法,通过三步法识别优质公司:1)基准衡量,判断公司ROE是否常年保持在15%以上;2)趋势分析,考察ROE的长期稳定性;3)杜邦分析,拆解ROE的驱动因素(净利率、资产周转率、财务杠杆)。文章以苹果和微软为例,说明如何通过ROE分析评估公司盈利质量。最后推荐了AI工具Reporto,能简化财务数据分析流程,自动生成可视化�

  • 自主操作系统技术演进:银河麒麟KYSDK六大核心能力升级观察

    银河麒麟桌面操作系统V10+SP12503发布,配套KylinSDK开发者套件迎来重大升级。新版SDK从系统能力、基础开发、应用支撑、系统安全、AI能力和开发工具等6大模块进行全面优化,显著提升开发效率。新增开明格式支持、多屏幕适配方案、Windows风格接口等功能,并强化了配置管理、安全审计等企业级特性。AI模块支持文本生成、图像处理、语音识别等智能功能,开发工具新增网页应用打包等便捷功能。此次升级降低了国产操作系统应用开发门槛,特别满足金融、政务等行业对系统可控性的严苛要求,为国产操作系统商业化开辟更广阔路径。

  • 易贸小助“任务大厅”: 让外贸人的每一份努力都被看见

    外贸行业存在零散需求对接难、个人技能变现难、经验转化难等问题。"任务大厅"平台应运而生,通过智能匹配连接供需双方:企业可发布翻译、市场调研等碎片化需求,个人可承接擅长任务获取收益。平台特点包括:1)简化流程,一键发布/接单;2)明码标价,小至翻译合同,大至代运营;3)信用积分体系保障服务质量。该模式让企业低成本解决临时需求,个人实现�

  • 欧税通:加拿大市场常见检测认证类有哪些?什么产品需要?

    本文介绍了跨境电商进入加拿大市场所需的合规认证要求。重点解析了两种关键认证:SOR认证针对儿童玩具,需检测有害物质确保安全性;CCPSA认证适用于纺织服装,包含阻燃性、化学物质限制等测试。文章还提及需遵守标签法规、环保法规等要求,如魁北克省需法语标签。这些认证是进入加拿大市场的"通行证",帮助卖家突破贸易壁垒,拓展全球业务。

  • 如何用deepseek生成短视频脚本

    本文介绍如何利用DeepSeek工具快速生成30秒短视频脚本。该工具可根据用户需求,自动生成包含开场悬念、核心干货、反转情节和结尾互动的优质脚本。操作流程包括:1.登录DeepSeek官网;2.输入具体指令(如"生成洗发水广告脚本,需包含开场悬念+3个核心干货+结尾互动");3.检查并优化脚本内容;4.补充画面风格、背景音乐等细节。通过多次指令调整可获得更理想的脚本

  • 有钱人的6样聪明消费,让你越活越富有,健康才是一位!

    现代社会中,许多人陷入"越赚越穷"的怪圈,根源在于错误的消费观念。文章指出,富人通过6种明智消费实现财富增长:1.健康投资是根本,包括有机食品、健身装备和抗衰老产品;2.优质教育资源能带来长期回报;3.高回报资产如房产、股票等;4.提升效率的工具;5.拓展优质人脉网络;6.购买耐用经典物品。这些消费本质是投资,能创造持续价值。真正的财富增长不在于收入多少,而在于让钱为你工作。通过转变消费观念,将支出转化为增值投资,普通人也能逐步实现财务自由。

  • 新店落地、大手笔收购、自研AI玩具上市 | 孩子王“开放无界”战略深化

    孩子王近期加速推进"开放无界"战略,通过多元化门店布局和产业投资实现业务升级。6月推出全新Ultra门店,融合潮玩、AI等元素打造儿童时尚空间;同时加快精选店在下沉市场扩张,已布局12家自营优选小店。公司还通过1.62亿元收购上海幸研生物60%股权切入美妆赛道,并完成对江苏星丝域65%股权收购强化产业链协同。在AI领域,孩子王推出自研智能情感陪伴玩偶"啊贝贝",并升级基于DeepSeek V3大模型的KidsGPT系统,提升95%育儿知识问答覆盖率。目前直营门店突破1200家,覆盖全国200+城市,服务9400万会员,正从商品销售向"兴趣社交+科技陪伴"的体验经济转型。(来源:CBME洞察)

  • 微信回应鸿蒙版生物识别灰度慢:安全要求高 比较谨慎

    5月18日微信鸿蒙版迎来1.0.6.41版本更新,主要新增查看接收笔记功能,并扩大人脸/指纹支付的灰度测试范围。目前该版本已支持基础通讯、社交互动、微信支付等核心功能,兼容公众号、小程序等内容生态,实现手机/平板双端登录和深色模式等个性化设置。微信员工表示因涉及资金安全,支付功能仍保持谨慎放量测试。自1月登陆华为应用市场以来,微信鸿蒙版安装量已突破400万,发展迅速。