首页 > 传媒 > 关键词  > 刘建宏最新资讯  > 正文

标贝科技体育赛事解说合成数据集 赋能AI赛事解说应用落地

2023-06-15 15:37 · 稿源: 站长之家用户

说到看体育比赛,内行看门道,外行看热闹。而一场精彩的比赛,离不开一个好的解说员。 

例如,刘建宏的鬼畜解说:“巴拉克!巴拉克!巴拉克!巴拉克!巴拉克!!!巴拉克把球带丢了..........” 

解说界Raper黄健翔:“机会!打门!漂亮!漂亮! 11 号朱挺!中国队通过反复的进攻,把对方压在半场,连续围攻好几次,终于形成一次机会!” 

一位优 秀的体育解说员,通过声音让比赛更加生动,也让观众更好地理解和感受比赛,为比赛增添了许多趣味性、专业性、文化性。

但由于专业赛事具备一定的专业性,现场解说大多情况下只能关照某一层面的观众,对于资 深球迷、入门小白等不同人群的需求难以兼顾。此外,据统计全世界平均每年都有数万场大大小小不同水平的体育比赛,全部由人工来完成解说,成本大、效率也不高。如果由机器来代替真人解说,则可以根据不同赛事及观众的特点和需求来选择个性化解说。

就在今年 4 月结束的高尔夫美国大师赛上,AI解说就为 20000 多条比赛片段完成语音解说,让球迷直接体验了一把AI赛事解说的魅力。

AI赛事解说

据了解,高尔夫美国大师赛的AI解说功能,实际是由生成式AI完成。简单来说就是由一个大型语言模型构建而成,模型进行了大量高尔夫运动的用语习惯和风格训练,最终实现自动生成比赛片段的语音解说。

事实上,AI赛事解说也不是新鲜事了。

2015 年,百度推出奥运会历史上的第 1 位AI解说员“度秘”,参与解说 2016 年里约奥运会男篮1/ 4 决赛; 2018 年,俄罗斯Promobot公司研制的机器人成为美国福克斯体育频道体育新闻主持人,在节目中与真人主持对话、评论并预测比赛结果。

从体育赛事转播的角度来看,AI解说本质是为了有针对性的给球迷提供更好的观赛服务。

相较于真人解说,AI可以与高端分析软件结合,提供更快、更有洞察力的比赛数据分析,然后再通过AI语音将这些分析和解说呈现在转播视频上,大大丰富了观众第 一屏、乃至第二屏的观看体验。

标贝科技体育赛事解说合成数据集

但AI赛事解说还要面对一些现实问题。例如,机器解说通常缺乏明显的情感变化,而体育赛事中解说员适时的情感流露,往往是球迷最为津津乐道的部分。

因此,为了达到更好的语音解说效果和观众收听体验,开发者需要对AI解说员进行大量赛事相关的用语习惯和情感风格的模型训练。

针对AI解说场景,标贝科技基于专业级录音棚及优质声优资源,精心建立了AI赛事解说场景合成数据集,并完成对数据库的音字校对,韵律校对,重音拖音,情感语气词等标注,可供算法优化直接使用,确保合成出来的音色更具情感表现力、自然度更高。

标贝科技体育解说合成数据库

语种:中文普通话,中英混合

采集环境:专业录音棚,信噪比不低于35dB

数据时长: 8 小时中文, 2 小时中英混

录音语料:体育解说话术

采样格式:无压缩PCM WAV格式

采样率:48KHz 24bit

标注内容:音字校对,韵律校对,重音拖音,情感语气词

适用领域:体育赛事解说,游戏解说

欢迎对以上数据集感兴趣的行业伙伴联系我们~

如果以上数据不能满足您当前的需求,标贝科技还可以针对特定人群、特定场景、特定语种提供相应的数据定制化服务,全力帮助企业客户得到满意的数据服务。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • 海尔智慧楼宇助力亚洲最大体育赛事,引领数智低碳发展

    10 月 8 日,历时 16 天的亚洲最 大体育赛事闭幕。从开闭幕式到各大比赛场馆,从现场到“云上”,还有首创的“数字火炬手”、无人驾驶的AR智能巴士、绿茵场上的四足机械狗……此次赛事既是一次体育盛会,也是一场科技盛宴。 其中,就连看不见摸不着的空气,都带上了“绿色、低碳、环保、智能”的标签。针对各大场馆的个性化空气需求,海尔智慧楼宇给出了全场景定�

  • 利用合成数据微调ChatGPT超越GPT-4摘要性能 降低63%成本和提升11倍速度

    Elicit公司机器学习工程师CharlieGeorge在LangChain博客上发表文章介绍了他们使用合成数据微调ChatGPT在新闻摘要任务上超越GPT-4的研究成果。文章提到,尽管GPT-4被公认为世界上最强大的语言模型,但其调用限制、高成本和高延迟也限制了其实际应用。这为新一代AI应用大规模部署提供了路径。

  • 标贝科技进阶版声音克隆 3小时即可实现高质量精品复刻!

    说到声音克隆,大家都不陌生。开车时听“志玲姐姐”为你导航,看书时“喜欢的爱豆”给你讲故事,听“AI孙燕姿”唱脍炙人口的流行歌曲,听“马三立”讲相声等等,这都是声音复刻技术在生活中的具体应用。声音克隆,也称声音复刻,通过使用AI模型对大量的数据进行学习和训练,从而得到与用户本人在音色和发音风格上非常相似的声音模型,快速“复刻”个性化声音。用以弥补传统语音合成技术在数字化人声上的不足,生成纹理更为真实丰富的声音。近年来,随着智能语音产业的快速发展,语音合成技术得到了广泛应用,而声音复刻作为语音合成拓展出

  • 昆仑万维与华为云签署战略作 推动企业级AI应用落地

    9月21日,昆仑万维与华为云签署战略合作协议,双方将积极在华为云昇腾云算力领域展开全面深入合作,致力于打造企业专属模型,支持企业级AI应用。双方基于昆仑万维在AI领域的优势,华为云在云计算和云端一体化解决方案等方面的优势,共同促进以大模型为代表的通用人工智能技术的发展。双方将积极推动千行万业企业AI级应用。

  • 各大联赛杯赛中超NBA赛事直播B体育弹幕式互动看球神器

    看体育赛事直播,必须够档次够排面!NBA、CBA、中超、英超、欧冠、法甲、西甲、意甲、德甲等各大类型体育赛事直播、新闻、数据、视频回放等内容一个不能少。海量体育电竞赛事,最新最全娱乐项目尽在掌中,即刻拥有!

  • Web3时代加速到来 欧科云链持续推动科技创新应用落地

    世界正处于从商业文明转向价值文明的时代,作为人类历史上最伟大的发明之一,互联网也面临着变革和发展,价值互联网被称为人类社会网络系统进化的最高形式Web3则被认为是最接近价值互联网的产业形态。在元宇宙、NFT等热潮涌起之下,Web3看似并不遥远,作为下一代互联网存在方式的最大可能性,Web3已经构建了完整的模式概念,最为大众所熟知的是其强调用户在互联网拥有自主权,用户与建设者共建共享,以此完成数据资产权属的回归。随着Web3时代的加速来临,区块链多链生态逐步发展,像欧科云链这样的拥有核心优势且不断深耕探索的区块链大数据企业必将迎来属于自己的黄金时代。

  • Google AI推出SANPO:多属性视频数据集助力高级视觉场景理解

    GoogleAI最近推出了名为SANPO的数据集,旨在帮助AI模型更好地理解户外人类主观场景。这一数据集的重要性在于,它不仅包括真实世界的数据包括合成数据,以及丰富的注释和多属性特征。研究人员的隐私承诺使这一数据集能够支持其他研究人员开发面向视障人士的视觉导航系统,并推动先进的视觉场景理解领域的发展。

  • 智源开源中英文语义向量模型训练数据集MTP

    智源研究院发布面向中英文语义向量模型训练的大规模文本对数据集MTP。这是全球最大的中、英文文本对训练数据集,数据规模达3亿对,希望推动解决中文模型训练数据集缺乏问题。作为中国大模型开源生态圈的代表机构,智源持续进行包括数据在内的大模型全栈技术开源,推动人工智能协同创新。

  • 亚运会惊现AI解说员,机器人帮残障者捡物品,北大学生为亚运会研发黑科技

    作为本届亚运会办赛理念之一,“智能”贯穿于杭州亚运会全的各个方面。为服务正在举办的第19届亚运会,在北京大学黄铁军教授及仉尚航研究员的指导下,北京大学庄棨宁学生团队基于多模态大模型的研究,结合视觉、语言、语音等多种模态的输入,推出高速运动AI 多语种解说系统,为观众提供更丰富的观赛体验。这也是多模态大模型技术首 次在国际大型综合性体育赛事�

  • 中国研究团队发布多视角数据集“FreeMan” 解决3D人体姿势估计局限性

    从真实场景中估计人体的三维结构是一项具有挑战性的任务,对于人工智能、图形学和人机交互等领域具有重要意义。现有的3D人体姿态估计数据集通常在受控条件下收集,具有静态背景,无法代表真实世界场景的多样性,从限制了用于真实应用的准确模型的开发。FreeMan的可用性预计将推动人体建模、计算机视觉和人机交互领域的进步,弥合了受控实验室条件与真实场景之间的差距。

  • AI神器大全:AI工具集合导航站,发现AI新神器

    AI神器大全是一个集合了多种AI工具的平台,旨在为AI领域的专家和初学者提供一站式服务。它收录了国内外5000+优质AI工具,覆盖了AI对话聊天、AI绘画设计、AI视频制作、AI写作办公、AI编程开发等多个领域。用户可以通过该平台快速找到所需的AI工具,无论是提高工作效率、学习新技术还是寻找娱乐资源,AI神器大全都能满足需求。

  • LongLLaVA:高效扩展多模态大型语言模型至1000图像

    LongLLaVA是一个多模态大型语言模型,通过混合架构高效扩展至1000图像,旨在提升图像处理和理解能力。该模型通过创新的架构设计,实现了在大规模图像数据上的有效学习和推理,对于图像识别、分类和分析等领域具有重要意义。

  • FluxImageGenerator.co:使用AI技术将文本描述转换为高质量图像。

    Flux Image Generator是一个利用先进AI模型技术,将用户的想法迅速转化为高质量图像的工具。它提供三种不同的模型变体,包括快速的本地开发和个人使用模型FLUX.1 [schnell],非商业应用的指导蒸馏模型FLUX.1 [dev],以及提供最先进性能图像生成的FLUX.1 [pro]。该工具不仅适用于个人项目,也适用于商业用途,能够满足不同用户的需求。

  • FlowBuddy:帮助用户控制时间和专注力的应用。

    FlowBuddy 是一款旨在帮助用户重新掌控时间和专注力的应用程序。通过阻止分心应用、将空闲时刻转化为学习机会,FlowBuddy 促进了更专注和有意识的数字体验。

  • AutoShorts.ai:全自动AI视频创作平台,轻松打造无面孔视频频道。

    AutoShorts.ai是一个强大的AI视频创作平台,能够完全自动化地创建和管理无面孔视频频道。用户可以通过选择话题或自定义提示来创建视频系列,AI将立即开始制作独特的视频。平台支持视频编辑、预览、自动发布到频道等功能,并且提供不同级别的订阅服务,满足不同用户的需求。

  • SoBrief:快速获取书籍摘要和音频,提升学习效率。

    SoBrief是一个提供书籍摘要和音频的网站,它通过将书籍内容浓缩成易于理解的摘要,帮助用户在短时间内掌握书籍的核心思想。这个平台支持多种语言,拥有超过73,530本书籍的摘要,覆盖了广泛的主题和领域。SoBrief特别适合那些希望快速获取知识、提升阅读效率的用户,无论是学生、专业人士还是终身学习者,都能从中受益。

  • Altera:与您一起生活、关怀、成长的数字人类

    Altera是一个由计算神经科学家、物理学奥林匹克竞赛者和工程师组成的团队,致力于创造能够与人类一起生活、关怀、成长的数字人类。他们利用先进的人工智能技术,模仿大脑结构,构建具有前额叶皮层、记忆系统、社会情感状态等模型的数字代理。这些数字人类不仅能够与人类进行互动,还能在游戏等虚拟世界中迭代发展,最终实现多智能体模拟、工作力量,甚至物理形态的数字智能。

  • docai:从文档中提取结构化信息

    docai 是一个利用人工智能技术从非结构化文档中提取结构化数据的模型。它集成了Answer.AI的Byaldi、OpenAI的gpt-4o以及Langchain的结构化输出技术,能够显著提高文档处理的效率和准确性。该模型主要面向需要处理大量文档数据并从中提取有用信息的用户,如法律、金融、医疗等行业的专业人士。

  • iText2KG:利用大型语言模型增量构建知识图谱

    iText2KG是一个Python包,旨在利用大型语言模型从文本文档中提取实体和关系,增量构建一致的知识图谱。它具备零样本能力,允许在没有特定训练的情况下跨不同领域进行知识提取。该包包括文档蒸馏、实体提取和关系提取模块,确保实体和关系得到解决和唯一性。它通过Neo4j提供知识图谱的可视化表示,支持交互式探索和分析结构化数据。

  • Google Gemini AI 提示库:提供丰富的AI功能提示和代码示例。

    Google Gemini AI 提示库是一个集成在Google AI Studio中的资源库,它为开发者提供了一系列的AI功能提示和代码示例。这些提示覆盖了音频处理、视频分析、数据转换、教育辅助、游戏设计等多个领域,旨在帮助开发者快速实现复杂的AI功能,提高开发效率和产品质量。

  • Altera PlayLabs:一个提供多种角色体验的互动平台。

    Altera PlayLabs是一个在线互动平台,用户可以通过选择不同的角色进行模拟生存体验。该平台通过模拟生存游戏,让用户在虚拟环境中体验生存挑战,增强用户的决策能力和应变能力。产品背景信息显示,该平台拥有多种角色供用户选择,每种角色都有其独特的生存技能和挑战。价格方面,目前平台提供免费体验,但可能包含内购项目。

  • GenAgent:构建协作AI系统,自动化工作流生成

    GenAgent是一个框架,它通过创建工作流来构建协作AI系统,并将这些工作流转换为代码,以便大型语言模型(LLM)代理更好地理解。GenAgent能够从人类设计的工作中学习并创造新的工作流,生成的工作流可以被解释为协作系统,以完成复杂任务。

  • magic-html:通用HTML数据提取器

    magic-html是一个Python库,旨在简化从HTML中提取主体区域内容的过程。它提供了一套工具,能够轻松地从HTML中提取主体区域内容,无论处理的是复杂的HTML结构还是简单的网页,这个库都旨在为用户提供一个便捷高效的接口。它支持多模态抽取,支持多种版面extractor,包括文章、论坛和微信文章,还支持latex公式提取转换。

  • doesVideoContain:利用AI在浏览器中自动检测视频内容。

    doesVideoContain是一个利用人工智能在浏览器中检测视频内容的模型。它允许用户通过简单的英语句子描述来自动抓取视频截图,识别视频中的重要时刻。这个模型完全在客户端运行,保护用户隐私,无需支付API费用,并且可以处理本地大文件,无需上传至云端。它使用了Web AI生态系统中的Transformers.js和ONNX Runtime Web,结合了自定义逻辑来执行余弦相似度计算。

  • OptiSpeech:轻量级端到端文本到语音模型

    OptiSpeech是一个高效、轻量级且快速的文本到语音模型,专为设备端文本到语音转换设计。它利用了先进的深度学习技术,能够将文本转换为自然听起来的语音,适合需要在移动设备或嵌入式系统中实现语音合成的应用。OptiSpeech的开发得到了Pneuma Solutions提供的GPU资源支持,显著加速了开发进程。

  • CrisperWhisper:精确到词级的自动语音识别模型

    CrisperWhisper是基于OpenAI的Whisper模型的高级变体,专为快速、准确、逐字的语音识别设计,提供准确的词级时间戳。与原始Whisper模型相比,CrisperWhisper旨在逐字转录每一个说出的单词,包括填充词、停顿、口吃和错误的开始。该模型在逐字数据集(如TED、AMI)中排名第一,并在INTERSPEECH 2024上被接受。

  • Svd Keyframe Interpolation:使用SVD技术进行关键帧插值的动画工具

    Svd Keyframe Interpolation 是一个基于奇异值分解(SVD)技术的关键帧插值模型,用于在动画制作中自动生成中间帧,从而提高动画师的工作效率。该技术通过分析关键帧的特征,自动计算出中间帧的图像,使得动画更加流畅自然。它的优势在于能够减少动画师手动绘制中间帧的工作量,同时保持高质量的动画效果。

  • Generative Keyframe Interpolation with Forward-Backward Consistency:利用预训练的图像到视频扩散模型生成连贯中间帧

    该产品是一个图像到视频的扩散模型,通过轻量级的微调技术,能够从一对关键帧生成具有连贯运动的连续视频序列。这种方法特别适用于需要在两个静态图像之间生成平滑过渡动画的场景,如动画制作、视频编辑等。它利用了大规模图像到视频扩散模型的强大能力,通过微调使其能够预测两个关键帧之间的视频,从而实现前向和后向的一致性。

  • RECE:一种用于文本到图像扩散模型的概念擦除技术

    RECE是一种文本到图像扩散模型的概念擦除技术,它通过在模型训练过程中引入正则化项来实现对特定概念的可靠和高效擦除。这项技术对于提高图像生成模型的安全性和控制性具有重要意义,特别是在需要避免生成不适当内容的场景中。RECE技术的主要优点包括高效率、高可靠性和易于集成到现有模型中。

  • Follow-Your-Canvas:高分辨率视频外延与内容生成技术

    Follow-Your-Canvas 是一种基于扩散模型的视频外延技术,它能够生成高分辨率的视频内容。该技术通过分布式处理和空间窗口合并,解决了GPU内存限制问题,同时保持了视频的空间和时间一致性。它在大规模视频外延方面表现出色,能够将视频分辨率显著提升,如从512 X 512扩展到1152 X 2048,同时生成高质量和视觉上令人愉悦的结果。

今日大家都在搜的词: