首页 > 传媒 > 关键词  > 喜马拉雅最新资讯  > 正文

喜马拉雅AIGC项目“单田芳声音重现”被工信部评为“超卓互联网应用”

2023-03-24 15:01 · 稿源: 站长之家用户

近日,喜马拉雅的“单田芳大师声音重现”项目在2022年度工业和信息化部新闻宣传中心(人民邮电报社)“ICT优秀案例”征集活动中,荣获“超卓互联网应用”荣誉称号,这肯定了喜马拉雅通过技术不断创新内容生产方式、赋能音频行业发展所作出的努力。喜马拉雅已成为音频领域AIGC的先行者,推动着音频行业的技术革新。

喜马拉雅始终坚持以科技赋能文化,通过AI技术,赋能创作者、服务用户。如今,喜马拉雅正在现有的“UGC+PGC+PUGC”内容生态之外,探索多模态AIGC的更多可能性。单田芳大师声音重现项目是喜马拉雅AIGC的标杆项目,喜马拉雅通过TTS(文字转语音)技术完美还原已逝的单田芳先生的声音,首次将单田芳先生的AI合成音全新演绎听众耳熟能详的经典之作。截至目前,喜马拉雅已上线100多张运用单老AI合成音制作的AIGC专辑,总播放量超过1亿。其中,有15张专辑播放量破百万,例如,《民国四大家族》播放量近730万,《十二金钱镖》播放量近700万,《卧虎藏龙全集》播放量超390万。

这一项目所使用的TTS技术由喜马拉雅珠峰智能实验室自主研发,该实验室定位于新一代数字出版平台技术研发,长期专注于语音合成、识别、语音信号处理、编解码以及智能音效的研究和开发,由喜马拉雅首席科学家卢恒博士带领。目前,这一实验室已在多种技术的研究和应用上取得了突破。

喜马拉雅自研的TTS前端文本处理分析模块已经能够高精度、全自动地对文本进行多音字识别、韵律预测和风格分类,并已开发出可以实现多情感、多风格、多语种声音的TTS技术模型,不仅可以演绎不同情绪的文字,还可以自动区分旁白、对白,并支持英文,极大地丰富了TTS能表达的情感和韵律,这让单田芳先生声音的重现成为可能。为了最大程度保留单老那苍劲、沙哑的独特嗓音以及情感充沛、跌宕起伏的评书腔调,喜马拉雅珠峰智能实验室还通过自主设计单独的韵律提取模块,让单老的AI合成音仿佛本尊再现。

喜马拉雅成多情感、多风格、多语种声音的TTS技术模型可广泛运用于图书、期刊、报纸、新媒体等多种内容的数字出版、语音修复、语音再现等。另外,AIGC制作速度快、成本低,这极大地革新了音频行业的内容生产方式,让内容生产更高效。

目前,喜马拉雅已经与近百家网络平台和出版机构合作,运用TTS技术上线近6万张AIGC专辑。不仅为上游出版产业数字化转型提供技术平台支持,通过数字化分发提高其经济效益,也让下游用户能更便捷地享受边听边看的内容消费体验。

同时,喜马拉雅也通过AIGC也进一步赋能创作者,帮助其高效生产音频内容,推动创作者布局音频,让作家、撰稿人、主播等内容创作者能更轻松地将内容通过声音带到用户耳边。

目前,喜马拉雅已申请了20多项语音技术相关专利,其中有10多项TTS语音合成相关专利, 还有两项语音技术成果先后被世界顶尖学术会议“2022年IEEE国际音频、语音与信号处理会议”收录。除了TTS技术,喜马拉雅在其他技术领域也成果颇丰。2022年8月,喜马拉雅ASR技术在SpeechIO TIOBE评测中获得第一名。 同时,喜马拉雅还通过AI文稿、喜马拉雅专属音效、全景声长音频内容打造、喜韵音坊AI剪辑工具等,赋能创作者、服务用户,让内容生产提效,让内容体验增值。未来,我们将有望看到更多AI技术在喜马拉雅平台上落地生根,推动着音频行业不断发展。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • 《哈利·波特》中文有声书上线受追捧 “哈迷”热潮席卷喜马拉雅

    2022年6月21日,《哈利·波特》系列全球首部官方授权全本中文有声书在喜马拉雅重磅上线。一场来自魔法世界的听觉盛宴即将拉开帷幕,喜马拉雅在中文有声书的制作过程中精益求精,从文字到音效都精心打磨,只为给“哈迷”带来原汁原味的听觉体验。随着后续精彩内容的更新,《哈利·波特》热度不断攀升,《哈利·波特》中文有声书有望带来更多让人惊喜的表现。

  • 工信部号码外省归属地更改

    工信部针对网友关于电话号码外省归属地更改的留言作出回应。该网友表示,当前全国流动人口较多,电话号码实名制绑定较多银行卡或主流App,更换号码后可能会引发一系列问题,同时会给各部门增加工作量。工信部还指出,变更移动电话号码归属地可能会对现有网络设施进行大规模调整,对移动终端归属地显示功能产生重大影响,影响用户认知,增大电信诈骗风险。

  • 别焦虑,AIGC依然是个新手

    图源备注:图片由AI生成,图片授权服务商Midjourney在AI喷涌式爆发的当下,有多少创业者被冲击到措手不及,又有多少创业者在冲击中逐渐消极?此前在见实与几位AIGC从业者的深聊中,我们发现,在看似繁荣的AI产业下还是可以嗅到一丝危机的味道:AI创业者不太好创业了,投资人也开始严苛了。如果有在应用AI绘画的玩家们可能会发现,一些AI绘画网页突然关停。今天经济学上,生产力的定价理论会被AI颠覆掉,分工与资产的定义也会被更新。

  • 音视频新纪元:AIGC如何颠覆传统?

    AIGC改写音视频规则。在过去的三年中,我们见证了人类日常生活和工作方式的颠覆性变革。腾讯云音视频矢志于为客户打造低延迟、清晰度极高的音视频体验,旨在推动一个真正互联互通的未来,并助力实体经济持续创新和蓬勃成长。

  • 互联网要完蛋了,只有我们能救它”

    你有多久没听到一家创业公司说自己要拯救互联网了。今天的创业者似乎要么闷声赚钱,要么在讨论用AI拯救全人类。A:…哈哈哈,希望我们的结局更好吧。

  • 百度营销发布AIGC“共拓计划”

    9月19日,百度营销“共拓计划”战略合作正式启动。“共拓计划”是基于百度AIGC技术能力,面向广大服务商与具备此类需求的企业推出的合作伙伴计划。百度渠道生态合作部表示,百度“共拓计划”的推出将开启AIGC营销新纪元,未来百度营销将继续推进AIGC营销规模化应用,与行业生态伙伴一同创造营销无限可能。

  • 爱奇艺龚宇:AIGC加速用 长视频行业将被颠覆

    在2023年的爱奇艺悦享会上,爱奇艺的创始人和CEO龚宇强调,爱奇艺未来的发展主要依赖于两个关键因素:内容和科技创新。这两个方面不仅决定了爱奇艺的未来,也决定了整个行业的未来。”龚宇认为,未来的影视制作将广泛使用AIGC技术,这不仅可以提高制作效率和降低成本可以提升观众的视听体验。

  • 反对意见:AIGC很难颠覆原有商业模式

    对ToB企业来说,有了AIGC加持后,会对原有商业模式进行颠覆吗?答案是:很难。尤其对于ToB企业来说,AIGC的介入主要强化和优化了现有的商业模式,更多的是商业模式的重启和重构不是对其进行本质性的颠覆。除了重视AI,更重要的是重视用户需求和用户价值创造。

  • 百度百科:AIGC、AI等成友最关注的十大科学词

    9月20日,百度百科联合科普中国共同发布《全国科普日知识大数据报告》,报告从网友最关注的十大科学热词、十大热门视频、最前沿科研成果、实时热点等多维度,全面『揭秘』网友最关注知识内容。AIGC、AI等前沿热点成百科网友最关注的十大科学词。百度百科成立17年以来,已汇聚超2745万个科普知识点、有778万人参与编写、2.44亿次编辑,并且联合超过3000个权威机构和专家参与百科词条审核。

  • 千位互联网大咖齐聚上海 与华为云一起共拓产业互联网新蓝海

    9 月 21 日,华为云互联网产业峰会&AIGC高峰论坛在上海拉开帷幕, 这是华为全联接大会(HUAWEI CONNECT)首届互联网产业峰会。此次峰会汇聚了千位互联网大咖,与华为云一起共话互联网产业升级的新路径。华为公司副总裁、华为云中国区总裁张修征发表主题演讲,他强调,未来互联网将面临四个突破,“突破产业边界”、“突破业务边界”、“突破区域边界”、“突破能力边界

  • Live2D Virtual Human for Chatting based on Unity:基于Unity的Live2D虚拟人实时聊天系统

    AI女友是一款基于Unity开发的Live2D虚拟人实时聊天系统,它利用Live2D技术提供动态的虚拟人形象,结合Unity的实时渲染功能,实现与用户的动态交互和聊天。主要功能包括Live2D虚拟人形象集成、实时聊天、图像处理和人脸检测,支持高清分辨率显示,并且可自定义和扩展。

  • School AI:个性化AI学习助手,提升学习效率

    School AI是一个专为K12学生设计的AI平台,提供个性化学习体验和即时反馈,支持多语言环境,帮助学生以母语进行互动,增强教育的普遍性和包容性。平台对教师免费开放,内置监控和控制工具,帮助教育工作者设计更好、更个性化的课堂体验。

  • MetaAI:使用 Meta AI 助手完成任务、创建免费 AI 生成图像和获取任何问题的答案

    Meta AI 是一款功能强大的 AI 助理,建立在 Meta 的先进 AI 技术之上。它可以帮助您完成各种任务,如创建备忘单、润色电子邮件写作、回答问题等。同时它还具有图像生成功能,可以根据您的文字描述生成相应的图像。Meta AI 免费使用,致力于为用户提供高效、智能、多功能的 AI 体验。

  • Meta Llama 3:Meta 新一代开源大型语言模型,性能卓越

    Meta Llama 3是Meta公司推出的新一代开源大型语言模型,性能卓越,在多项行业基准测试中表现出色。它可支持广泛的使用场景,包括改善推理能力等新功能。该模型将在未来支持多语种、多模态,提供更长的上下文窗口和整体性能提升。Llama 3秉承开放理念,将被部署在主要云服务、托管和硬件平台上,供开发者和社区使用。

  • HuggingChat App:连接先进AI与用户的革命性平台

    HuggingChat是一款iOS应用程序,旨在促进用户与多家提供商(如Mistral AI、Meta和Google)的多个顶尖大型语言模型之间的无缝沟通。它可以满足多种场景需求:激发创意,提供专家指导,促进教育与自我提升,提高工作效率,快速响应日常问题等。作为变革性AI技术的先锋采用者,HuggingChat将让您体验与先进大语言模型对话的无限可能。

  • SpeedLegal:个人AI合同谈判助手

    SpeedLegal是一个利用机器学习技术(特别是深度学习、大型语言模型和通用AI)来突出合同中的条款和关键风险的技术初创公司。我们分析您的文档并发送给您一个简化的报告,以便您在签名前做出更明智的决策。

  • FCK.School:AI写作工具

    FCK.School是一个为学生提供AI写作工具的在线平台。它可以帮助学生改善写作技巧,提升学术表现。通过FCK.School的AI驱动工具,学生可以进行文本改写、文摘、语法纠错等操作,还能生成各种写作素材,如标题、论点、大纲等。FCK.School提供免费工具以供试用,同时还有付费订阅计划。

  • CompliantChatGPT:AI医疗助手,HIPAA合规

    CompliantChatGPT是一款专为医疗保健行业设计的AI助手,它通过HIPAA合规的方式,帮助医疗工作者安全、高效地处理医疗相关任务。产品具备以下特点: - 保护患者数据安全,通过令牌化技术确保个人健康信息(PHI)的安全。 - 提供个性化的医疗模式,包括血液分析、PHI匿名化、诊断和治疗规划等。 - 用户友好的界面设计,支持语音到文本的笔记功能,便于记录和回顾。 - 定价策略灵活,提供免费试用,以及多种付费套餐选择。 - 适用于医疗提供者、专业人士、医疗机构、研究中心和健康科技初创企业。

  • Healax:AI驱动的心理健康解决方案

    Healax是一款创新的AI驱动的心理健康解决方案,专为学生设计,帮助他们主动应对日常生活中的压力和焦虑。该产品通过建立学生、行政人员和提供者之间的信任沟通渠道,提供定制化活动和内容,以促进更全面的教育体验。

  • Snowflake Arctic Embed:开源的先进文本嵌入模型

    Snowflake Arctic Embed是一系列基于Apache 2.0许可开源的文本嵌入模型,专为检索用例设计。这些模型在Massive Text Embedding Benchmark (MTEB)检索基准测试中提供了领先的检索性能,为组织在结合专有数据集与大型语言模型(LLMs)进行检索增强生成(RAG)或语义搜索服务时提供了新的优势。这些模型的尺寸从超小型(xs)到大型(l),具有不同的上下文窗口和参数数量,以满足不同企业的延迟、成本和检索性能需求。

  • DuerOS X:全球首个AI原生操作系统

    DuerOS X是小度基于百度文心大模型推出的全球首个AI原生操作系统。它彻底颠覆了传统的人适应系统的模式,实现了端到端连接用户的意图与任务,极大地拓展了操作系统的边界。DuerOS X全面应用了文心大模型,通过模型路由架构,能够灵活调度不同的文心模型去解决不同难度的问题,更高效、更精准、更经济。个性化长短记忆的存储、提取和理解能力,使得DuerOS X能够更清楚地记住历史内容与用户个性化偏好。此外,多模态感知技术的应用,让DuerOS X产生更丰富的感知力,无论是通过语音、文字还是表情与小度沟通,都能准确地理解用户的意图,并给出恰当的回应。

  • abab 6.5:万亿参数MoE文本大模型

    abab 6.5系列包含两个模型:abab 6.5和abab 6.5s,均支持200k tokens的上下文长度。abab 6.5包含万亿参数,而abab 6.5s则更高效,能在1秒内处理近3万字的文本。它们在知识、推理、数学、编程、指令遵从等核心能力测试中表现出色,接近行业领先水平。

  • mistral-common:Mistral模型工具集

    mistral-common是一套帮助您处理Mistral模型的工具。它不仅包含文本到token的转换,还增加了工具解析和结构化对话。目前发布了三个版本的tokenizer,分别适用于不同的模型集合。

  • AI Grammar Checker & Paraphraser – LanguageTool:提供语法检查和改写的工具

    AI语法检查与改写工具- LanguageTool是一款免费的语法检查工具,可以检测文本中的语法错误并提供改写建议。它能够检测出拼写错误、语法问题、常见词汇混淆和标点符号错误,并提供改写建议、同义词替换和简洁句子重写。该工具适用于多种语言,支持多个平台和应用场景,如社交媒体、电子邮件和网页。

  • Spline AI 3D Generation:快速生成三维模型的AI工具

    AI 3D Generation是Spline推出的一款3D设计工具,它支持文本到3D生成和图像到3D生成,允许用户通过简单的文本提示或2D图像自动创建出详细且精确的3D模型。该工具具有生成变体与混合、直观且适合初学者、创建独特的3D库、平台集成与实时协作、易于集成和发布等功能。

  • FocuSee:轻松录屏 软件会自动跟踪光标移动美化录屏效果

    FocuSee 自动跟踪光标移动,应用动态缩放效果,为您节省宝贵时间和额外的努力。适用于演示,教程,推广视频等多种场景。

  • Ai-to-pptx:使用AI技术来自动生成PPTX 支持在线修改

    Ai-to-pptx 是一个使用 AI 技术 (ChatGpt 和 Gemini) 制作 PPTX 的助手,支持在线修改和导出 PPTX。主要功能包括使用 ChatGPT 等大语言模型生成大纲、允许用户再次修改内容、选择不同模板、在线修改 PPTX 的文字、样式、图片等,支持导出 PPTX、PDF、PNG 等多种格式。价格为付费,商业授权价格为 22000 元人民币或 3000 美元。

  • CodeQwen1.5:开源代码助手,高效编程新选择

    CodeQwen1.5是一个基于Qwen语言模型的代码专家模型,拥有7B参数,支持92种编程语言,最长支持64K的上下文输入。它具备代码生成、长序列建模、代码修改和SQL能力等,旨在提高开发人员的工作效率,简化软件开发流程。

  • PixArt-Sigma:4K文本到图像生成的扩散变换器

    PixArt-Sigma是一个基于PyTorch的模型定义、预训练权重和推理/采样代码的集合,用于探索4K文本到图像生成的弱到强训练扩散变换器。它支持从低分辨率到高分辨率的图像生成,提供了多种功能和优势,如快速体验、用户友好的代码库和多种模型选择。

  • InstantMesh:高效3D网格生成框架

    InstantMesh是一个基于LRM架构的前馈框架,用于从单张图像高效生成3D网格。它支持低内存GPU环境,并能生成具有纹理映射的3D网格模型。

今日大家都在搜的词:

热文