首页 > 业界 > 关键词  > 文本转语音最新资讯  > 正文

AI日报:文本转语音模型Fish Speech;Meta 3D Gen发布,1分钟快速构建3D模型;AI生成熊猫吃泡面视频刷屏抖音

2024-07-03 15:32 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、可以媲美GPT-SoVITS的低显存开源文本转语音模型Fish Speech

Fish Speech是一款由fishaudio开发的全新文本转语音工具,支持中英日三种语言,语音处理接近人类水平,使用Flash-Attn算法处理大规模数据,提供高效、准确、稳定的TTS体验。

【AiBase提要:】

😊 完美支持中英日三种语言,语音处理接近人类水平

😊 支持语音克隆,只需提供一段参考语音,即可迅速完成克隆

😊 对显存要求极低,仅需4GB,支持多种不同的语音生成模型

在线体验地址:https://top.aibase.com/tool/fish-audiowenbenzhuanyuyin

详情点此查看:https://www.aibase.com/news/9979

2、Meta 3D Gen发布,1分钟内快速实现从文本生成3D资产

最近研究人员发布了名为Meta3D Gen(3DGen)的全新技术,能够在不到一分钟内快速实现从文本生成3D资产,为用户带来高质量的纹理和材质体验。该技术集成了Meta3D AssetGen和Meta3D TextureGen,提供了高效的3D模型创建方式,比现有解决方案快三到十倍。

image.png

【AiBase提要:】

🚀 Meta 3D Gen系统可以在不到一分钟内创建高质量的3D资产

💡 Meta3D Gen集成了Meta3D AssetGen和Meta3DTextureGen两大核心技术

✨ AssetGen支持生成基于物理渲染的材质,具有真实的再光照效果。

详情链接:https://ai.meta.com/research/publications/meta-3d-gen/

3、微软开源GraphRAG,构建知识图谱增强大模型的问答、推理等能力

微软最新开源的GraphRAG系统利用实体知识图谱增强大模型的搜索、问答、摘要、推理等能力,特别适用于处理大规模数据集。通过构建全局性的实体知识图谱,GraphRAG能够捕捉文本中复杂联系和交互,提高检索准确性和全面性。此外,GraphRAG对tokens需求低,节省开发成本。在综合测试中表现优异,是目前最佳的RAG方法之一。

【AiBase提要:】

💡 GraphRAG通过构建实体知识图谱来增强大模型的搜索、问答、摘要、推理等能力,特别擅长处理大规模数据集。

💡 GraphRAG的核心包括构建实体知识图谱和生成社区摘要两个步骤,通过社区摘要提取数据集中相关信息,生成更全面和准确的答案。

💡 GraphRAG对tokens的需求很低,能够帮助开发者节省成本。在综合测试中表现优异,是目前最佳的RAG方法之一。

详情链接:https://top.aibase.com/tool/graphrag

4、微软推出设计工具 Designer:一句话生成个性化贺卡

微软最新推出的Microsoft Designer的"Greeting Cards"功能为用户带来前所未有的个性化贺卡制作体验,展示了AI技术在日常生活中的实际应用。

image.png

【AiBase提要:】

🎨 文字转设计:用户输入简单描述,AI转化为独特贺卡设计。

🖼️ AI生成图像:贺卡设计灵感来源用户描述,由AI生成精细图像。

✏️ 可编辑内容:贺卡内页提供可编辑文本,满足用户个性化需求。

详情链接:https://designer.microsoft.com/

5、腾讯翻译智能体公司TRANSAGENTS上线

TRANSAGENTS是腾讯AI实验室开发的专门用于进行文学翻译的多智能体虚拟翻译出版公司,通过模拟真实翻译公司的虚拟角色合作模式,实现流畅高效的文学作品翻译。使用TRANSAGENTS进行文学翻译的成本比专业人类翻译员低80倍,且在领域特定知识需求下表现超越人类翻译。该平台展示了AI技术在文学翻译领域的潜力,为文学创作和传播提供新可能性。

image.png

【AiBase提要:】

🔑 TRANSAGENTS是多智能体虚拟翻译出版公司,专为超长文学内容翻译而生,模拟真实翻译公司角色合作模式。

💰 使用TRANSAGENTS进行文学翻译的成本比专业人类翻译员低80倍,降低翻译成本,促进优秀文学作品传播。

🌟 TRANSAGENTS在领域特定知识需求下表现超越人类翻译,受到人类评估者和高级语言模型的青睐。

详情链接:https://top.aibase.com/tool/transagents

6、Suno推出iOS客户端 支持语音生成音乐

Suno公司推出的iOS应用让手机变成虚拟音乐工作室,引领音乐制作革命,可能改变数字时代下创意表达方式。面临法律挑战,但坚称技术旨在生成全新作品。Suno的iOS应用代表AI生成音乐向大众迈出的重要一步,引领音乐界未来潮流。

【AiBase提要:】

🎵 音乐工作室在手机上:用户输入文字提示或哼唱即可生成完整歌曲,满足不同音乐风格需求。

⚖️ 法律挑战与坚持立场:面临唱片公司起诉,坚称AI生成全新作品,法律斗争结果或影响AI音乐产业发展。

🔮 AI音乐未来展望:AI与人类音乐创作界限模糊,引发关于创造力、音乐产业未来等深刻问题。

7、苹果公司高管以观察员身份加入 OpenAI 董事会

我认为这篇文章报道了苹果公司高管 Phil Schiller 以观察员身份加入 OpenAI 董事会的消息。这将使苹果更了解 OpenAI 的内部运作,并有望在 iOS 和 macOS 中整合 ChatGPT,提升 Siri 的智能化水平。微软也加入了 OpenAI 董事会,使得合作关系更加复杂。

【AiBase提要:】

🍏 苹果公司高管 Phil Schiller 加入 OpenAI 董事会,担任观察员角色,有助于加深对 OpenAI 的了解。

🤖 Schiller 加入董事会将促进在 iOS 和 macOS 中整合 ChatGPT,提升 Siri 的智能化水平。

🔗 微软也以非投票观察员身份加入 OpenAI 董事会,使得 OpenAI 董事会更加复杂。

8、AI生成的熊猫吃泡面视频抖音获赞超42万 网友直呼太逼真

最近,抖音上的AI生成视频技术达到了新高度,熊猫和猫咪用筷子吃泡面的视频让人难以置信。虽有瑕疵,但未来AI视频将更逼真。

QQ截图20240703114243.jpg

【AiBase提要:】

🐼 视频逼真程度让人叹为观止,引发网友热议。

😺 AI技术在视频制作领域应用广泛,为创作者和观众带来全新体验。

💻 国内外视频大模型竞争白热化,AI整活影视剧名场面在抖音挑战榜上位居Top26。

详细内容:https://www.aibase.com/news/9993

9、网友将GPT-4V接入家中摄像头 百万网友围观他做这事!

一位国外网友将GPT-4Vision接入家中摄像头,引发百万网友围观。这种行为展示了AI技术在日常生活中的潜力,但也引发了隐私和安全问题的讨论。随着技术发展,我们期待更多创新且安全的应用出现。

image.png

【AiBase提要:】

👀 GPT-4Vision接入家中摄像头,引发百万网友围观。

🔒 引发隐私和安全问题讨论,提醒人们关注个人信息保护。

💡 展示AI技术在日常生活中的潜力,启发人们对技术应用的思考。

详细内容:https://www.aibase.com/news/9995

10、怒了!苏格兰艺术家“自毁”作品,抗议AI对艺术的负面影响

苏格兰艺术家迈克尔・福布斯以涂抹自己的艺术作品的方式,表达对人工智能(AI)对艺术领域的负面影响的抗议。福布斯已经在四幅画作上进行了 “编辑”,其中包括约翰・列侬和美国歌手泰勒・斯威夫特的作品。他希望通过自己的举动唤起对 AI 在艺术领域侵权行为的重视。艺术家们已经无法与计算机生成的图像竞争,导致许多人放弃了艺术家的职业。

image.png

【AiBase提要:】

⭐ 苏格兰艺术家迈克尔・福布斯以涂抹自己的艺术作品的方式,表达对人工智能(AI)对艺术领域的负面影响的抗议。

⭐ 福布斯已经在四幅画作上进行了 “编辑”,其中包括约翰・列侬和美国歌手泰勒・斯威夫特的作品,他希望通过自己的举动唤起对 AI 在艺术领域侵权行为的重视。

⭐ 艺术家们已经无法与计算机生成的图像竞争,导致许多人放弃了艺术家的职业。

举报

  • 相关推荐
  • 全球优质AI语音大模型盘点:Whisper、Gemini Speech

    本文分析了当前主流AI语音大模型的核心优势与应用场景。全球顶尖模型包括:OpenAI Whisper(多语言识别与翻译)、Google Gemini(情感化语音生成)、Meta AudioCraft(音乐创作与风格转换)。国内讯飞星火(方言识别)、阿里通义(电商客服)、百度文心(车载场景)表现突出。技术突破点在于云端协同架构、零样本克隆和情感语音合成。选择模型需考虑语言支持、场景适配、部署

  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • 高德地图上线AR打卡功能:实现3D立体打卡 生成专属打卡视频

    阿里巴巴旗下高德地图正式上线创新AR打卡功能,通过深度整合AI技术与地图服务,为用户带来虚实融合的沉浸式打卡体验,无缝连接现实世界。 该功能依托前沿AI空间融合技术,突破传统二维地图限制,首创3D立体打卡。用户打开最新版高德地图App,点击右上角 ”号即可轻松开启AR之旅。 支持图片、视频、趣味AR道具及虚拟形象等多种打卡形式,完成打卡后系统将自动生成并

  • 马斯克xAI推出Grok - 4 大模型将至,Meta/微美全息深耕开源AI融合加速

    埃隆·马斯克旗下xAI即将发布Grok-4大模型,该模型将在语言、数学和推理方面超越OpenAI和谷歌最新AI产品。同时苹果低调收购两家AI公司TrueMeeting和WhyLabs,加速布局Vision Pro头显和Apple Intelligence领域。Meta计划投入数百亿美元扩建AI基础设施,扎克伯格亲自招募顶尖AI人才。微美全息聚焦高性能算力与多模态模型,推动AI产业升级。当前AI赛道竞争激烈,大模型正向通用多模态演进,商业化落地成为关键。

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • 女子防晒喷雾怼脸猛喷 1分钟后咳喘送医!CT显示双肺全白

    据媒体报道,无锡江阴的孙女士(化姓)因不当使用防晒喷雾引发健康问题。她在户外活动前为追求快速防晒效果,直接将防晒喷雾近距离对准面部猛喷。 仅1分钟后,孙女士便出现剧烈咳嗽、胸闷、气喘等不适症状。经医院CT检查,其双肺出现大面积白色病变,最终被诊断为化学性吸入性肺炎”。 医生分析,防晒喷雾中的化学颗粒随呼吸道进入气道,诱发急性炎症反应是致�

  • Meta高薪挖人!苹果AI大牛跳槽了

    Meta首席执行官扎克伯格正以高薪挖角竞争对手的AI人才,苹果一名核心工程经理已决定跳槽加入。 据悉,负责苹果基础模型团队的Ruoming Pang从苹果跳槽至Meta,他曾在苹果管理着约100名员工的团队,该团队致力于苹果大型语言模型的研发。 Ruoming Pang团队开发的模型已经应用到iPhone中,比如邮件摘要、生成式表情(Genmoji)等等。 Meta以每年数千万美元的待遇成功吸引了Ruoming Pan

  • AI日报:美图发布影像AI Agent RoboNeo;1.8bit量化Kimi K2模型上线;亚马逊推AI代码编辑器 Kiro

    【AI日报】今日AI领域重要动态:1)美图推出RoboNeo,通过自然语言指令实现图片精修、品牌设计等全能影像处理;2)Unsloth AI将Kimi K2模型量化至1.8bit,体积缩减78%保持性能;3)谷歌Gemini嵌入模型登顶MTEB榜单,超越OpenAI;4)亚马逊发布免费AI代码编辑器Kiro,集成Claude模型;5)Claude新增应用工具目录功能提升工作效率;6)MiniMax完成近3亿美元融资,估值超40亿美元;7)UTCP新协议让AI代理直

  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • AI日报:12306 MCP Server上线;百度推AI搜索助手Tizzy.ai;ChatGPT录音模式面向Plus用户开放

    【AI日报】今日AI领域重要动态:1)百度推出无广告智能搜索助手Tizzy.ai,整合影视资源与深度思考功能;2)12306开源火车票查询引擎上线,采用FastAPI架构实现秒级响应;3)ChatGPT向Plus用户全面开放录音功能,支持实时记录与内容总结;4)开源SaaS模板FireGEO助力快速构建现代化Web应用;5)国产工具ReadMeX可一键生成高质量GitHub文档;6)百度AI助手新增视频通话功能,支持方言识别;7)Jacky