AI日报：OpenAI发布三个新语音模型；快手搜索全面接入DeepSeek R1；Claude上线联网搜索功能

2025-03-21 15:31 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、OpenAI推全新语音转录模型gpt-4o-transcribe，语音转文字准确率飙升

OpenAI重磅推出了三款新语音模型，分别为:gpt-4o-transcribe，gpt-4o-mini-transcribeandgpt-4o-mini-tts，其中gpt-4o-transcribe备受关注。该模型在语音转录领域表现出色，错误率显著降低，尤其在英语转录中达到了2.46%。此外，gpt-4o-transcribe支持多种复杂环境下的转录，并具备噪声消除和语义语音活动检测等技术。

【AiBase提要:】
🔊 gpt-4o-transcribe的错误率在英语转录中低至2.46%，显著优于前代模型Whisper。
🌍 支持超过100种语言，并在嘈杂环境和不同口音下保持高准确性。
💻 开发者可通过API轻松集成新模型，推动语音交互应用的发展。
详情链接:https://top.aibase.com/tool/openai-fm

2、快手搜索AI升级:DeepSeek R1全面接入，搜索体验迎来质变!

快手近期宣布其搜索功能全面接入DeepSeek R1大模型，这一举措旨在显著提升搜索效果和用户体验，推动用户活跃度的增长。同时，快手还在积极探索智能搜索场景的商业化潜力。通过整合DeepSeek，快手的AI内容创作平台“可灵AI”在视频和图片生成领域变得更加高效，用户能够更精细地控制创作过程，极大丰富了创作的可能性。

【AiBase提要:】
🚀 快手的搜索功能已全面接入DeepSeek R1大模型，提升了搜索效果和用户体验。
💡 AI内容创作平台“可灵AI”整合DeepSeek后，用户能更高效地生成和优化提示词。
🎥 DeepSeek灵感版与快手的“灵感词库”深度联动，用户可精细控制创作的关键元素。

3、Claude推出网络搜索功能，提供实时信息与来源引用

Anthropic公司正在为其AI助手Claude添加网络搜索功能，以提供更及时的信息。与传统搜索引擎不同，Claude将搜索结果转化为对话式回答，并精确标注信息来源。这一功能目前仅向美国付费用户开放，并计划未来推广至其他国家和免费账户。

【AiBase提要:】
🌐 Claude将在线搜索结果转化为对话式回答，并标注信息来源。
💰 目前网络搜索功能仅面向美国付费用户，未来计划推广至其他国家。
⚖️ 搜索机器人带来的流量下降对依赖访问量的网站构成挑战。

4、字节推文生图框架InfiniteYou :可保持人脸特征，场景随便换

字节跳动推出的InfiniteYou（InfU）是一款创新的图像生成工具，能够根据用户的文字描述生成高质量的个性化图像。其核心技术InfuseNet通过精细的训练策略，确保生成的图像在保留用户身份特征的同时，灵活变换场景与内容。

【AiBase提要:】
🧑‍🚀 InfiniteYou是字节跳动推出的图像生成模型，能根据文本描述生成个性化图像。
🔧 核心技术InfuseNet通过精细训练，确保生成图像保留用户身份特征，同时灵活变换场景。
🌐 该工具与多种现有工具兼容，适合学术研究使用，需遵循相应的许可和法律规定。
详情链接:https://top.aibase.com/tool/infiniteyou

5、腾讯元宝功能上新支持分析复杂Excel表格

腾讯元宝新推出的功能显著提升了用户处理Excel表格的便捷性。用户只需用自然语言提问，元宝便能快速读取数据并进行计算，甚至突出显示重要信息，简化了以往复杂的操作流程。即使是Excel新手也能轻松应对数据分析。

【AiBase提要:】
📝 新功能允许用户用自然语言提问，简化Excel数据分析过程。
⚡ 混元Turbo S模型可快速处理复杂表格，提升分析效率。
📱 支持多平台操作，用户可随时随地上传和分析表格。

6、Krea AI发布“Video Training”功能可以训练自己的专属视频风格

Krea AI近日推出了全新的“Video Training”功能，允许用户通过上传个人图像和视频素材来训练专属的AI视频风格模型。此功能基于Wan2.1模型，支持用户学习特定的艺术风格和动态动作，极大地提升了内容创作的个性化和灵活性。用户可以根据需求调整多个参数，生成的风格模型可直接应用于Krea Video平台。

【AiBase提要:】
📹 用户可上传图像和视频素材，训练专属的AI视频风格模型。
⚙️ 提供灵活的操作体验，用户可调整训练参数以优化模型表现。
🌟 该功能为内容创作者打开了新的可能性，提升了创作效率。
详情链接:https://www.krea.ai/train

7、DomoAI推出语音图像生成数字人功能:数字内容创作迎来新突破

DomoAI推出的新功能允许用户通过上传语音和图像生成会说话的数字人，迅速引发热烈讨论，标志着数字内容创作的一次重要革新。该功能不仅支持口型同步，还能生成不同长度的短视频，尤其对中文支持表现出色，极大提升了创作灵活性和效率。

【AiBase提要:】
🎤 用户可通过上传语音和图像快速生成会说话的虚拟人物，支持多种时长选择。
🚀 该功能生成速度快，中文支持表现出色，满足不同场景需求。
🎨 DomoAI的创新技术将降低内容创作门槛，推动AI与娱乐产业的深度融合。
详情链接:https://www.domoai.app/en/create/talking-avatar

8、Sider AI推出Deep Research功能:能自动模拟人类研究行为，还能生成可视化交互式报告

Sider AI最近推出的Deep Research功能引起了广泛关注，因其能够模拟人类研究行为并自动生成可视化报告。该功能通过实时笔记和透明的信息来源提升了研究效率，同时提供了用户更高的控制感。

【AiBase提要:】
🤖 Deep Research功能能够模拟人类研究行为，自动访问网络信息并实时生成笔记。
📊 该功能在信息收集后，自动生成交互式可视化网页，包含图表和流程图等元素。
🔍 用户可通过浏览器扩展无缝整合自动化与手动研究，适用于多种研究场景。
详情链接:https://sider.ai/wisebase/deep-research

9、高中生利用《我的世界》搭建AI模型评测网站，全民参与评判模型优劣

随着人工智能技术的迅速发展，评估和比较生成式AI模型的能力成为了一大挑战。MC-Bench网站通过《我的世界》游戏提供了一种新颖的评测方式，用户可以在不知情的情况下对AI生成的建筑进行投票。这一创意不仅提高了公众参与度，还为AI模型的评估提供了直观的视觉体验。

【AiBase提要:】
🎮 MC-Bench利用《我的世界》作为评测平台，让用户通过投票评估AI模型的表现。
👨‍🎓 该项目由一位高中生发起，吸引了多家顶尖AI公司的支持，展示了年轻人的创新能力。
🛠️ 未来MC-Bench可能扩展到更复杂的AI任务，成为测试AI推理能力的有效工具。
详情链接:https://top.aibase.com/tool/mc-bench

10、谷歌前科学家出品!Reka开源Reka Flash3，能力超Gemma327B

Reka AI最近推出了其首个开源模型Reka Flash3，这款拥有210亿参数的通用推理模型在业内引起了广泛关注。尽管参数量不如一些竞争对手，但其从零开始训练的特性和深度优化使其在性能上表现出色。Reka Flash3不仅具备强大的推理能力，还支持低延迟和设备友好的部署，适合多种终端使用。

【AiBase提要:】
🚀 Reka Flash3是由前谷歌DeepMind科学家创办的Reka AI推出的开源模型，拥有210亿参数，性能超越许多大型模型。
💡 该模型具备强大的推理能力，支持复杂问题解答和多步推理，适合各种创新应用场景。
📱 Reka Flash3低延迟且设备部署友好，未来可能在手机等终端设备上直接提供便捷服务。
详情链接:https://top.aibase.com/tool/reka-flash-3

11、生数科技Vidu获得7部千万级网文IP概念短片改编授权

北京生数科技有限公司的AI视频生成平台Vidu近日获得了7部千万级网文IP的短片改编授权，标志着国内动漫短剧市场的又一发展里程碑。这些作品涵盖奇幻、科幻、江湖和都市情感等多种题材，具有广泛的受众基础和强大的影视化潜力。

【AiBase提要:】
🎬 Vidu获得7部千万级网文IP短片改编授权，涵盖多种题材。
⚙️ AI技术能够自动化生成剧本和视频画面，大幅提升制作效率。
⏱️ 制作周期从数月缩短至几周甚至几天，解决传统改编成本高的问题。

12、全球首款儿科大模型问世，助力儿童医疗服务升级

在医疗科技迅速发展的背景下，百川智能与北京儿童医院及小儿方健康联合推出了全球首个儿科大模型——“福棠・百川”，该模型不仅涵盖儿童常见病及疑难病症的知识体系，还具备强大的临床推理能力，旨在提供科学、个性化的诊疗方案。通过首创的儿科“循证模式”，医生可以基于科学依据进行临床决策，从而提升医疗服务质量。此外，百川智能还推出了“AI儿科医生”应用，结合国家区域医疗中心，推动人工智能在基层儿科医疗中的应用。

【AiBase提要:】
🧠 该模型覆盖儿童常见病和疑难病症，具备强大的临床推理能力。
📊 首创儿科“循证模式”，整合最佳医学证据指导临床决策。
🏥 推出“AI儿科医生”应用，助力基层医院提升儿科医疗服务。

（举报）

相关推荐

关键词：

人工智能巨头OpenAI拟上市估值或高达1万亿美元

OpenAI正积极推进上市计划，据知情人士透露，该公司可能最早于2026年下半年向证券监管机构提交上市申请，目标在2027年正式上市。此次IPO的估值有望达到约1万亿美元，或将跻身全球规模最大的IPO之列。在初步讨论中，OpenAI曾考虑通过上市筹集至少600亿美元资金，实际融资规模可能进一步扩大。

OpenAI IPO 上市计划
简知科技“简智AI大模型”通过国家生成式人工智能服务备案，助力兴趣教育迈向智能化新阶段

广州简知科技自主研发的“简智AI大模型”通过国家生成式人工智能服务备案，标志着该模型在安全性、合规性与可靠性方面达到国家级标准。作为兴趣教育领域AI应用的重要里程碑，该模型围绕用户兴趣成长周期设计，提供个性化学习支持：可为未明确兴趣方向的用户智能推荐内容，为入门用户规划学习路径，为基础扎实用户提供进阶训练与智能反馈。其技术能力在旗下“简小知”等品牌中已实现“学—练—评—测”全流程覆盖，并通过社群互动增强学习动力。公司未来将持续优化模型能力，联合行业伙伴构建完整培养体系，推动兴趣教育向个性化、高质量方向发展。

简智AI大模型生成式人工智能兴趣教育
共建·共智·共享--新一代AtomGit平台暨人工智能开源社区发布

10月28日，AtomGit平台在北京国家会议中心举行升级发布会，正式推出"开源+AI"一体化平台及人工智能开源社区。工信部副部长熊继军出席并致辞，强调建设AI开源社区对汇聚创新资源、把握科技革命机遇的重要意义。平台将整合开源模型、数据集及算力资源，打造开放中立的基础设施，计划于11月21日正式上线。华为、百度等企业代表分享了开源实践，多所高校签署了共建AI生态倡议。此举标志着我国开源生态迈向智能化时代的重要一步。

开源社区人工智能 AtomGit
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
行业首个！海尔冰箱获ISO/IEC 42001人工智能管理体系认证

2025年10月，海尔冰箱成为全球首个通过ISO/IEC42001人工智能管理体系认证的家电企业，标志着其AI技术研发与管理达国际领先水平。该认证覆盖语音交互、视觉识别、健康保鲜等核心功能全流程，确保用户数据安全与隐私保护。目前AI系统已应用于博观、麦浪等高端产品，推动智能冰箱行业规范化发展。未来海尔将持续优化AI技术，为用户提供更安全、智能的健康饮食体验。

冰箱品牌人工智能技术海尔冰箱
Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App近日开源其播客语音合成模型SoulX-Podcast，专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言，可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外，在通用语音合成及克隆任务中表现优异，能灵活调节节奏与副语言元素（如笑声），提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

语音合成模型 SoulX-Podcast 多轮对话
荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

本期AI日报聚焦多项技术突破：豆包推出全自动有声剧系统，实现98%角色识别准确率；Adobe Firefly Image 5支持400万像素原生输出及AI音轨生成；Soul发布90分钟无中断播客生成模型；360推出全球首款L2-L4全栈智能平台；IBM发布可在普通设备运行的Granite 4.0 Nano模型。市场方面，移动端AI用户突破7亿，豆包领跑原生应用；PayPal与OpenAI合作使ChatGPT集成支付功能；谷歌推出AI营销工具Pomelli，可基于URL自动生成营销内容。

AI有声剧豆包语音多角色语音合成
卖家精灵加入中国人工智能产业发展联盟（AIIA），加速AI赋能跨境电商

卖家精灵凭借在跨境电商智能化运营与AI大数据应用领域的领先实力，近日正式加入中国人工智能产业发展联盟（AIIA），成为该国家级AI产业生态重要成员。此次加入标志着其AI技术实力获权威认可，未来将携手联盟推动AI技术研发与产业化，助力中国品牌全球化。依托八年积累的海量电商数据与算法体系，卖家精灵已构建覆盖选品决策、市场分析等全链路AI解决方案，服务超百万跨境卖家，显著提升运营效率与决策精准度。

人工智能跨境电商 AI大数据
人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲

科杰科技董事善于洋在2025中国国际数字经济博览会发表演讲，强调高质量数据集是人工智能产业决胜关键。他指出，算力、算法和数据构成AI三大要素，而数据决定模型认知边界与输出可靠性。当前需构建Data&AI一体化平台作为核心基础设施，通过集中管理、分散赋能模式，打通数据采集、治理到AI训练全链路，推动产业智能化升级。该平台已在制造、金融等领域落地，助力企业释放数据要素价值，实现弯道超车。

人工智能数据基础设施数字经济
荐AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.5-VL；GPT-5.1“隐身”登场

本期AI日报聚焦多项技术突破：月之暗面开源AI代理框架Kosong，支持异步编排与插件化设计；Replit推出AI集成功能，可一键调用300+模型；商汤发布空间智能模型SenseNova-SI，性能超越GPT-5；百度推出多模态模型ERNIE-4.5-VL，新增图像思考能力；谷歌地图全面AI化，集成Gemini实现智能交互；ChatTutor上线可视化教学系统，覆盖多学科实时推演；新版Google Finance引入AI深度搜索与财报追踪；OpenAI低调上线Polaris Alpha模型，支持256K上下文并更新知识库至2024年10月。

AI代理开源框架异步编排

今日大家都在搜的词：

热文

3 天
7天

AI日报：OpenAI发布三个新语音模型；快手搜索全面接入DeepSeek R1；Claude上线联网搜索功能

人工智能巨头OpenAI拟上市估值或高达1万亿美元

简知科技“简智AI大模型”通过国家生成式人工智能服务备案，助力兴趣教育迈向智能化新阶段

共建·共智·共享--新一代AtomGit平台暨人工智能开源社区发布

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

行业首个！海尔冰箱获ISO/IEC 42001人工智能管理体系认证

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

荐AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅升级；Soul语音模型SoulX-Podcast发布

卖家精灵加入中国人工智能产业发展联盟（AIIA），加速AI赋能跨境电商

人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲

荐AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.5-VL；GPT-5.1“隐身”登场

今日大家都在搜的词：

热文

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

焕新享界S9开卖72小时预订突破8000台

OPPO Reno15系列定档11月17日发布

华为Mate 70 Air维修备件价格公布：换主板2499元

特斯拉磁悬浮Cybertruck车模上架中国官网售价999元

腾讯回应QQ群最早是为了员工约饭：是一个朴实无华的需求

小米手表S4 eSIM/Sport宣布支持开通中国移动一号双终端

真我GT8 Pro阿斯顿马丁F1限量版正式开售售价5499元

鸿蒙智行：智界R7累计交付量破10万台

特斯拉Model Y L上线外放电功能最高可输出2200瓦功率

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

华为Mate70 Air官宣今日开启预售

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

华为路由X3 Pro今日开启预售：售价1299元起

何小鹏回应机器人IRON里是真人质疑：感谢认可

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

iPhone Air 2或新增1颗镜头：继续沿用6.5英寸高刷中屏

站长商机