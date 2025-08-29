首页 > 原创 > 关键词  > AI最新资讯  > 正文

AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发布全新语音模型GPT-Realtime

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

1、MiniMax海螺AI首尾帧功能在网页版和APP双端正式上线

海螺AI推出的首尾帧功能在网页版和APP双端正式上线，并开放仅尾帧玩法。该技术通过更强的指令理解、更丝滑的动态效果和更大胆的想象力，全面提升行业首尾帧能力的上限。

image.png

【AiBase提要:】

🧠 最强复杂指令遵循能力，精确理解和执行每一个细节

🎬 极限复杂物理动态生成，如打斗、体操等高能动作的丝滑连招

🎨 超预期想象力功能，实现首尾帧跨度大或缺乏指令时的超纲发挥

2、元石科技发布问小白5，挑战 GPT-5，国产AI新标杆来袭

元石科技最新推出的旗舰产品问小白5在多项性能测试中接近GPT-5，标志着国产大模型技术的重要突破。该系统具备动态思维模式，适用于多个领域，并在STEM能力、前沿知识和代码编程等方面表现出色。

image.png

【AiBase提要:】

✨ 问小白5在多项性能测试中接近GPT-5，成为国产AI的新标杆。

🧠 具备动态思维模式，智能判断何时快速响应或深入思考。

📊 在STEM能力、前沿知识和代码编程方面表现优异，综合评分超越同类产品。

3、OpenAI 发布全新语音模型 GPT-Realtime，专为语音AI Agent设计

OpenAI 发布了全新的语音模型 GPT-Realtime，该模型专为语音 AI Agent 设计，能够生成自然流畅的语音，并支持图像输入和多语言切换。其在推理能力和指令遵循准确率方面有显著提升，同时提供了强大的安全防护功能，适用于多个行业领域。

image.png

【AiBase提要:】

🎙️ GPT-Realtime 是 OpenAI 发布的多模态语音模型，专为语音 AI Agent 设计。

🧠 该模型具备推理和指令遵循能力，提升了语音交互的智能化水平。

🔒 Realtime API 配备了安全防护措施，保障用户隐私与数据安全。

4、告别繁琐！谷歌Gemini AI让表格处理变得轻松无比

谷歌引入Gemini AI助手，使Google Sheets的数据处理更加智能和高效，提升了用户的使用体验。

image.png

【AiBase提要:】

📊 谷歌Gemini AI助手为Google Sheets带来智能化的数据处理功能。

💡 新增的“转换为表格”功能能自动分析并整理数据，提升工作效率。

🔄 用户可自定义公式表达式，适应数据变化，无需手动调整公式。

5、AI配音革命来了！腾讯黑科技让机器秒变金牌说书人，一句话生成好莱坞级音效

文章介绍了腾讯ARC实验室推出的AudioStory技术，该技术能够根据文字描述生成高质量的音频内容，具有强大的叙事能力。它通过分而治之策略和解耦式连接机制，实现了复杂的音频生成任务。

image.png

【AiBase提要:】

✨ AudioStory技术能根据文字描述生成电影级音频内容。

🧠 采用分而治之策略，将复杂故事拆解为有序音频事件。

🔄 解耦式连接机制确保了音频质感与语义的精准匹配。

详情链接:https://arxiv.org/pdf/2508.20088

6、百度未来五年计划培养 1000 万 AI 人才

文章介绍了百度在未来五年内计划培养1000万AI人才，同时展示了其在人工智能领域的持续投入和创新成果。此外，文章还提到百度的AI新业务收入表现亮眼，显示出其在市场中的竞争力。

【AiBase提要:】

🌟 百度计划在未来五年内再培养1000万AI人才，推动行业发展。

📈 百度2025年第二季度财报显示AI新业务收入突破100亿元，同比增长34%。

🎓 人才培养将通过高校合作、企业培训和在线教育等多种方式进行。

7、反作弊AI导师横空出世！MathGPT.ai在美国30所高校试点成功，今秋将大规模推广

MathGPT.ai通过苏格拉底式教学法和教师主导的控制机制，重新定义了AI在数学教育中的角色。该平台不仅提供反作弊导师服务，还支持大学水平的数学课程，并与主流学习管理系统集成，确保无障碍访问。

image.png

【AiBase提要:】

🧠 MathGPT.ai采用苏格拉底式提问技术，鼓励学生批判性思考而非直接获取答案。

🔒 教师可控制学生使用AI工具的方式，包括指定AI是否提供辅导支持。

🌐 平台已与Canvas、Blackboard和Brightspace集成，并兼容屏幕阅读器，提升无障碍访问体验。

8、苹果Xcode重磅集成Claude Sonnet4:iOS开发迎来AI革命时代

苹果在Xcode26Beta7中正式集成Claude Sonnet4AI模型，为iOS开发者带来智能编程体验。该模型能够生成高质量代码、定位错误并自动修复，同时新增的inline playgrounds功能让开发者可以直接在代码行运行和测试代码，提升开发效率。

image.png

【AiBase提要:】

🍎 集成Claude Sonnet4AI模型，提升代码生成与错误修复能力。

🧪 新增inline playgrounds功能，支持实时运行代码示例。

🔒 基于Apple官方扩展接口实现，确保功能稳定性和安全性。

9、微软推首款自家研发AI模型MAI-Voice-1和MAI-1-preview，与OpenAI竞争

微软推出了其首款自主研发的AI模型MAI-Voice-1和MAI-1-preview，这标志着微软在人工智能领域的重要进展，并增强了其与OpenAI的竞争实力。MAI-Voice-1能够快速生成音频，已被应用于Copilot Daily等功能；而MAI-1-preview则专注于日常查询帮助，未来将用于Copilot AI助手的文本处理。

image.png

【AiBase提要:】

🗣️ MAI-Voice-1可以快速生成音频，已应用于 Copilot Daily 等多个功能。

🚀 MAI-1-preview 将用于 Copilot AI 助手的文本处理，标志着微软在消费级 AI 领域的新进展。

🌟 微软推出 MAI-Voice-1和 MAI-1-preview 两款自家开发的 AI 模型，提升与 OpenAI 的竞争力。

详情链接:https://microsoft.ai/news/two-new-in-house-models/

10、xAI隆重推出Grok Code Fast1:快速、经济的高效代理编码模型

xAI推出了Grok Code Fast1，这是一款专为软件开发设计的快速且经济高效的大型语言模型。该模型在推理能力和代码生成性能方面表现出色，并已在多个主流智能编程平台上免费开放使用。

【AiBase提要:】

🚀 Grok Code Fast1采用了全新轻量化模型架构，提升了服务速度和缓存命中率。

🌐 支持GitHub Copilot、Cursor等多平台，提供免费试用以吸引开发者体验。

💰 定价策略具有竞争力，每百万输入令牌0.20美元，输出令牌1.50美元，适合预算有限的开发者。

详情链接:https://x.ai/news/grok-code-fast-1

11、SuperCLUE多模态视觉8月评测榜：Gemini-2.5-Pro位居第一

在8月28日发布的中文多模态视觉语言模型测评基准（SuperCLUE-VLM）榜单中，Gemini-2.5-Pro以74.99分位列第一，OpenAI的GPT-5(high)以68.59分排名第二。该榜单围绕基础认知、视觉推理和视觉应用三大维度构建评测体系，旨在为多模态视觉语言模型提供客观、公正的评估标准。

image.png

【AiBase提要:】

🧠 Gemini-2.5-Pro在SuperCLUE-VLM榜单中以74.99分位居第一，展现强大的多模态能力。

📊 评测涵盖15个多模态模型，包括Claude-Opus-4.1、GPT-5(high)等国内外主流模型。

🏆 百度ERNIE-4.5-Turbo-VL与其他国内模型并列，显示出强劲的市场竞争力。

12、9月1日AI内容标识新规！不合规直接承担法律风险，从业者速看避雷指南

文章详细介绍了《人工智能生成合成内容标识方法》国家标准GB45438-2025的实施背景和核心要求。该标准对AI生成内容的标识方式、责任主体认定及违规后果进行了明确规定，强调了AI内容治理的重要性。

【AiBase提要:】

📌 显式标识要求AI生成内容在文本、图片、视频等不同形式中明确标注AI属性。

🔍 隐式标识通过文件元数据嵌入AIGC标识符，确保内容来源可追溯。

⚖️ 违规后果严重，包括限流、整改、下架以及法律风险，企业需立即进行合规准备。

关键词：

