AI日报：昆仑万维发布SkyReels-A3模型；百度搜索PC端全面上线AI搜索；Grok 4 AI模型免费开放

2025-08-11 15:43 · 稿源：AIbase基地

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、昆仑万维正式发布SkyReels-A3模型:照片可根据语音对口型

昆仑万维集团推出的SkyReels-A3模型，基于DiT视频扩散模型，实现了音频驱动数字人创作。该模型能够使静态图像或视频中的人物根据语音内容开口说话或唱歌，并支持改台词、运镜控制等功能，为广告、直播带货、音乐MV等提供了高效便捷的AI技术方案。

【AiBase提要:】
📷 SkyReels-A3可将静态图像或视频中的人物根据语音内容进行动态表演。
🎥 支持长达60秒的单分镜视频输出，多分镜支持无限时长，满足不同创作需求。
🔄 提供8种预设运镜参数，强度可调节，实现专业级运镜效果。
详情链接:https://skyworkai.github.io/skyreels-a3.github.io/

2、马斯克旗下xAI宣布Grok4AI模型永久免费开放

xAI公司宣布Grok4人工智能模型将永久免费开放，为全球用户提供先进的AI工具。

微信截图_20250811084036.png

【AiBase提要:】
🤖 Grok4人工智能模型将永久免费开放给全球用户。
⚙️ 提供Auto模式和Expert模式，满足不同用户需求。
🌐 免费开放可能推动AI技术的普及和应用。

3、Open AI重磅发布GPT-5提示词指南:解锁AI编程与多模态新境界

文章详细介绍了Open AI推出的GPT-5模型及其官方提示词指南，强调了其在复杂任务、编程和多模态交互方面的提升。指南提供了优化策略，如调整推理力度、控制代理行为倾向以及利用工具序言等，帮助用户最大化发挥GPT-5的潜力。

【AiBase提要:】
🧠 GPT-5通过精准的提示设计提升了代理任务、代码生成和指令遵循的表现。
💻 支持生成前端界面、调试大型代码库，并结合Responses API提高代码生成效率。
🖼️ 引入多模态交互功能，包括文本、图像、语音处理及个性化设置，增强实用性。
详情链接:https://cookbook.openai.com/examples/gpt-5/gpt-5_prompting_guide

4、百度搜索 PC 端全面上线 AI 搜索功能

百度搜索 PC 端全面上线一系列 AI 功能，将传统信息入口转变为任务中枢。新增的“超级智能双行框”和“工作台”模块，集成了 AI 阅读、AI 写作和 AI PPT 工具，提升了用户的搜索效率和办公体验。同时，百度 AI 搜索的月活跃用户已超过3.22亿，稳居国内 AI 搜索行业第一。

【AiBase提要:】
🧠 百度搜索 PC 端全面上线 AI 功能，提升用户搜索体验。
🛠️ 新增 “工作台” 模块，集成 AI 阅读、写作与 PPT 工具。
📈 月活跃用户达3.22亿，百度稳居国内 AI 搜索行业第一。

5、Windows11Co pilot 应用免费接入GPT-5，使用限制远低于 ChatGPT

微软宣布其 Windows11和 Windows10中的 Co pilot 应用已全面支持 GPT-5智能模式。该功能通过 Web 路由技术实现，用户无需更新即可启用智能模式，且在使用限制上比 ChatGPT 更加宽松。

【AiBase提要:】
🌟 Co pilot 现已支持 GPT-5智能模式，用户体验更流畅。
💬 相较于 ChatGPT，Co pilot 的使用限制更为宽松，提升自由度。
🖥️ 用户可通过简单步骤免费访问 Co pilot 和 GPT-5，方便获取信息。

6、反超OpenAI!百川智能开源医疗大模型 Baichuan-M2能力全球登顶

百川智能发布的开源医疗增强大模型 Baichuan-M2在HealthBench评测中获得60.1分，超越了OpenAI的gpt-oss120b模型，并在国际上领先于其他开源大模型。该模型经过极致轻量化处理，可在单卡部署，大幅降低医疗机构成本。同时，Baichuan-M2在复杂医疗问题处理能力上与GPT-5相当，展现出强大的应用潜力。

【AiBase提要:】
🌟 Baichuan-M2在HealthBench评测中得分60.1，成为全球领先的开源医疗模型。
💡 模型经过轻量化处理，可在单卡部署，显著降低医疗机构成本。
🚀 Baichuan-M2在复杂医疗问题处理能力上与GPT-5相当，具备广泛应用潜力。
详情链接:https://huggingface.co/baichuan-inc/Baichuan-M2-32B

7、苹果宣布GPT5将入驻iOS26:iOS26将集成ChatGPT5

苹果公司宣布将在下个月发布的iOS26系统中集成ChatGPT-5模型，这将显著提升Apple智能的性能，并带来一系列新功能，如实时翻译和内容搜索优化。用户无需OpenAI账户即可使用这些功能，但关联账户可享受更多优惠。

【AiBase提要:】
🧠 ChatGPT-5将集成至iOS26，提升Apple智能性能。
🌐 新增实时翻译功能，改善跨语言交流体验。
💰 关联OpenAI账户可享受订阅优惠，提供更多选择。

8、谷歌推出 BlenderFusion:颠覆3D 视觉编辑与生成合成的新框架

谷歌推出的BlenderFusion是一个创新框架，旨在提升3D视觉编辑与生成合成的能力，为设计师和创作者提供更直观和高效的创作工具。

【AiBase提要:】
🎨 BlenderFusion 集成了先进的3D编辑工具与扩散模型，实现了高效的3D视觉编辑与生成合成。
🛠️ 该框架的工作流程包括分层、编辑和合成三个阶段，用户可以方便地编辑3D对象并生成最终图像。
📈 谷歌的BlenderFusion通过优化模型，提升了对复杂场景的处理能力，助力设计师实现创意。
详情链接:https://blenderfusion.github.io/

9、超小的TTS模型 Kitten TTS:参数量仅为1500万

Kitten TTS 是一款开源的轻量级文本转语音模型，参数量仅为1500万，体积小于25MB，适合各种设备部署。它支持无 GPU 运行，能够在普通 CPU 上实现高质量语音合成，并提供了简单的安装和使用指南，方便用户快速上手。

【AiBase提要:】
🐱 Kitten TTS 是一款开源的轻量级文本转语音模型，体积小于25MB，适合各种设备。
⚡ 模型支持无 GPU 运行，确保用户在普通 CPU 上也能进行高质量语音合成。
🚀 Kitten TTS 已提供简单的安装和使用指南，用户可快速上手并生成音频。
详情链接:https://huggingface.co/KittenML/kitten-tts-nano-0.1

10、小钢炮4.0视觉模型MiniCPM-V4.0，手机端应用更流畅

MiniCPM-V4.0作为MiniCPM-V系列的最新版本，在视觉理解、多图及视频处理方面表现出色，并在OpenCompass评测中取得了69.0的高分，超越了多个同类模型。其专为移动设备设计，响应速度快且无发热问题，同时提供了多种使用方式和开源工具，便于用户上手。

【AiBase提要:】
🌟 MiniCPM-V4.0在OpenCompass评测中得分69.0，超越多款同类模型。
📱 该模型专为移动设备设计，响应快且无发热问题。
📚 开源iOS应用及详细使用指南，让用户更轻松上手。
详情链接:https://huggingface.co/openbmb/MiniCPM-V-4

11、Stripe 报告:AI 经济火箭式增长，营收速度超越 SaaS 三倍

Stripe 发布的最新分析报告揭示了 AI 经济的迅猛发展，包括营收增长速度、全球市场拓展和商业模式创新等趋势。报告指出，AI 初创公司实现营收里程碑的速度远超以往科技公司，并且具备‘天生全球化’的基因。

【AiBase提要:】
🚀 AI 企业营收增长速度远超传统 SaaS 企业，100万美元年化营收仅需11.5个月。
🌍 AI 公司从成立之初便具备国际化基因，第一年覆盖国家数量是 SaaS 企业的两倍。
💡 商业模式不断创新，按用量计费和按成果计费模式日益流行，推动 AI 企业快速变现。

（举报）

相关推荐

关键词：

数字人惊艳2025云栖大会！NuwaAI开创“真人+数字人”搭档协作新模式

在2025云栖大会上，邦彦技术旗下NuwaAI展示的“真人+数字人”搭档模式引发关注。该模式通过数字人与主播同台互动，突破传统直播边界，实现虚拟与现实的深度融合。NuwaAI平台将语音克隆、知识库等功能模块化，大幅降低使用门槛，使中小企业和个人创作者也能轻松创建数字人。平台以“8元起步、3分钟生成形象”的普惠模式推动数字人普及，已在电商直播、企业宣讲等场景实现高效协作，为人机共生开辟了新路径。

NuwaAI数字人真人+数字人阿里云合作
荐AI日报：可灵AI发布数字人新功能；腾讯混元新技术给大模型 “去油”；抖音上线AI求真功能

AI日报今日聚焦多项技术突破：可灵AI推出图片转视频功能，腾讯混元SRPO技术提升图像真实感，IBM开源文档处理模型Granite-Docling-258M。Meta发布带屏AI眼镜Ray-Ban，DeepSeek论文登《Nature》封面。OpenAI新增GPT-5思考时长调节功能，抖音上线“AI求真”辟谣工具，通用DeepResearch开源模型性能超越国际知名模型。

AI日报数字人视频生成
逗哥配音平台：千款AI配音演员覆盖全行业，重新定义语音创作边界

随着内容创作行业蓬勃发展，高质量、多风格的配音需求日益增长。国内领先的AI语音技术平台——逗哥配音，凭借上千款精选音色和全面的行业适配能力，成为众多专业机构和个人创作者的首选方案。平台拥有超千款声音，覆盖不同年龄、声线和风格，可调参数达数十种，实现“千声千面”的语音多样性。其声音资源具备极强的行业适配性，适用于小说、影视解说、新闻播报、课程培训等多种场景，并针对ASMR、角色对话等专项优化。逗哥配音已整合文案提取、视频去水印等工具，打造一站式创作平台，显著提升内容产出效率。未来计划扩大声音库规模，深化垂直行业适配，并开放自定义音色训练功能，推动AI配音从技术辅助逐步进化为创意产业的核心生产力工具。

AI语音技术配音音色行业适配能力
从数字工具到效率员工，AI员工赋能企业营销服务生产力全面提升！多款AI工具口碑推荐，用AI驱动新增长！

如今，AI赋能业务已非遥不可及，而是切实帮助企业降本增效的新方案。文章以获客、销售、服务、办公四大场景为例，说明AI如何替代重复性工作：营销人员可借助AI工具快速生成高质量素材；销售可将客户跟进、资料更新等琐事交给AI，专注高价值沟通；售后AI能24小时响应基础问题，提升服务效率；办公场景中，AI还能辅助招聘筛选、邮件撰写等日常任务。通过引入具备理解、推理、执行能力的智能工具，企业能以更少人力、更高效率实现业务优化，未来率先布局AI的企业将更具竞争优势。

AI赋能业务 AI工具业务效率
从一件家具到一个家，WOGA屋伽如何用数字技术重塑你的生活场

面对快节奏都市生活，WOGA屋伽提出智慧共生型家居新范式：通过20+主题生活场景打造沉浸式体验空间，结合线上数字镜像系统实现全链路数字化。平台以数据洞察需求，联动优质供应链，提供个性化家居解决方案，重新定义“家”为能感知需求、伴随成长的生命体，推动行业从交易价值向交互价值转型。
PICO × 英特尔× 央美共探 AI 艺术新生态：技术重塑创作、教育与产业未来

AI与艺术融合正加速发展：AI重塑设计流程，使创作者更专注美学思辨；三维重建技术以毫米级精度改写传统工艺，为文物复原提供科学依据；虚拟数字展厅凭借沉浸式体验与互动，为策展提供新可能。PICO联合中央美院等机构举办论坛，探讨AI赋能下的艺术生态。英特尔推出酷睿Ultra处理器，支持智能抠像、文生图等功能，提升创作效率。未来AI将推动艺术教育转型，培养复合型

AI艺术三维重建虚拟数字展厅
小米开源首个原生端到端语音大模型支持音频重建任务和音频转文本任务

小米发布首款开源端到端语音大模型Xiaomi-MiMo-Audio，拥有12亿参数，在智能性、情感表达和交互适配方面接近人类水平。该模型最大技术突破在于少样本学习能力，通过创新预训练架构和超一亿小时训练数据，成功突破传统语音模型依赖大规模标注数据的技术瓶颈。基于Transformer架构，支持音频重建和音频转文本等多任务处理。小米已在Huggingface平台发布预训练和指令微调版本，并在Github开源Tokenizer模型，为研究者和开发者提供完整工具链。

AI语音开源模型少样本学习
罗永浩下周将加播两场数字人直播网友调侃：预制直播

罗永浩数字人将于下周加播两场直播，这是其预制菜风波后首次工作消息。其数字人技术由百度自研，首秀观看量达1300万，GMV突破5500万元。有网友质疑数字人直播为"预录直播"，并发现其微博IP地址从上海变为香港，引发猜测。罗永浩回应称去香港是出差。

罗永浩数字人直播预制菜风波
陕商贸：低代码赋能数字人才培养，探索产教融合新模式

陕西国际商贸学院位于西安西咸新区，由步长制药集团投资创办，以医药为特色学科，构建多学科交叉融合的专业体系。学校在数字化转型中引入低代码技术，与葡萄城合作开展实践探索，包括组建考察团、共建创新工作室、开设实战课程等。通过低代码平台实现快速开发与灵活迭代，推动产教融合，培养数字化人才，提升学生就业竞争力，获得企业和学生的高度评价。

陕西国际商贸学院步长制药集团民办普通本科高校
天网杯纳米AI视频创作赛圆满落幕，ISC.AI学苑推动“教育AI+”新范式

9月23日，第三届“天网杯”网络安全大赛在天津落幕，吸引全国顶尖战队角逐，同期举办纳米AI视频创作赛。赛事聚焦个人信息保护、防诈骗等网络安全议题，通过“以赛促学”模式提升学生防护意识与AI应用能力。ISC.AI学苑作为平台支持，依托“纳米AI”技术降低创作门槛，推动“安全+AI”人才培养。大赛评选出24个奖项，并联合多所高校深化合作，促进AI技术在教育场景的落

天网杯网络安全大赛纳米AI

今日大家都在搜的词：

热文

3 天
7天

AI日报：昆仑万维发布SkyReels-A3模型；百度搜索PC端全面上线AI搜索；Grok 4 AI模型免费开放

数字人惊艳2025云栖大会！NuwaAI开创“真人+数字人”搭档协作新模式

荐AI日报：可灵AI发布数字人新功能；腾讯混元新技术给大模型 “去油”；抖音上线AI求真功能

逗哥配音平台：千款AI配音演员覆盖全行业，重新定义语音创作边界

从数字工具到效率员工，AI员工赋能企业营销服务生产力全面提升！多款AI工具口碑推荐，用AI驱动新增长！

从一件家具到一个家，WOGA屋伽如何用数字技术重塑你的生活场

PICO × 英特尔× 央美共探 AI 艺术新生态：技术重塑创作、教育与产业未来

小米开源首个原生端到端语音大模型支持音频重建任务和音频转文本任务

罗永浩下周将加播两场数字人直播网友调侃：预制直播

陕商贸：低代码赋能数字人才培养，探索产教融合新模式

天网杯纳米AI视频创作赛圆满落幕，ISC.AI学苑推动“教育AI+”新范式

今日大家都在搜的词：

热文

苹果iOS18.7.1正式版更新发布重要安全修复

OPPO A6开售：售价1599元起搭载7000mAh六年长寿电池

AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型

罗永浩替小米说公道话：海报小字是行业陋习

腾讯QQ闪传功能上线支持单文件最大10GB传输

苹果iOS 26.0.1正式版发布：修复iPhone 17系列Wi-Fi、拍照等Bu

OPPO Find X9系列定档：10月16日发布

鸿蒙智行享界S9T上市13天大定破 15000 台

王腾小红书账号注销快手账号已被封禁抖音账号已私密视频号已

鸿蒙智行9月交付新车52916台：全系累计交付突破95万台

小米17破今年国产手机首销纪录卢伟冰：需求远超预期

苹果iOS18.7.1正式版更新发布重要安全修复

苹果将推出iPhone 17e：搭载A19 芯片支持灵动岛

OPPO A6开售：售价1599元起搭载7000mAh六年长寿电池

小米17系列开售5分钟破25年国产手机首销纪录

AI日报：豆包大模型1.6-vision发布；DeepSeek发布V3.2-exp模型

AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠

AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Co

iPhone调休闹钟上热搜苹果客服回应：需手动设置

小米17/Pro/Pro Max今日首销：4499元起

站长商机