AI日报：QQ浏览器升级为AI浏览器；OpenAI全新编程智能体Codex；B站团队推动漫视频生成模型AniSora

2025-05-19 16:18 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、B站团队推出AniSora开源动漫视频生成模型，一键打造多种风格动画!

B站团队通过AniSora开源动漫视频生成模型，填补了动漫视频生成领域的技术空白，支持多种动漫风格的视频创作。

【AiBase提要:】
😊 AniSora支持一键生成多种动漫风格视频，涵盖系列剧集、中国原创动画等多种类型。
🌟 引入时空掩码模块，支持图像生成视频、帧插值和局部图像引导等功能，提升生成质量。
🏆 经过严格测试，人物与运动一致性达到当前最高标准（SOTA），展现卓越性能。

2、OpenAI 发布全新编程智能体 Codex

我作为一名开发者，对OpenAI推出的Codex感到非常兴奋。Codex不仅能大幅缩短开发时间，还与GitHub无缝集成，极大提升了工作效率。它通过强化学习生成符合人类偏好的代码，展现了强大的自我委派能力。

【AiBase提要:】
🚀 Codex 智能助手由 OpenAI 推出，能在30分钟内完成复杂的开发任务。
🔗 Codex 与 GitHub 无缝集成，支持多任务并行处理，极大提升开发者效率。
🤖 Codex 通过强化学习训练，确保生成的代码符合人类开发者偏好。

3、Google搜索推出AI Mode实验，探索全新智能问答体验

Google推出了名为 'AI Mode' 的实验性功能，提供文本、语音和图像提问的智能问答体验，并鼓励用户反馈以持续优化服务。

【AiBase提要:】
🌟 支持文本、语音和图像提问，提供更智能的问答体验。
🔍 可通过跟进问题深入探索，获取更多相关信息和网页链接。
🔒 注重用户隐私，采取措施保护数据安全并鼓励用户反馈。
详情链接:https://support.google.com/websearch/answer/16011537?visit_id=638832352895396136-3267382421&p=aimodeavailability&rd=1#aimodeavailability

4、ChatGPT将整合MCP协议，助力企业接入多样AI服务

ChatGPT即将支持MCP协议，该协议允许其与第三方AI服务无缝对接，提供更个性化的用户体验。企业可通过此协议优化工作流程，提升效率和决策质量。

【AiBase提要:】
🌟 MCP协议旨在统一大语言模型与外部系统的互动方式，类似AI应用的“USB-C接口”。
⚙️ 用户可自定义添加工具，填写名称、URL和描述，实现ChatGPT与个人应用的结合。
💼 MCP为企业提供数据按需共享能力，优化工作流程，推动智能化决策。

5、阿里通义实验室推出 ZeroSearch:让大模型无需 API 自我 “搜索”

ZeroSearch 是一种新框架，通过强化学习和少量标注数据，使大语言模型能够模拟搜索引擎，提升检索和推理能力，同时减少对真实搜索引擎的依赖，降低训练成本。

【AiBase提要:】
✨ ZeroSearch 利用强化学习和少量标注数据，使大模型无需依赖真实搜索引擎即可生成高质量文档，增强推理能力。
📚 框架采用课程式学习法，从高质量到低质量文档逐步训练，提高模型适应复杂检索任务的能力。
🌟 在问答数据集测试中，ZeroSearch 表现优于传统方法，在单跳和多跳问答任务中均有显著优势。

6、Stability AI与Arm推出手机级音频生成AI:7秒内创建11秒立体声

Stability AI和Arm联合发布了稳定音频开放小型模型，该模型能在7秒内生成11秒高质量立体声音频，优化后可在移动设备上流畅运行，基于对抗相对对比技术，大幅减少参数量，适合消费级硬件。

【AiBase提要:】
突破性技术让音频生成仅需7秒，实现接近实时的音频合成能力。
模型架构优化至三部分，适配移动端，支持多种音频生成任务。
训练数据严格筛选，确保合法合规，但当前更适用于英语提示输入。

7、Qwen发布全新偏好建模模型系列WorldPM

Qwen团队推出了WorldPM系列模型，包括WorldPM-72B及其衍生版本，通过大规模训练实现偏好建模的突破，为开发者提供高效优化路径。

【AiBase提要:】
🌍 WorldPM通过1500万条偏好数据训练，验证了偏好建模遵循规模化定律，提升模型在监督学习中的表现。
🌐 模型系列开源发布，降低技术门槛，助力全球开发者提升模型优化效率。
🌟 强化风格中立性，克服主观偏见，在编码、数学等任务中展现显著优势。
详情链接:https://huggingface.co/Qwen/WorldPM-72B

8、OpenAI 揭秘 GPT-5:将多款产品整合为一体

Jerry Tworek 在Reddit上分享了GPT-5的最新动态，它将整合Codex、Operator、Deep Research和Memory，以简化用户的操作流程。Codex的编程效率提升了三倍，并且OpenAI计划通过这一工具帮助新手开发者更快入门。

【AiBase提要:】
🌟 GPT-5整合了Codex、Operator、Deep Research和Memory，减少了工具间的切换困扰。
💻 Codex提升了编程效率三倍，特别适合解决琐碎问题的开发者。
👨‍💻 OpenAI计划通过Codex帮助新手开发者快速学习编程，增强人类开发者的整体能力。

9、ListenHub:颠覆播客体验的 AI 生成工具正式上线

ListenHub是一款基于AI技术的播客生成工具，支持中文和英文，提供个性化播客体验。它以其高效的生成速度和友好的用户界面受到欢迎，适合普通用户及内容创作者。提供免费和高级会员服务，并注重移动端体验。

【AiBase提要:】
🌟 使用AI技术快速生成与用户兴趣相关的内容，涵盖科技、历史和社会话题。
⚡️ 生成速度快，1-5分钟即可完成播客制作，适合忙碌人群和内容创作者。
📱 支持多平台和移动端使用，提供免费和高级会员选项，满足多样化需求。
详情链接:https://listenhub.ai/zh

10、QQ浏览器升级为AI浏览器:上线QBot 新增5大AI新能力

QQ浏览器升级为AI浏览器并推出QBot，带来更智能的浏览体验，包括搜索、阅读、翻译、写作及办公辅助等功能。

【AiBase提要:】
🚀 QBot支持多模态提问，能精准回答各类问题，提供24/7智能陪伴。
📚 AI阅读工具可快速总结网页内容、生成脑图，提升信息处理效率。
💼 办公场景下，QBot提供文档编辑、翻译、写作等多功能工具，助力高效办公。

11、数学建模的AI助手MathModelAgent

MathModelAgent是一款专为数学建模设计的智能工具，能够自动完成从问题分析、模型构建、代码编写到论文撰写的全流程，展现了AI在学术与技术领域的深远潜力。

【AiBase提要:】
问题分析与建模:建模手能快速解析数学问题并生成逻辑清晰的数学模型。
代码生成与调试:代码手内置反思模块，生成高质量代码并通过本地解释器实时调试。
论文自动撰写:论文手根据建模和计算结果自动生成格式规范的学术论文。

12、GenSpark推出全球首个 Agentic AI下载代理，革新文件管理体验

我非常看好GenSpark推出的这款Agentic Download Agent工具，它真正实现了文件管理和信息处理的自动化与智能化，极大地简化了我的工作流程。无论是学术研究还是日常办公，这款工具都能让我专注于更重要的事情。

【AiBase提要:】
🚀 支持通过自然语言指令一键完成文件搜索、下载和整理，大幅提升效率。
📚 提供AI Drive功能，支持对文件进行摘要生成、关键信息提取和分析报告生成。
🌐 具备强大的自动化与智能化特性，支持批量处理、智能整理和透明操作。

13、谷歌NotebookLM即将推出Sparks视频概览

谷歌旗下的NotebookLM计划推出‘Sparks’功能，将文档、笔记等转化为1-3分钟的短视频，其中10%内容由AI生成，结合Gemini2.5和Deep Research功能，实现从研究到呈现的端到端解决方案。

【AiBase提要:】
✨ Sparks视频概览结合Gemini2.5和Deep Research，将文档转化为1-3分钟短视频，助力高效内容创作。
📚 适用于教育、研究、内容创作等多个场景，显著提升工作效率。
🌐 全球化布局，支持多语言，未来有望进一步拓展国际市场。

（举报）

相关推荐

关键词：

马斯克母亲发帖支持儿子：演示Grok视频生成功能

近日，马斯克母亲梅耶-马斯克发帖演示支持马斯克的Grok视频生成功能。她表示，这次我把手指放在了最近在X上发布的这张照片上，提示是用Grok制作视频”，现在自己的狗摇着尾巴了，自己玩得很开心。她还特别提示，这个视频由@grok Imagine制作。

马斯克 Grok 视频生成
荐AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发布开源大语言模型 Seed-OSS

本期AI日报聚焦多项AI技术突破：智谱发布革命性语音代理AutoGLM 2.0，实现全平台语音操控；腾讯元宝接入视频平台提升观影便捷性；字节跳动开源大模型Seed-OSS专注长文本处理；速卖通AI代理助力新品推广效率翻倍；微软测试Copilot智能文件搜索功能；Liquid AI推出低延迟视觉语言模型LFM2-VL；OpenAI月收入首破10亿美元；谷歌Pixel 10系列全面升级AI功能，包括情感识别和实时翻译；Pixel Buds Pro 2引入AI手势控制；ElevenLabs发布支持70+语言的文本转语音API。

AI产品 AutoGLM 2.0
OpenAI的开源模型现已在IBM watsonx.ai上提供

OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B，允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台，采用专家混合架构，支持本地或云端部署，不受商业用途限制。模型具备高透明度，输出完整推理链，在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态，IBM强调其开放战略，为企业提供灵活、安全的AI开发选择。

OpenAI模型 IBM watsonx.ai
女频破局、顶流续作，优酷动漫如何引领暑期“新纪元”？

百亿暑期档背后，是一场属于动画的“逆袭叙事”。动画电影《浪浪山小妖怪》不仅跻身“十亿票房俱乐部”，更一举冲入中国影史动画电影票房榜前十。这股动画热远不止于大银幕，长视频平台同样迎来了一场内容狂欢。以优酷动漫为例，在新内容、新题材遍地开花的动画暑期档，不仅制造了新的题材爆款，还以多部优质作品形成内容矩阵，真正实现了“全面”。

文章搜索核心标签动画电影
荐AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

【AI日报】主要内容： 1. B站测试"花生AI"视频工具，3分钟可成片，同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0，实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI，苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision，支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐，仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新：恢复GPT-4o默认模式，为GPT-5引入多模式选择，优化交互体验

AI视频创作花生AI B站AI工具
荐AI日报：阿里开源Qwen-Image-Edit；淘宝“AI万能搜”功能灰度测试；小红书发布DynamicFace人脸生成技术

本期AI日报聚焦多项AI领域创新：1）阿里开源Qwen-Image-Edit图像编辑模型，支持中文渲染与精准文本编辑；2）淘宝测试"AI万能搜"功能，重构电商搜索体验；3）小红书发布DynamicFace人脸生成技术，实现高质量图像视频换脸；4）Gemini API新增URL Context功能，简化网页内容获取流程；5）Nvidia推出小型开放模型Nemotron-Nano-9B-v2，支持智能推理开关；6）马斯克发布Grok Imagine 0.1测试版，进军AI图像生成领域；7）Vercel推出iOS版AI开发工具v0；8）理想汽车发布MindGPT 3.1模型，处理速度提升5倍；9）ToonComposer工具简化动画制作流程；10）ElevenLabs推出视频到音乐生成流程。

AI 开源图像编辑
荐AI日报：即梦上线智能多帧功能；可灵2.1首尾帧升级；钉钉推语音识别大模型Fun-ASR

AI日报栏目汇总近期AI领域重要进展：腾讯元宝接入DeepSeek V3.1提升智能助手能力；即梦AI推出多帧功能简化视频制作；可灵AI首尾帧功能升级效果提升235%；钉钉与通义实验室联合发布Fun-ASR语音识别大模型；腾讯CodeBuddy IDE国内版公测；Vercel发布AI Gateway简化模型调用；Anthropic整合Claude Code强化企业开发；阿里发布Mobile-Agent-v3突破GUI自动化；Qoder平台革新编程模式；清华团队GUAVA框架实现0.1秒3D化身生成；谷歌搜索新增AI Agent功能；VAST推出Tripo 3.0推动3D内容创作。

AI 腾讯元宝 DeepSeek
荐昆仑万维UniPic 2.0“小钢炮”模型炸场，一个模型搞定理解+生成+编辑

大模型又迎来新一波的迭代周期。近日，从Open AI发布GPT-5，到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周，连续5天每天发布一个新模型，而8月13日发布的，正是其本周发布的第三款模型——多模态统一模型UniPic2.0。 UniPic2.0主打的是，在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力

大模型多模态 AI生图
荐AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatcher；我国首个法律垂直大模型“小包公”发布

本文介绍了AI领域最新动态：1)腾讯推出电影级音频生成工具AudioGenie，展现中国AI技术实力；2)阿里开源多模态智能体WebWatcher，突破现有系统局限；3)港大等高校联合推出3D建模技术OmniPart，实现模型组件独立性和清晰度；4)Meta发布无需标注数据的通用图像处理模型DINOv3；5)国内首个法律大模型"小包公"发布；6)ChatGPT移动端收入突破20亿美元；7)安卓厂商借鉴灵动岛设计，新芯片推动AI功能普及；8)欧洲AI公司推出仅94MB的超小模型；9)Claude Code新增编程教学模式；10)AI技术被滥用于电商恶意退款；11)IDC报告显示2024年中国AI公有云服务市场将快速增长。

AI 腾讯AudioGenie 电影级音效
如何用3分钟精准计算AI大模型成本？避免生成一篇万字文章就超支？

AI大模型成本控制指南：实测三步预算法+企业级避坑方案。文章揭露行业痛点：1）价格迷雾：各厂商计费规则差异大，长文本/多模态存在隐藏溢价；2）团队实测GPT-4生成20篇行业分析（50万字）实际账单超预算4倍。解决方案：通过AIbase计算器实现精准预测：①场景化选择自动加载计费规则；②输入需求实时生成动态成本矩阵；③智能规避四大隐性成本（长文本衰减补偿/区域差价预警等）。跨境电商案例显示，使用工具后成本降低60%。核心观点：在AI时代，成本控制能力已成为企业核心竞争力。

AI预算计算模型成本控制 GPT-4计费

今日大家都在搜的词：

热文

3 天
7天

AI日报：QQ浏览器升级为AI浏览器；OpenAI全新编程智能体Codex；B站团队推动漫视频生成模型AniSora

马斯克母亲发帖支持儿子：演示Grok视频生成功能

荐AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发布开源大语言模型 Seed-OSS

OpenAI的开源模型现已在IBM watsonx.ai上提供

女频破局、顶流续作，优酷动漫如何引领暑期“新纪元”？

荐AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

荐AI日报：阿里开源Qwen-Image-Edit；淘宝“AI万能搜”功能灰度测试；小红书发布DynamicFace人脸生成技术

荐AI日报：即梦上线智能多帧功能；可灵2.1首尾帧升级；钉钉推语音识别大模型Fun-ASR

荐昆仑万维UniPic 2.0“小钢炮”模型炸场，一个模型搞定理解+生成+编辑

荐AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatcher；我国首个法律垂直大模型“小包公”发布

如何用3分钟精准计算AI大模型成本？避免生成一篇万字文章就超支？

今日大家都在搜的词：

热文

罗永浩泡面1小时销售额超280万 2小时售罄：一桶近10元

AI日报：即梦上线智能多帧功能；可灵2.1首尾帧升级；钉钉推语音

李国庆婚礼收到11万余元善款受助学生寄来祝福

REDMI Note 15标准版发布：售价999元起

魅族22延期上热搜：将于9月中上旬发布

小米MIX Flip 2钻石限定版发布：售价6999元

荣耀Magic V Flip2发布：售价5499元起

华为首款鸿蒙MateTV发布支持灵犀触控交互等功能

60岁李国庆谈再婚：妻子是“白月光” 年轻时2次爱而不得

罗永浩官宣明日将公布TBT项目号称九年磨一面

《黑神话:钟馗》先导预告公布游戏科学宣布《黑神话:钟馗》官网

AI日报：DeepSeek V3.1正式发布；企业微信5.0推出全新AI能力；

REDMI Note 15 Pro+首搭自研澎湃T1S芯片

AI日报：阿里开源Qwen-Image-Edit；淘宝“AI万能搜”功能灰度测

黑神话官号更名系列游戏将开启宏大篇章

罗永浩泡面1小时销售额超280万 2小时售罄：一桶近10元

AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发

站长商机