AI日报：字节发布豆包1.5深度思考模型；微信首个AI助手 “元宝” 上线；OpenAI发布o4-mini、满血版o3

2025-04-17 16:19 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、OpenAI发布两款多模态推理模型o4-mini、满血版o3

OpenAI在技术直播中推出了其最新的多模态模型o4-mini和满血版o3，这两款模型具备同时处理文本、图像和音频的能力，并能调用外部工具进行复杂任务的处理。o4-mini在各项测试中表现优异，准确率高于o3，并在编程竞赛中名列前茅。

【AiBase提要:】
🛠️ o4-mini和o3具备多模态处理能力，能同时处理文本、图像和音频，并自动调用外部工具。
📊 o4-mini在AIME2024和2025测试中准确率分别达到93.4%和92.7%，超越满血版o3。
💻 在编程竞赛中，o4-mini获得2700分，跻身全球前200名程序员，展现出强大的编程能力。

2、微信首个AI助手 “元宝” 正式上线，可以添加为微信好友

腾讯推出的“元宝”是首个在微信平台上运行的AI助手，用户可以直接在微信中搜索并添加为好友，享受更真实的聊天体验。元宝不仅能解析微信公众号文章、图片和文档，还能进行智能互动，回答用户的进一步提问。该助手关注用户隐私，具备证件照自动打码功能，虽然目前不支持语音或视频通话。

【AiBase提要:】
🌟 微信首个 AI 助手 “元宝” 上线，用户可直接在微信中搜索添加。
📊 元宝支持解析公众号文章、图片和文档，提供智能互动。
🔒 具备隐私保护功能，支持证件照自动打码。

3、字节发布豆包1.5深度思考模型:多模态深度思考、延迟低

在4月17日的火山引擎 AI 创新巡展杭州站上，字节跳动发布了豆包1.5深度思考模型，展示了其在数学、编程、科学推理及创意写作等领域的卓越能力。该模型采用MoE架构，参数配置优越，推理成本低。结合视觉理解技术，模型能够分析照片、辅助旅行和项目管理，并且视频搜索能力显著增强，提升了用户获取信息的便利性。

【AiBase提要:】
📈 豆包1.5模型在数学、编程等领域表现出色，采用MoE架构，参数配置优越。
🌍 新模型结合视觉理解技术，能够分析照片，辅助旅行和项目管理，功能强大。
🎥 视频搜索能力显著增强，用户可快速获取视频中的相关信息，使用量持续增长。

4、月之暗面Kimi开源数学定理证明模型Kimina-Prover

Kimi技术团队发布了Kimina-Prover的预览版，开源了多个模型和数据集，展现出在形式化定理证明领域的出色性能。Kimina-Prover通过结合大规模强化学习与形式化推理，显著提升了模型的推理能力和样本效率，达到了80.7%的通过率，超越了以往最佳结果。

【AiBase提要:】
🔍 Kimina-Prover在miniF2F基准测试中达到了80.7%的通过率，超越了之前的最佳结果。
🚀 该模型结合了大规模强化学习与形式化推理，显著提升了推理能力和样本效率。
📚 Kimina-Prover的可解释性强，用户可以查看推导过程，为理解模型行为提供便利。
详情链接:https://arxiv.org/abs/2504.11354

5、OpenAI开源超Agent:Codex CLI，五小时内破5000颗星

OpenAI最近发布了Codex CLI，这是一款轻量级的代码智能体工具，发布后迅速获得了极大的关注，仅在五小时内便突破了5000颗星的评价，预计当天将突破1万颗星。Codex CLI具备自动生成、运行代码、重构和测试等强大功能，极大地提升了开发者的工作效率。

【AiBase提要:】
🌟 Codex CLI 在发布后仅5小时便获得5000颗星评价，预计今天将突破1万颗星。
💻 该工具可以自动生成代码、运行代码、重构和测试代码，功能强大且实用。
📈 OpenAI 计划持续推出更多智能体产品，并在探索收购 AI 编程平台以增强竞争力。
详情链接:https://github.com/openai/codex?tab=readme-ov-file

6、谷歌 Gemini Live 功能全面开放，安卓用户迎来新体验

谷歌最近宣布将其 Gemini 应用中的 Gemini Live 功能免费向所有安卓用户开放，此前该功能仅限于 Pixel9和三星 Galaxy S25用户。Gemini Live 的强大之处在于能够实时识别摄像头和屏幕上的内容，为用户提供即时反馈和信息，极大增强了互动体验。随着用户反馈积极，谷歌决定推广这一功能，预计在未来几周内全面上线。

【AiBase提要:】
🌟 Gemini Live 功能现已免费向所有安卓用户开放，原本仅限于 Pixel9和 Galaxy S25用户。
📸 该功能可以实时识别摄像头和屏幕内容，提供即时信息和反馈，提升用户互动体验。
🚀 微软同日推出类似的 AI 工具 C o p i l o t Vision，显示出实时信息识别技术的快速进步。

7、OpenAI 拟以30亿美元收购 AI 编程工具 Windsurf

OpenAI 正在与 AI 编程工具 Windsurf 展开收购谈判，交易金额约为30亿美元。这一收购将成为 OpenAI 最大的并购交易，标志着其在 AI 开发者工具市场的重要布局。Windsurf 是一款受欢迎的 AI 编程助手，能够生成和解释代码，并已获得超过2亿美元的融资。

【AiBase提要:】
💰 OpenAI 正在与 Windsurf 进行30亿美元的收购谈判，若达成将成为其最大规模的并购交易。
🚀 Windsurf 是一款广受欢迎的 AI 编程助手，支持代码生成和解释，已获得超过2亿美元的融资。
📈 此次收购将增强 OpenAI 的编程能力，帮助其在竞争激烈的 AI 工具市场中占据领先地位。

8、JetBrains 推出编码智能体 Junie AI，助力编程与调试全新体验

JetBrains 最近宣布其新编码智能体 Junie AI 已达生产就绪状态，旨在帮助开发者更高效地进行代码编写与调试。Junie AI 的推出标志着 JetBrains 在 AI 工具领域的重大进展。此外，JetBrains 还更新了其旧版 AI 助手，支持最新的 AI 模型，并增强了用户体验。为了应对市场竞争，JetBrains 计划推出免费套餐，吸引更多开发者使用其工具。

【AiBase提要:】
🤖 Junie AI 已达生产就绪状态，专注于复杂任务的处理与调试。
📈 更新的 AI 助手支持多种最新 AI 模型，并新增多文件编辑功能。
🌐 JetBrains 将推出免费套餐，提供无限代码补全，以满足不同开发者的需求。
详情链接:https://blog.jetbrains.com/blog/2025/04/16/jetbrains-ides-go-ai/

9、Reachy2开源人形机器人正式开售

Pollen Robotics推出的Reachy2是一款开源人形机器人，售价7万美元，已在多所顶级大学和研究机构中得到应用。其模块化设计和强大的AI驱动能力使其成为人形机器人领域的先锋，适用于多种研究和教育场景。Reachy2的开源特性和灵活的编程支持为开发者提供了广阔的创新空间，推动了机器人技术的进步。

【AiBase提要:】
🤖 高度仿人设计，具备7自由度手臂，能够自然、精准地执行动作，适合多种应用场景。
🔄 模块化与开源架构，支持Python SDK编程，开发者可根据需求扩展功能，推动技术创新。
🌍 已在全球20多个国家部署，客户包括知名机构，展现出在医疗、零售及教育等领域的广泛应用潜力。

10、上海人工智能实验室推出升级版多模态大模型 “书生・万象3.0”

上海人工智能实验室推出的“书生・万象3.0”是一个全新的多模态大模型，具备更强的文本和多模态输入处理能力，表现出色。该模型在性能和用户体验上都有显著提升，响应速度更快，理解能力更强，能够满足用户多样化的需求。

【AiBase提要:】
🚀 升级版“书生・万象3.0”在多模态处理能力上有显著提升，适用于多种应用场景。
💡 该模型在性能和用户体验上都有明显进步，响应速度和理解能力均增强。
🌐 开源举措为开发者提供了新的平台，鼓励创新和应用，推动行业发展。

11、豆包深度思考和文生图3.0模型正式开放API 对企业客户开放

豆包大模型近期发布了豆包1.5·深度思考模型和豆包文生图模型3.0，正式通过火山引擎开放API，供开发者和企业客户使用。这两款模型在推理和图像生成任务上表现卓越，推动了AI技术的应用与发展。深度思考模型在专业推理任务中表现突出，而文生图模型则在图像生成质量上有显著提升。

【AiBase提要:】
🧠 豆包1.5·深度思考模型在专业领域推理任务中表现优异，接近全球第一梯队水平。
🎨 豆包文生图模型3.0实现高分辨率图像生成，提升了创作效率，具备商业级设计能力。
🚀 两款模型的开放API为企业客户提供了更高效、通用的推理与图像生成能力，推动AI技术发展。
详情链接:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

（举报）

相关推荐

关键词：

荣耀年度旗舰上新，火山引擎助力“YOYO助理”多模态智慧再升级

10月15日，荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力，支持图文、语音、视频输入及多样化内容输出，结合火山引擎的豆包大模型技术，提供联网问答、智能识图、创意修图、出行规划等场景服务，实现“有问必答、答则精准”的智慧体验，成为用户贴身的“万能管家”。

荣耀Magic8系列 MagicOS10 YOYO助理
微算法科技（NASDAQ:MLGO）开发延迟和隐私感知卷积神经网络分布式推理，助力可靠人工智能系统技术

微算科技开发了延迟和隐私感知卷积神经网络分布式推理技术，通过创新队列机制和深度强化学习优化CNN推理过程，结合分布式计算与隐私保护机制，在降低边缘设备计算延迟的同时强化数据隐私。该技术将推理任务智能分配到不同节点，减少数据传输范围，实现高效推理与隐私安全的平衡，为智能医疗、交通等领域提供可靠解决方案。

人工智能深度学习隐私保护
十方融海小智AI：以科技温度诠释“人工智能+”时代的人文关怀

近日，小女孩“小十三”与十方融海研发的小智AI机器人深情告别的视频走红网络。这段1分17秒的对话不仅让无数网友泪目，更展现了AI技术的情感温度。十方融海团队迅速响应，跨越600公里为女孩送上定制版机器人作为生日礼物，并推出儿童心理陪伴计划。该事件体现了“人工智能+教育”的深刻内涵，彰显科技企业的人文关怀与社会担当，成为“技术向善”的生动实践。
荐AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停Sora生成已故名人；谷歌推出Gemini地图数据集成工具

视觉中国与多家AI公司合作开发可商用视觉大模型，已获阿里、微软等订单。OpenAI因不当内容暂停Sora生成马丁·路德·金形象视频，引发AI伦理讨论。DeepSeek在加密货币交易实验中表现领先。WhatsApp将禁止第三方通用AI聊天机器人，仅保留Meta AI。宇树科技推出仿人机器人Unitree H2，具备拟人化设计。谷歌为Gemini集成地图数据工具，可访问25亿地点实时信息。Opera推出集成三款AI助手的Neon浏览器，但用户体验存在困惑。Facebook在美加推出AI照片编辑建议功能，可分析手机未分享照片。

AI 视觉大模型版权合规
荐AI日报：阿里发布紧凑型Qwen3-VL模型；科大讯飞AI翻译耳机全球首发；Gemini代码惊现Veo3.1

阿里巴巴发布紧凑型Qwen3-VL多模态模型，推动边缘设备AI应用；科大讯飞推出全球首款AI翻译耳机，支持60种语言实时翻译；谷歌NotebookLM集成图像生成功能，可将笔记转为动态视频；ChatGPT将于12月向成人开放限制内容并推出自定义交互功能；谷歌Gemini代码泄露Veo3.1视频模型升级迹象；马斯克宣布X平台将全面转向AI推荐系统；巨人网络与清华联合开源多方言语音合成框架DiaMoE-TTS；vivo公布X200系列影像升级计划；字节跳动开源文本驱动高保真人脸生成模型FaceCLIP。

AI技术多模态模型边缘计算
AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

本文汇总AI领域最新动态：OpenAI推出集成ChatGPT的Atlas浏览器，实现多任务自主处理；阿里通义千问新增2B/32B视觉语言模型，手机可流畅运行；谷歌AI Studio升级Vibe Coding功能，简化应用开发流程；百川发布医疗大模型M2Plus，通过循证推理降低误诊率；奇瑞墨甲机器人实现L3级技术突破，计划多行业应用；YouTube推出AI肖像识别工具，打击虚假内容；三星宣布2026年推出AI眼镜，融合AR与语音助手；Claude客户端更新，支持截图分析和语音交互功能。

AI OpenAI ChatGPT
京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

京东在11.11大促期间升级直播技术，推出“立体3D技术”和“JoyAI大模型”等创新，打破传统直播边界。立体3D技术实现裸眼360度商品展示，用户无需额外设备即可旋转查看产品细节；虚拟偶像Aura等跨次元互动增强趣味性。AI全链路工具简化主播运营，提升内容创作效率。这些举措为用户带来沉浸式购物体验，引领直播电商技术革新方向。

京东11.11 立影3D技术 JoyAI大模型
荐市值一日暴增近3000亿港元，阿里迈向超级人工智能之路

9月24日，阿里巴巴股价创下四年新高，单日涨超9%，市值达到约3.32万亿港元，一日增加近3000亿港元。引爆股价的，是阿里集团每年一度的云栖大会。在会上，阿里释放多条重磅消息，尤其是在阿里集团CEO、阿里云智能集团董事长兼CEO吴泳铭的演讲结束后，阿里的股价表现就出现了明显的拉升。

阿里巴巴云栖大会股价
百度升级文心助手AIGC创作能力：支持8种模态一键调用多工具

百度搜索近日宣布对文心助手进行全面升级，显著增强其AIGC多模态创作与智能任务解决能力。目前，该平台已支持AI图片、视频、音乐、播客等8种内容形态的生成，并支持用户一键调用多种工具，应对生活、健康、教育、工作等多场景需求。数据显示，百度搜索用户通过文心助手日均生成的AIGC内容量已突破千万。与此同时，百度还发布了行业首个开放式实时互动数字人智�

百度搜索文心助手 AIGC
REDMI Mini LED电视来了：85英寸到手价不足4000元

小米10月23日发布Redmi X 2026系列Mini LED电视，这是Redmi首款Mini LED产品。85英寸版本售价4799元，补贴后3839.2元，配备640分区背光、1200nits峰值亮度，支持4K/144Hz显示及288Hz超高频模式。搭载四核A73处理器、4+64GB存储，预装澎湃OS系统，视频启动速度提升42%。对比同尺寸小米电视S Mini LED（7399元），性价比突出。另有65/75英寸版本同步亮相。

小米电视 REDMI发布会 Mini

今日大家都在搜的词：

热文

3 天
7天

AI日报：字节发布豆包1.5深度思考模型；微信首个AI助手 “元宝” 上线；OpenAI发布o4-mini、满血版o3

荣耀年度旗舰上新，火山引擎助力“YOYO助理”多模态智慧再升级

微算法科技（NASDAQ:MLGO）开发延迟和隐私感知卷积神经网络分布式推理，助力可靠人工智能系统技术

十方融海小智AI：以科技温度诠释“人工智能+”时代的人文关怀

荐AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停Sora生成已故名人；谷歌推出Gemini地图数据集成工具

荐AI日报：阿里发布紧凑型Qwen3-VL模型；科大讯飞AI翻译耳机全球首发；Gemini代码惊现Veo3.1

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

京东11.11直播技术全面升级，立影3D技术、JoyAI大模型重构沉浸式购物体验

荐市值一日暴增近3000亿港元，阿里迈向超级人工智能之路

百度升级文心助手AIGC创作能力：支持8种模态一键调用多工具

REDMI Mini LED电视来了：85英寸到手价不足4000元

今日大家都在搜的词：

热文

华为nova Flip S小折叠开售：首发3388元起

雷军回应K90定价：最近内存涨价太多希望大家理解这份诚意

REDMI K90标准版12+512GB降价300元小米回应：可退差价

苹果首款2nm手机芯片上热搜 A20由iPhone 18系列首发

小米汽车发布跨年购置税补贴方案至高不超15000元

卢伟冰：REDMI K90标准版12+512首销月直降300 售价2899元

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开

华为nova Flip S小折叠开售：首发3388元起

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

真我GT8发布：售价2899元起骁龙8至尊版双芯

微信三大更新放出上热搜涉及群聊消息处理、消息撤回等

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个

余承东官宣华为路由X3 Pro 采用“日照金山”设计

红米REDMI K90标准版亮相：质感、工艺脱胎换骨

站长商机