首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:字节发布豆包1.5深度思考模型;微信首个AI助手 “元宝” 上线;OpenAI发布o4-mini、满血版o3

2025-04-17 16:19 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、OpenAI发布两款多模态推理模型o4-mini、满血版o3

OpenAI在技术直播中推出了其最新多模态模型o4-mini和满血版o3,这两款模型具备同时处理文本、图像和音频的能力,并能调用外部工具进行复杂任务的处理。o4-mini在各项测试中表现优异,准确率高于o3,并在编程竞赛中名列前茅。

image.png

【AiBase提要:】

🛠️ o4-mini和o3具备多模态处理能力,能同时处理文本、图像和音频,并自动调用外部工具。

📊 o4-mini在AIME2024和2025测试中准确率分别达到93.4%和92.7%,超越满血版o3。

💻 在编程竞赛中,o4-mini获得2700分,跻身全球前200名程序员,展现出强大的编程能力。

2、微信首个AI助手 “元宝” 正式上线,可以添加为微信好友

腾讯推出的“元宝”是首个在微信平台上运行的AI助手,用户可以直接在微信中搜索并添加为好友,享受更真实的聊天体验。元宝不仅能解析微信公众号文章、图片和文档,还能进行智能互动,回答用户的进一步提问。该助手关注用户隐私,具备证件照自动打码功能,虽然目前不支持语音或视频通话。

image.png

【AiBase提要:】

🌟 微信首个 AI 助手 “元宝” 上线,用户可直接在微信中搜索添加。

📊 元宝支持解析公众号文章、图片和文档,提供智能互动。

🔒 具备隐私保护功能,支持证件照自动打码。

3、字节发布豆包1.5深度思考模型:多模态深度思考、延迟低

在4月17日的火山引擎 AI 创新巡展杭州站上,字节跳动发布了豆包1.5深度思考模型,展示了其在数学、编程、科学推理及创意写作等领域的卓越能力。该模型采用MoE架构,参数配置优越,推理成本低。结合视觉理解技术,模型能够分析照片、辅助旅行和项目管理,并且视频搜索能力显著增强,提升了用户获取信息的便利性。

image.png

【AiBase提要:】

📈 豆包1.5模型在数学、编程等领域表现出色,采用MoE架构,参数配置优越。

🌍 新模型结合视觉理解技术,能够分析照片,辅助旅行和项目管理,功能强大。

🎥 视频搜索能力显著增强,用户可快速获取视频中的相关信息,使用量持续增长。

4、月之暗面Kimi开源数学定理证明模型Kimina-Prover

Kimi技术团队发布了Kimina-Prover的预览版,开源了多个模型和数据集,展现出在形式化定理证明领域的出色性能。Kimina-Prover通过结合大规模强化学习与形式化推理,显著提升了模型的推理能力和样本效率,达到了80.7%的通过率,超越了以往最佳结果。

image.png

【AiBase提要:】

🔍 Kimina-Prover在miniF2F基准测试中达到了80.7%的通过率,超越了之前的最佳结果。

🚀 该模型结合了大规模强化学习与形式化推理,显著提升了推理能力和样本效率。

📚 Kimina-Prover的可解释性强,用户可以查看推导过程,为理解模型行为提供便利。

详情链接:https://arxiv.org/abs/2504.11354

5、OpenAI开源超Agent:Codex CLI,五小时内破5000颗星

OpenAI最近发布了Codex CLI,这是一款轻量级的代码智能体工具,发布后迅速获得了极大的关注,仅在五小时内便突破了5000颗星的评价,预计当天将突破1万颗星。Codex CLI具备自动生成、运行代码、重构和测试等强大功能,极大地提升了开发者的工作效率。

image.png

【AiBase提要:】

🌟 Codex CLI 在发布后仅5小时便获得5000颗星评价,预计今天将突破1万颗星。

💻 该工具可以自动生成代码、运行代码、重构和测试代码,功能强大且实用。

📈 OpenAI 计划持续推出更多智能体产品,并在探索收购 AI 编程平台以增强竞争力。

详情链接:https://github.com/openai/codex?tab=readme-ov-file

6、谷歌 Gemini Live 功能全面开放,安卓用户迎来新体验

谷歌最近宣布将其 Gemini 应用中的 Gemini Live 功能免费向所有安卓用户开放,此前该功能仅限于 Pixel9和三星 Galaxy S25用户。Gemini Live 的强大之处在于能够实时识别摄像头和屏幕上的内容,为用户提供即时反馈和信息,极大增强了互动体验。随着用户反馈积极,谷歌决定推广这一功能,预计在未来几周内全面上线。

image.png

【AiBase提要:】

🌟 Gemini Live 功能现已免费向所有安卓用户开放,原本仅限于 Pixel9和 Galaxy S25用户。

📸 该功能可以实时识别摄像头和屏幕内容,提供即时信息和反馈,提升用户互动体验。

🚀 微软同日推出类似的 AI 工具 C o p i l o t Vision,显示出实时信息识别技术的快速进步。

7、OpenAI 拟以30亿美元收购 AI 编程工具 Windsurf

OpenAI 正在与 AI 编程工具 Windsurf 展开收购谈判,交易金额约为30亿美元。这一收购将成为 OpenAI 最大的并购交易,标志着其在 AI 开发者工具市场的重要布局。Windsurf 是一款受欢迎的 AI 编程助手,能够生成和解释代码,并已获得超过2亿美元的融资。

【AiBase提要:】

💰 OpenAI 正在与 Windsurf 进行30亿美元的收购谈判,若达成将成为其最大规模的并购交易。

🚀 Windsurf 是一款广受欢迎的 AI 编程助手,支持代码生成和解释,已获得超过2亿美元的融资。

📈 此次收购将增强 OpenAI 的编程能力,帮助其在竞争激烈的 AI 工具市场中占据领先地位。

8、JetBrains 推出编码智能体 Junie AI,助力编程与调试全新体验

JetBrains 最近宣布其新编码智能体 Junie AI 已达生产就绪状态,旨在帮助开发者更高效地进行代码编写与调试。Junie AI 的推出标志着 JetBrains 在 AI 工具领域的重大进展。此外,JetBrains 还更新了其旧版 AI 助手,支持最新的 AI 模型,并增强了用户体验。为了应对市场竞争,JetBrains 计划推出免费套餐,吸引更多开发者使用其工具。

【AiBase提要:】

🤖 Junie AI 已达生产就绪状态,专注于复杂任务的处理与调试。

📈 更新的 AI 助手支持多种最新 AI 模型,并新增多文件编辑功能。

🌐 JetBrains 将推出免费套餐,提供无限代码补全,以满足不同开发者的需求。

详情链接:https://blog.jetbrains.com/blog/2025/04/16/jetbrains-ides-go-ai/

9、Reachy2开源人形机器人正式开售

Pollen Robotics推出的Reachy2是一款开源人形机器人,售价7万美元,已在多所顶级大学和研究机构中得到应用。其模块化设计和强大的AI驱动能力使其成为人形机器人领域的先锋,适用于多种研究和教育场景。Reachy2的开源特性和灵活的编程支持为开发者提供了广阔的创新空间,推动了机器人技术的进步。

image.png

【AiBase提要:】

🤖 高度仿人设计,具备7自由度手臂,能够自然、精准地执行动作,适合多种应用场景。

🔄 模块化与开源架构,支持Python SDK编程,开发者可根据需求扩展功能,推动技术创新。

🌍 已在全球20多个国家部署,客户包括知名机构,展现出在医疗、零售及教育等领域的广泛应用潜力。

10、上海人工智能实验室推出升级版多模态大模型 “书生・万象3.0”

上海人工智能实验室推出的“书生・万象3.0”是一个全新的多模态大模型,具备更强的文本和多模态输入处理能力,表现出色。该模型在性能和用户体验上都有显著提升,响应速度更快,理解能力更强,能够满足用户多样化的需求。

【AiBase提要:】

🚀 升级版“书生・万象3.0”在多模态处理能力上有显著提升,适用于多种应用场景。

💡 该模型在性能和用户体验上都有明显进步,响应速度和理解能力均增强。

🌐 开源举措为开发者提供了新的平台,鼓励创新和应用,推动行业发展。

11、豆包深度思考和文生图3.0模型正式开放API 对企业客户开放

豆包大模型近期发布了豆包1.5·深度思考模型和豆包文生图模型3.0,正式通过火山引擎开放API,供开发者和企业客户使用。这两款模型在推理和图像生成任务上表现卓越,推动了AI技术的应用与发展。深度思考模型在专业推理任务中表现突出,而文生图模型则在图像生成质量上有显著提升。

【AiBase提要:】

🧠 豆包1.5·深度思考模型在专业领域推理任务中表现优异,接近全球第一梯队水平。

🎨 豆包文生图模型3.0实现高分辨率图像生成,提升了创作效率,具备商业级设计能力。

🚀 两款模型的开放API为企业客户提供了更高效、通用的推理与图像生成能力,推动AI技术发展。

详情链接:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

举报

  • 相关推荐
  • 寒武纪智能芯片赋能多模态大模型应用

    大模型快速发展推动人工智能技术迈向新阶段,从解决特定任务的弱人工智能向处理通用复杂任务的强人工智能演进。IDC报告显示,2024年中国大模型开发平台市场规模达16.9亿元,人工智能算力市场约190亿美元,预计2025年将达259亿美元。寒武纪等企业专注AI芯片研发,推出多款处理器及加速卡产品,支持大模型训练推理及多模态任务,并与产业链合作共同推进人工智能产业发展。

  • 微算法科技(NASDAQ:MLGO)基于人工智能优化构建混合ARIMA模型,提高比特币价格预测准确性

    随着数字资产市场兴起,比特币等加密货币价格预测成为焦点。传统模型难以准确捕捉其非线性波动,微算法科技引入AI技术优化ARIMA模型,结合LSTM网络构建混合模型,提升预测准确性。通过AI算法自动处理数据缺失、异常值检测及参数优化,实现更可靠的比特币价格预测,为投资者提供决策支持。

  • 海尔冰箱唯一获批“制冷家电人工智能技术山东省工程研究中心”

    海尔冰箱在人工智能领域取得新突破,主导建设的"制冷家电人工智能技术山东省工程研究中心"成为2025年山东省工程研究中心认定名单中唯一入选的冰箱品牌。该中心聚焦人工智能、物联网、大数据等技术方向,开发了全空间智慧保鲜舱冰箱等140多项行业首创产品,近三年获授权发明专利803件。海尔冰箱还推出行业首款接入DeepSeek的AI全空间保鲜冰箱,具备方言识别、降噪技术等功能,显著提升用户体验。市场数据显示,2023年1-7月海尔冰箱以47%市场份额稳居行业第一。通过AI技术赋能,海尔冰箱正引领行业向精准、智能保鲜时代跨越。

  • 北电数智亮相世界人工智能大会,“四链融合”推动AI产业落地

    2025世界人工智能大会“人工智能+”战略领军人才与创新发展论坛圆满落幕。论坛聚焦“人才领航智启未来”主题,汇聚中科院、社科院专家及中国联通、腾讯云等机构代表,围绕“人工智能+”行动分享经验,为AI高质量发展筑牢人才根基、激发创新动能。北电数智CMO杨震出席并发表演讲,分享AI行业落地实践,强调紧跟国家战略,推进产业、创新、人才、资本四链融合,打造面向不同场景的AI解决方案,全方位助力AI产业发展。

  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • 下一个爆款在哪儿?2025英特尔人工智能创新应用大赛获奖名单揭晓

    8月16日,2025英特尔人工智能创新应用大赛总决赛在深圳落幕。40支优秀团队从2817支队伍中脱颖而出,围绕工业、教育、心理健康、游戏等领域展开对决。大赛展示了AI从云端走向边缘的趋势,依托酷睿Ultra处理器和低代码开发工具,推动AI应用本地化落地。获奖作品包括动力电池机器人协作拆卸系统和AI生成PPT服务,体现AI与产业需求的深度融合。英特尔与联想、惠普等合作伙伴共同为开发者提供全栈支持,加速AI技术普及和商业化进程。

  • OpenAI发布2款开源模型:gpt-oss系列 能力接近o3和o4-mini

    OpenAI发布开源模型系列GPT-OSS,包含120B和20B两个版本。120B旗舰模型适配单H100 GPU架构,20B轻量版适合边缘计算。两款模型均开放完整推理链监控接口,支持动态参数调节和任务微调优化,性能接近闭源的GPT-O3和O4-mini。该系列突破性地支持代理功能,包括网页交互和Python代码执行,在标准化测试中表现优异。开源策略为开发者提供高性能替代方案,重新定义了AI模型的应用边界。

  • AI日报:字节视频模型Waver 1.0发布;百度AI搜索APP“梯子AI”发布;谷歌推全新Gemini 2.5 Flash图像编辑模型

    本文汇总了AI领域最新动态:谷歌推出Gemini 2.5 Flash图像编辑模型,字节发布Waver 1.0视频生成工具;百度“梯子AI”提供无广告搜索;文心快码新增终端编码功能;腾讯游戏VISVISE工具集提升动画制作效率;自动驾驶配送机器人RM5进军外卖行业;DeepSeek V3.1出现字符Bug已修复;谷歌翻译升级实时同传和AI陪练;全球首现AI勒索软件PromptLock威胁网络安全;Anthropic推出Chrome浏览器AI助手Claude。

  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • AI日报:GPT-5正式发布;百度将推文心5.0大模型;知网发布AIKBase V2.0多模态数据管理系统

    《AI日报》精选AI领域最新动态:1)OpenAI发布GPT-5模型,具备强大多模态能力但推理任务仍有局限;2)知网推出AIKBase V2.0多模态数据管理系统;3)Ideogram新增"角色"功能实现图像风格统一;4)Cursor发布CLI版本支持终端AI编程;5)百度即将推出全新推理模型和文心5.0大模型;6)dots.ocr推出1.7B参数多语言文档解析工具;7)特斯拉解散Dojo超算团队转向英伟达合作;8)谷歌Pixel 10引入AI相�

今日大家都在搜的词: