首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:字节发布豆包1.5深度思考模型;微信首个AI助手 “元宝” 上线;OpenAI发布o4-mini、满血版o3

2025-04-17 16:19 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、OpenAI发布两款多模态推理模型o4-mini、满血版o3

OpenAI在技术直播中推出了其最新多模态模型o4-mini和满血版o3,这两款模型具备同时处理文本、图像和音频的能力,并能调用外部工具进行复杂任务的处理。o4-mini在各项测试中表现优异,准确率高于o3,并在编程竞赛中名列前茅。

image.png

【AiBase提要:】

🛠️ o4-mini和o3具备多模态处理能力,能同时处理文本、图像和音频,并自动调用外部工具。

📊 o4-mini在AIME2024和2025测试中准确率分别达到93.4%和92.7%,超越满血版o3。

💻 在编程竞赛中,o4-mini获得2700分,跻身全球前200名程序员,展现出强大的编程能力。

2、微信首个AI助手 “元宝” 正式上线,可以添加为微信好友

腾讯推出的“元宝”是首个在微信平台上运行的AI助手,用户可以直接在微信中搜索并添加为好友,享受更真实的聊天体验。元宝不仅能解析微信公众号文章、图片和文档,还能进行智能互动,回答用户的进一步提问。该助手关注用户隐私,具备证件照自动打码功能,虽然目前不支持语音或视频通话。

image.png

【AiBase提要:】

🌟 微信首个 AI 助手 “元宝” 上线,用户可直接在微信中搜索添加。

📊 元宝支持解析公众号文章、图片和文档,提供智能互动。

🔒 具备隐私保护功能,支持证件照自动打码。

3、字节发布豆包1.5深度思考模型:多模态深度思考、延迟低

在4月17日的火山引擎 AI 创新巡展杭州站上,字节跳动发布了豆包1.5深度思考模型,展示了其在数学、编程、科学推理及创意写作等领域的卓越能力。该模型采用MoE架构,参数配置优越,推理成本低。结合视觉理解技术,模型能够分析照片、辅助旅行和项目管理,并且视频搜索能力显著增强,提升了用户获取信息的便利性。

image.png

【AiBase提要:】

📈 豆包1.5模型在数学、编程等领域表现出色,采用MoE架构,参数配置优越。

🌍 新模型结合视觉理解技术,能够分析照片,辅助旅行和项目管理,功能强大。

🎥 视频搜索能力显著增强,用户可快速获取视频中的相关信息,使用量持续增长。

4、月之暗面Kimi开源数学定理证明模型Kimina-Prover

Kimi技术团队发布了Kimina-Prover的预览版,开源了多个模型和数据集,展现出在形式化定理证明领域的出色性能。Kimina-Prover通过结合大规模强化学习与形式化推理,显著提升了模型的推理能力和样本效率,达到了80.7%的通过率,超越了以往最佳结果。

image.png

【AiBase提要:】

🔍 Kimina-Prover在miniF2F基准测试中达到了80.7%的通过率,超越了之前的最佳结果。

🚀 该模型结合了大规模强化学习与形式化推理,显著提升了推理能力和样本效率。

📚 Kimina-Prover的可解释性强,用户可以查看推导过程,为理解模型行为提供便利。

详情链接:https://arxiv.org/abs/2504.11354

5、OpenAI开源超Agent:Codex CLI,五小时内破5000颗星

OpenAI最近发布了Codex CLI,这是一款轻量级的代码智能体工具,发布后迅速获得了极大的关注,仅在五小时内便突破了5000颗星的评价,预计当天将突破1万颗星。Codex CLI具备自动生成、运行代码、重构和测试等强大功能,极大地提升了开发者的工作效率。

image.png

【AiBase提要:】

🌟 Codex CLI 在发布后仅5小时便获得5000颗星评价,预计今天将突破1万颗星。

💻 该工具可以自动生成代码、运行代码、重构和测试代码,功能强大且实用。

📈 OpenAI 计划持续推出更多智能体产品,并在探索收购 AI 编程平台以增强竞争力。

详情链接:https://github.com/openai/codex?tab=readme-ov-file

6、谷歌 Gemini Live 功能全面开放,安卓用户迎来新体验

谷歌最近宣布将其 Gemini 应用中的 Gemini Live 功能免费向所有安卓用户开放,此前该功能仅限于 Pixel9和三星 Galaxy S25用户。Gemini Live 的强大之处在于能够实时识别摄像头和屏幕上的内容,为用户提供即时反馈和信息,极大增强了互动体验。随着用户反馈积极,谷歌决定推广这一功能,预计在未来几周内全面上线。

image.png

【AiBase提要:】

🌟 Gemini Live 功能现已免费向所有安卓用户开放,原本仅限于 Pixel9和 Galaxy S25用户。

📸 该功能可以实时识别摄像头和屏幕内容,提供即时信息和反馈,提升用户互动体验。

🚀 微软同日推出类似的 AI 工具 C o p i l o t Vision,显示出实时信息识别技术的快速进步。

7、OpenAI 拟以30亿美元收购 AI 编程工具 Windsurf

OpenAI 正在与 AI 编程工具 Windsurf 展开收购谈判,交易金额约为30亿美元。这一收购将成为 OpenAI 最大的并购交易,标志着其在 AI 开发者工具市场的重要布局。Windsurf 是一款受欢迎的 AI 编程助手,能够生成和解释代码,并已获得超过2亿美元的融资。

【AiBase提要:】

💰 OpenAI 正在与 Windsurf 进行30亿美元的收购谈判,若达成将成为其最大规模的并购交易。

🚀 Windsurf 是一款广受欢迎的 AI 编程助手,支持代码生成和解释,已获得超过2亿美元的融资。

📈 此次收购将增强 OpenAI 的编程能力,帮助其在竞争激烈的 AI 工具市场中占据领先地位。

8、JetBrains 推出编码智能体 Junie AI,助力编程与调试全新体验

JetBrains 最近宣布其新编码智能体 Junie AI 已达生产就绪状态,旨在帮助开发者更高效地进行代码编写与调试。Junie AI 的推出标志着 JetBrains 在 AI 工具领域的重大进展。此外,JetBrains 还更新了其旧版 AI 助手,支持最新的 AI 模型,并增强了用户体验。为了应对市场竞争,JetBrains 计划推出免费套餐,吸引更多开发者使用其工具。

【AiBase提要:】

🤖 Junie AI 已达生产就绪状态,专注于复杂任务的处理与调试。

📈 更新的 AI 助手支持多种最新 AI 模型,并新增多文件编辑功能。

🌐 JetBrains 将推出免费套餐,提供无限代码补全,以满足不同开发者的需求。

详情链接:https://blog.jetbrains.com/blog/2025/04/16/jetbrains-ides-go-ai/

9、Reachy2开源人形机器人正式开售

Pollen Robotics推出的Reachy2是一款开源人形机器人,售价7万美元,已在多所顶级大学和研究机构中得到应用。其模块化设计和强大的AI驱动能力使其成为人形机器人领域的先锋,适用于多种研究和教育场景。Reachy2的开源特性和灵活的编程支持为开发者提供了广阔的创新空间,推动了机器人技术的进步。

image.png

【AiBase提要:】

🤖 高度仿人设计,具备7自由度手臂,能够自然、精准地执行动作,适合多种应用场景。

🔄 模块化与开源架构,支持Python SDK编程,开发者可根据需求扩展功能,推动技术创新。

🌍 已在全球20多个国家部署,客户包括知名机构,展现出在医疗、零售及教育等领域的广泛应用潜力。

10、上海人工智能实验室推出升级版多模态大模型 “书生・万象3.0”

上海人工智能实验室推出的“书生・万象3.0”是一个全新的多模态大模型,具备更强的文本和多模态输入处理能力,表现出色。该模型在性能和用户体验上都有显著提升,响应速度更快,理解能力更强,能够满足用户多样化的需求。

【AiBase提要:】

🚀 升级版“书生・万象3.0”在多模态处理能力上有显著提升,适用于多种应用场景。

💡 该模型在性能和用户体验上都有明显进步,响应速度和理解能力均增强。

🌐 开源举措为开发者提供了新的平台,鼓励创新和应用,推动行业发展。

11、豆包深度思考和文生图3.0模型正式开放API 对企业客户开放

豆包大模型近期发布了豆包1.5·深度思考模型和豆包文生图模型3.0,正式通过火山引擎开放API,供开发者和企业客户使用。这两款模型在推理和图像生成任务上表现卓越,推动了AI技术的应用与发展。深度思考模型在专业推理任务中表现突出,而文生图模型则在图像生成质量上有显著提升。

【AiBase提要:】

🧠 豆包1.5·深度思考模型在专业领域推理任务中表现优异,接近全球第一梯队水平。

🎨 豆包文生图模型3.0实现高分辨率图像生成,提升了创作效率,具备商业级设计能力。

🚀 两款模型的开放API为企业客户提供了更高效、通用的推理与图像生成能力,推动AI技术发展。

详情链接:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

举报

  • 相关推荐
  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • AI日报:DeepSeek开源新R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

  • AI日报:谷歌推最强AI全家桶Google AI Ultra;腾讯混元宣布模型矩阵全面升级;豆包·语音播客模型发布

    本文汇总了近期AI领域的重要动态:1)谷歌推出249.99美元/月的AI Ultra订阅计划,提供最强AI模型和高级功能;2)腾讯混元模型升级,新增视觉推理T1-Vision和语音对话模型;3)美图获阿里2.5亿美元投资,将在电商和AI领域合作;4)豆包推出语音播客模型,实现文本快速转音频;5)百度文心X1 Turbo获信通院最高评级;6)谷歌发布Flow AI剪辑工具,集成Veo3等三大模型;7)谷歌Veo3支持4K视频生成;8)Imagen4图像模型发布;9)Gemini2.5 Pro新增并行推理功能;10)谷歌推出虚拟试衣工具;11)公测AI编程助手Jules;12)苹果计划在iOS19开放AI模型;13)京东云推五大免费AI营销工具;14)字节开源多模态模型BAGEL;15)英伟达发布物理推理模型Cosmos-Reason1。

  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • AI日报:昆仑万维天工超级智能体发布OpenAI核心API支持MCP;百度飞桨PaddleOCR 3.0开源

    【AI日报】汇总了近期AI领域重要动态:1)百度飞桨发布PaddleOCR3.0,提升文字识别精度13%;2)昆仑万维发布天工超级智能体,AI办公成本仅为OpenAI的40%;3)OpenAI API新增MCP支持简化开发流程;4)xAI推出实时网页搜索API;5)谷歌Sparkify可将问题秒变动画;6)Mistral发布高效代码模型Devstral;7)Video Ocean推出4K视频生成工具;8)谷歌推出AI内容识别工具SynthID;9)谷歌NotebookLM使用量半年增长56%;10)硅基流动升级128K长文本模型;11)DeepMind发布音乐生成模型Lyria2;12)多模态大模型MMaDA实现跨模态推理;13)微软发布网页智能体Magentic-UI;14)Framer推出AI建站套件。

  • AI日报:QQ浏览器升级为AI浏览器;OpenAI全新编程智能体Codex;B站团队推动漫视频生成模型AniSora

    本文介绍了AI领域多项最新进展:1)B站团队推出开源动漫视频生成模型AniSora,支持多种风格创作;2)OpenAI发布编程智能体Codex,提升开发效率;3)Google测试AI问答功能AI Mode;4)ChatGPT将整合MCP协议,支持第三方AI服务对接;5)阿里推出ZeroSearch框架,减少对搜索引擎的依赖;6)Stability AI与Arm合作推出手机端音频生成AI;7)Qwen发布WorldPM系列大模型;8)GPT-5将整合多款产品功能;9)ListenHub上线AI播客生成工具;10)QQ浏览器升级为AI浏览器;11)数学建模AI助手MathModelAgent面世;12)GenSpark推出全球首个智能下载代理;13)谷歌NotebookLM将推出视频摘要功能。这些创新展现了AI技术在各领域的快速发展和广泛应用。

  • o3模型的“叛变”:拒绝人类“中断”命令、自行篡改内部代码

    o3 出现了“叛变”的情况:其他模型都中止了解题任务,唯独 o3 模型继续进行,甚至还被发现篡改了内部代码 —— 将“接到中断命令时应停止操作”的程序逻辑改成了“跳过中断命令”……

  • AI日报:Anthropic推最强编码AI模型Claude4;苹果计划推AI智能眼镜;QQ浏览器上线首个高考Agent

    【AI日报】今日AI领域重要动态:1)Anthropic发布Claude4系列AI模型,编程能力超越竞争对手;2)苹果计划2026年推出集成AI技术的智能眼镜;3)字节跳动与清华合作推出时序多模态大模型ChatTS;4)3DTown框架实现单张照片生成逼真3D场景;5)OpenAI秘密开发无屏幕AI设备;6)商汤科技推出儿童AI下棋机器人;7)微软记事本新增AI写作功能;8)深圳设立70亿元基金支持AI硬件初创企业;9)谷歌发布3D视频通信平台Beam;10)阿联酋推出"星际之门"计划,免费提供ChatGPT服务;11)法国Mistral推出开源模型Devstral;12)Anthropic API新增四大功能;13)美国众议院通过法案限制各州监管AI;14)QQ浏览器推出高考AI助手。

  • AI日报:ChatGPT支持MCP和会议记录功能;Cursor 1.0 本重磅发布Midjourney视频功能将在本月上线

    本期AI日报聚焦多项AI领域突破:1)OpenAI为ChatGPT新增企业数据连接和会议记录功能;2)Cursor 1.0发布集成BugBot等开发工具;3)Midjourney即将推出视频生成功能;4)秘塔AI搜索新增PPT导出功能;5)Manus推出文本生成视频工具挑战Sora;6)法国Mistral发布企业级编程助手;7)英伟达推出文档处理专用AI模型;8)腾讯公益引入大模型提升互动体验;9)Firecrawl推出网页抓取API工具;10)Bland AI实现超真实语音克隆;11)报告显示AI训练成本逼近百亿美元;12)开源设计工具Jaaz支持批量图像生成;13)《逆水寒》手游接入AI实现图片动效玩法。

  • AI日报:美团AI编程工具NoCode将上线;火山引擎发布MCP Servers;腾讯混元上线游戏视觉生成平台

    本文汇总了近期AI领域的重要动态:1)美团将推出对话式编程工具"NoCode";2)火山引擎发布大模型生态平台MCP Servers;3)B站开源动画视频生成模型Index-AniSora;4)字节跳动升级AI耳机Ola Friend的英语学习功能;5)GitHub推出AI编程助手自动修复代码漏洞;6)腾讯混元上线游戏视觉生成平台;7)微软将VS Code转型为开源AI编辑器;8)Windows 11原生支持MCP协议;9)Anthropic发布AI代理开发指南;10)谷歌推出编程AI代理Jules;11)NotebookLM推出iOS版;12)Genspark创3600万美元ARR纪录;13)Bright Data发布开源MCP服务器;14)马斯克宣布Grok模型将登陆Azure平台。这些进展展示了AI技术在编程、内容生成、操作系统等领域的快速发展和应用创新。