首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:阿里腾讯全面支持MCP协议;阶跃星辰多模态推理模型Step-R1-V-Mini;美图WHEE图像生成模型Miracle F1

2025-04-09 15:41 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、阿里巴巴已宣布全面支持MCP协议 腾讯紧随其后

近日,中国人工智能领域迎来技术标准的变革,Model Context Protocol(MCP)成为国内AI生态的事实标准。阿里巴巴和腾讯的支持标志着中国科技巨头在全球AI标准竞争中的新一轮角力。MCP作为开源协议,简化了AI模型与外部工具的交互,提升了互操作性。

image.png

【AiBase提要:】

🚀 MCP协议的快速崛起凸显了中国科技企业对标准化协议的迫切需求。

🤝 阿里巴巴和腾讯的支持将加速MCP在国内的推广,推动AI代理的应用落地。

⚖️ MCP的普及虽面临挑战,但也可能催生新的AI开发生态,影响未来技术竞争。

2、阶跃星辰发布全新多模态推理模型——Step-R1-V-Mini

阶跃星辰科技团队推出的Step-R1-V-Mini是一个创新的多模态推理模型,标志着该领域的新突破。该模型支持图文输入和文字输出,具备优秀的指令遵循能力和通用性。通过采用多模态联合强化学习和verifiable reward机制,Step-R1-V-Mini在视觉推理、数学逻辑等方面表现优异,尤其在MathVision视觉推理榜单中名列前茅。

微信截图_20250409085809.png

【AiBase提要:】

🧠 Step-R1-V-Mini支持图文输入和文字输出,具备良好的指令遵循能力和通用性。

🔍 该模型在视觉推理领域表现优异,特别是在MathVision榜单中位列国内第一

⚙️ 已上线阶跃AI网页端并提供API接口,供开发者和研究人员使用。

详情链接:https://yuewen.cn/chats/new

3、美图WHEE推出图像生成模型 Miracle F1

WHEE平台近日推出的人工智能图像生成模型Miracle F1,以其卓越的图像生成质量和对复杂概念的深刻理解,革新了AI图像创作领域。该模型不仅能生成极具真实感的图像,还在语义理解和风格多样性方面表现出色,满足了不同用户的需求。用户通过WHEE官方网站即可体验这一视觉魔法。

微信截图_20250409103106.png

【AiBase提要:】

✨ Miracle F1能生成极具真实感的图像,模拟真实世界的光影和材质效果。

🧠 该模型精准理解复杂概念,提升创作效率和精准度,仿佛拥有“读心术”。

🌈 Miracle F1具备多元风格,能够满足电商、活动视觉和插画等多样化需求。

4、Deep Research现已搭载Gemini2.5Pro:谷歌最智能AI模型闪耀登场

谷歌宣布其Deep Research功能升级至Gemini2.5Pro实验版,展现出卓越的推理能力和信息整合技术。这一技术突破引发了行业广泛关注,标志着AI研究工具的重要里程碑。Gemini2.5Pro不仅提升了搜索效率,还能进行综合分析,改变了研究方法,推动专业人士适应新技术。未来,谷歌计划扩展Deep Research的适用范围,为学术和商业研究提供更智能的支持。

image.png

【AiBase提要:】

🚀 Gemini2.5Pro的升级显著提升了Deep Research的搜索效率和分析能力,能够处理复杂课题并生成全面报告。

📊 该模型在多个基准测试中表现卓越,尤其在长上下文任务中具备高达100万token的上下文窗口,能够分析海量数据。

🌐 这一技术进步标志着AI研究工具的重要里程碑,预计将对学术和商业研究带来革命性变化。

5、开源新模型 DeepCoder:超高效编程,超越OpenAI o1模型

DeepCoder-14B-Preview模型由Together AI和Agentica联合开源,凭借140亿参数在编程测试中表现出色,得分超越OpenAI的o1模型。该模型的开源内容丰富,包括模型权重、训练数据和训练方法,极大地方便了开发者深入研究。通过分布式强化学习和高质量的数据集,DeepCoder在训练效率和代码质量上均有显著提升,展示了其在AI编程领域的强大潜力。

image.png

【AiBase提要:】

🌟 DeepCoder-14B-Preview模型表现优秀,得分超过OpenAI的o1模型。

📈 开源内容丰富,包括模型权重和训练数据,方便开发者研究。

⚙️ 采用多种技术确保数据质量和训练效率,显著提升了模型性能。

详情链接:https://huggingface.co/agentica-org/DeepCoder-14B-Preview

6、推理性能再飞跃!DeepSeek推创新技术SPCT,让大模型更懂人心

DeepSeek AI推出的自主演原则批判调优技术(SPCT),标志着在大型语言模型领域的一次重大突破。此技术旨在构建更通用和可扩展的AI奖励模型,提升AI在复杂环境中的理解与应对能力。SPCT通过动态生成原则和评论,解决了现有奖励模型面临的输入灵活性、准确性、推理时可扩展性和学习可扩展性等挑战。

image.png

【AiBase提要:】

✨ SPCT技术旨在提升AI奖励模型的通用性与扩展性,克服现有模型的局限性。

💡 通过动态生成原则和评论,SPCT有效提高了AI在复杂任务中的表现和推理能力。

📈 DeepSeek-GRM-27B在多项基准测试中表现优于传统模型,显示出更高的奖励质量和推理时的可扩展性。

详情链接:https://arxiv.org/abs/2504.02495

7、Anthropic官方发布!大学生Claude AI使用报告大公开

这篇文章探讨了人工智能(AI)在大学生学习中的应用,特别是Claude.ai的使用情况。通过分析大量匿名对话数据,研究揭示了不同专业学生对AI的使用偏好,以及AI在学习中的角色。尽管AI为学生提供了便利,但也引发了关于认知能力外包的担忧,强调了教育者在AI时代面临的挑战与机遇。

image.png

【AiBase提要:】

📊 STEM专业学生是AI工具的早期采用者,尤其是计算机科学专业的使用率显著高于其他专业。

🛠️ 学生主要利用AI进行创作和分析,尤其是在教育内容的设计和技术问题的解决上。

🤔 AI的使用引发了关于学生认知能力外包的担忧,教育者需关注如何平衡AI的辅助作用与学生的基础技能发展。

8、亚马逊推新一代AI语音模型Nova Sonic,捕捉语气、语调变化和节奏

亚马逊最新推出的AI语音模型Nova Sonic,旨在提升其语音助手Alexa +的性能。该模型通过本地处理语音,能够生成自然流畅的回复,标志着语音识别技术的重大突破。Nova Sonic不仅具备在复杂环境下的语音识别能力,还能根据用户的语调和风格调整响应,提升用户体验。

image.png

【AiBase提要:】

🌟 Nova Sonic 是亚马逊新推出的 AI 语音模型,旨在提升 Alexa + 的性能。

💰 该模型的成本比 OpenAI 的 GPT-4o 低80%,为开发者提供更多选择。

🔊 Nova Sonic 具备在复杂环境下的语音识别能力,能够快速准确地处理用户请求。

详情链接:https://www.aboutamazon.com/news/innovation-at-amazon/nova-sonic-voice-speech-foundation-model

9、谷歌NotebookLM即将推出移动应用程序版本

谷歌旗下的人工智能研究工具NotebookLM即将推出独立的移动客户端应用程序,标志着其从网页端向移动端的扩展。这一升级将为用户提供更便捷的使用体验,满足对移动应用的需求。NotebookLM自推出以来,凭借其创新功能受到广泛关注,未来的移动应用将进一步整合谷歌的搜索能力,提升信息处理的效率。

【AiBase提要:】

🚀 NotebookLM将推出iOS和Android版本,提升移动端的使用便捷性。

🔍 新增“Discover Sources”功能,允许用户自动搜索并整合网页内容至笔记本。

🎙️ 未来可能深度整合谷歌搜索能力,实现从URL到摘要、思维导图的转化。

10、AI视频生成技术TTT:可直出一分钟完整猫和老鼠动画 无需编辑、拼接

这项研究通过引入测试时训练层,成功生成了一分钟的《猫和老鼠》动画视频,标志着AI视频生成技术的新突破。该技术在画面连贯性和故事完整性上表现出色,且无需后期编辑,展现了AI在创意内容生产中的巨大潜力。尽管存在一些瑕疵,但其应用前景广阔,未来有望改变视频制作模式。

【AiBase提要:】

🚀 通过引入TTT层,模型能够生成完整的一分钟动画,无需后期剪辑。

🎨 生成的视频在时间一致性和故事连贯性上表现优异,接近传统动画质量。

💡 该技术有望降低视频制作成本,加速创意流程,未来可扩展至更复杂的内容。

详情链接:https://test-time-training.github.io/video-dit/

11、网信办:截至2025年3月31日已有346款生成式AI服务完成备案

4月8日,网信上海发布公告,透露截至2025年3月31日的生成式人工智能服务备案情况。根据国家互联网信息办公室的要求,网信部门与相关单位共同推进生成式人工智能服务的备案工作,以促进这一领域的创新和规范应用。

【AiBase提要:】

🌟 截至2025年3月31日,346款生成式人工智能服务已在国家网信办完成备案。

📊159款通过API接口等方式调用的生成式人工智能应用在地方网信办登记。

🔍 所有上线应用需公示所用的已备案服务信息,包括模型名称和备案号。

12.英伟达发布 Llama3.1Nemotron Ultra253B,性能超越 Llama4Behemoth

英伟达推出 Llama3.1Nemotron Ultra253B 模型,性能超越 Llama4系列,并在 Hugging Face 平台开源,具备商业友好特性。

QQ_1744161895807.png

【AiBase 提要:】

🌟 Llama3.1Nemotron Ultra253B 拥有2530亿参数,性能卓越。

🚀 优化架构降低内存占用,适合高效推理。

📈 开源发布,支持商业使用,推动 AI 民主化。

项目入口:https://top.aibase.com/tool/llama-3-1-nemotron-ultra-253b

举报

  • 相关推荐
  • AI日报:Kimi新音频基础模型Kimi-Audio;阶跃星辰开源图像编辑模型Step1X-Edit;​夸克AI超级框上线 “拍照问夸克”

    本期AI日报聚焦多项AI技术突破与应用:1)Moonshot AI推出开源音频模型Kimi-Audio,基于13亿小时训练数据,支持语音识别等任务;2)阶跃星辰开源图像编辑模型Step1X-Edit,展现强大生成能力;3)夸克AI上线"拍照问夸克"功能,实现视觉问答;4)苹果iOS18.5将在中国推送,带来智能功能;5)谷歌发布601个生成式AI应用案例,覆盖多行业;6)微软推出深度整合Windows的UFO²自动化系统;7)OpenAI升级ChatGPT至GPT-4o版本,提升STEM领域能力;8)Ema公司推出高性价比语言模型EmaFusion;9)Liquid AI发布面向边缘设备的Hyena Edge模型;10)LemonAI推出实时音视频数字人产品Slice Live。此外,国内方面,智谱与生数科技达成战略合作推动大模型发展,宝马中国宣布新车将接入DeepSeek技术。

  • UniToken:多模态AI的“能选手”,一次编码搞定文理解与图像生成

    复旦大学与美团研究者提出UniToken框架,首次在统一模型中实现图文理解与生成任务的"双优表现"。该方案融合连续和离散视觉编码,有效解决了传统多模态建模中的"任务干扰"和"表示割裂"问题。通过三阶段训练策略(视觉语义对齐、多任务联合训练、指令强化微调),UniToken在多个基准测试中性能超越专用模型。其创新性体现在:1)统一的双边视觉编码

  • AI日报: OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占AI专利60%

    【AI日报】栏目聚焦人工智能领域最新动态:1) OpenAI推出ChatGPT图像生成API,开发者可轻松集成AI绘图功能,已生成超7亿张图片;2) 谷歌Gemini月活用户突破3.5亿,但仍落后于ChatGPT的6亿用户;3) OpenAI预测2029年收入将达1250亿美元,AI代理业务成主要增长点;4) Ostris发布8B参数扩散模型Flex.2-preview,优化ComfyUI工作流;5) 英伟达推出多模态LLM模型Describe Anything,支持指定区域生成详细描�

  • AI日报:国内首个多模态AI程序员上岗;字节启动Top Seed计划招募AI人才;DeepSeek R1T Chimera上线OpenRouter

    【AI日报】今日AI领域重要动态:1.百度发布文心快码3.5及多模态AI程序员"文心快码Comate Zulu",提升开发效率;2.字节跳动启动"Top Seed"计划,招募30名AI博士人才;3.DeepSeek开源R1T Chimera模型上线OpenRouter平台;4.阿里AI工程师余亮获"全国劳动模范"称号;5.开源图像编辑工具Step1X-Edit登陆Hugging Face,性能媲美GPT-4o;6.谷歌被曝每月向三星支付巨额资金预装Gemini应用

  • AI日报腾讯混元图像2.0毫秒级生;Windsurf重磅发布SWE-1系列;MiniMax Speech-02登顶TTS榜首

    本期AI日报重点报道了多项AI领域最新进展:1)腾讯发布混元图像2.0模型,实现毫秒级图像生成;2)Windsurf推出全流程软件工程AI模型SWE-1系列;3)DeepSeek发布V3模型论文,揭示低成本训练大模型方法;4)Manus推出图像生成Agent,支持多工具协同完成任务;5)ElevenLabs发布可定制音效控制面板工具;6)MiniMax语音模型Speech-02超越OpenAI和ElevenLabs;7)DeepL升级翻译服务并推出写作助手;8)OpenAI占据AI工具市场80%份额;9)Llamafile 0.9.3支持Qwen3模型;10)Hugging Face推出WebGPU驱动的实时摄像头AI SmolVLM;11)Hugging Face上线免费MCP教程;12)复旦与腾讯联合推出视频生成工具DICE-Talk。

  • 玄武云aPaaS低代码平台支持MCP协议

    玄武云aPaaS平台全面支持MCP协议,进一步强化了在低代码开发领域的优势。MCP是由Anthropic公司开源的AI"通用插座"协议,能实现大语言模型与外部数据源的无缝集成。该平台具备三大独特优势:原子化能力调用、非侵入式扩展能力、自主语义解析能力。接入MCP后,开发者无需处理多接口对接,一键发布即可被智能体调用,实现即开即用。该方案与现有平台完全兼容,仅需在IDE增加发布功能并搭配适配器即可使用,成本极低。未来将持续深化MCP应用场景,携手合作伙伴共创企业智慧增长。

  • AI日报:小米首个推理大模型开源Xiaomi MiMo;快手上线AI笔记工具“喵记多”;腾讯拆分AI团队

    本文汇总了AI领域最新动态:1)小米开源70亿参数大模型Xiaomi MiMo,在数学推理和代码竞赛中超越OpenAI和阿里模型;2)快手推出AI笔记工具"喵记多",简化笔记管理;3)Luma AI发布电影级镜头控制API,降低视频生成门槛;4)腾讯重组AI团队,加大语言模型研发投入;5)Anthropic为Claude引入新语音"Glassy";6)谷歌NotebookLM新增50+语言音频概述功能;7)xAI将发布Grok3.5模型;8)Meta推出独立AI助手应用挑战ChatGPT;9)OpenAI紧急修复GPT-4o"谄媚"问题;10)Mac本地AI助手Simular升级隐私保护;11)CameraBench项目帮助AI理解镜头运动;12)谷歌推出个性化语言学习AI工具。

  • 谷歌A2A协议MCP协议有什么区别?A2A和MCP的差异是什么?

    本文探讨AI模型与外部系统高效协作的关键问题,重点对比谷歌主导的A2A协议和Anthropic提出的MCP协议。A2A专注于智能体间协作,适用于自动化复杂任务;MCP则聚焦模型与工具的对接,提升LLM访问外部数据源的效率。二者在技术架构、应用场景上各具特色:A2A基于HTTP/SSE实现智能体通信,MCP采用JSON-RPC2.0标准化接口。文章推荐AIbase平台(https://www.aibase.com/zh)作为了解前沿技术的资源,该平台提供AI工具推荐、技术解读和行业动态。两种协议在AI生态中形成互补,用户可根据需求单独或组合使用。

  • AI日报腾讯混元3D生成模型2.5版本发布;海螺推出图像人物参考功能;百度上线移动端超级智能体心响App

    本文介绍了多款AI领域的新产品和技术进展:1)Kortix-AI推出开源通用AI智能体平台Suna;2)腾讯混元3D生成模型升级至2.5版本;3)海螺AI推出基于单张图像生成多角度角色图像功能;4)百度发布"心响"App整合多智能体协作;5)Nari Labs开源媲美真人的对话语音模型Dia;6)Grok新增视觉处理和多语言支持;7)Genspark推出AI幻灯片工具;8)Character.AI发布让静态图片"说话"的AvatarFX模型;9)pad.ws结合白板和代码编辑器;10)OpenBMB开源社区推出长文本生成模型"卷姬";11)腾讯推出AI阅读助手"企鹅读伴";12)OpenAI有意收购Chrome浏览器;13)字节跳动调整AI产品线布局。这些创新展现了AI技术在自动化、3D生成、语音交互、内容创作等领域的快速发展。

  • AI日报腾讯AI智能编程插件CodeBuddy;字节推Seed1.5-VL多模态模型;Manus母公司否认15亿美元融资传闻

    《AI日报》今日聚焦多项AI领域突破:腾讯推出CodeBuddy 3.0编程助手,深度整合微信小程序开发工具;字节跳动发布仅20B参数的Seed1.5-VL多模态模型,性能达行业领先;通义千问上线"Deep Research"智能研究系统,免费开放体验。此外,苹果推出革命性3D建模工具Matrix3D,Anthropic即将发布Claude Neptune新模型,清华与面壁智能联合推出端侧GUI智能体AgentCPM-GUI。谷歌搜索正测试"AI Mode"新功能,或将取代传统"手气不错"按钮。