首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:阿里腾讯全面支持MCP协议;阶跃星辰多模态推理模型Step-R1-V-Mini;美图WHEE图像生成模型Miracle F1

2025-04-09 15:41 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、阿里巴巴已宣布全面支持MCP协议 腾讯紧随其后

近日,中国人工智能领域迎来技术标准的变革,Model Context Protocol(MCP)成为国内AI生态的事实标准。阿里巴巴和腾讯的支持标志着中国科技巨头在全球AI标准竞争中的新一轮角力。MCP作为开源协议,简化了AI模型与外部工具的交互,提升了互操作性。

image.png

【AiBase提要:】

🚀 MCP协议的快速崛起凸显了中国科技企业对标准化协议的迫切需求。

🤝 阿里巴巴和腾讯的支持将加速MCP在国内的推广,推动AI代理的应用落地。

⚖️ MCP的普及虽面临挑战,但也可能催生新的AI开发生态,影响未来技术竞争。

2、阶跃星辰发布全新多模态推理模型——Step-R1-V-Mini

阶跃星辰科技团队推出的Step-R1-V-Mini是一个创新的多模态推理模型,标志着该领域的新突破。该模型支持图文输入和文字输出,具备优秀的指令遵循能力和通用性。通过采用多模态联合强化学习和verifiable reward机制,Step-R1-V-Mini在视觉推理、数学逻辑等方面表现优异,尤其在MathVision视觉推理榜单中名列前茅。

微信截图_20250409085809.png

【AiBase提要:】

🧠 Step-R1-V-Mini支持图文输入和文字输出,具备良好的指令遵循能力和通用性。

🔍 该模型在视觉推理领域表现优异,特别是在MathVision榜单中位列国内第一

⚙️ 已上线阶跃AI网页端并提供API接口,供开发者和研究人员使用。

详情链接:https://yuewen.cn/chats/new

3、美图WHEE推出图像生成模型 Miracle F1

WHEE平台近日推出的人工智能图像生成模型Miracle F1,以其卓越的图像生成质量和对复杂概念的深刻理解,革新了AI图像创作领域。该模型不仅能生成极具真实感的图像,还在语义理解和风格多样性方面表现出色,满足了不同用户的需求。用户通过WHEE官方网站即可体验这一视觉魔法。

微信截图_20250409103106.png

【AiBase提要:】

✨ Miracle F1能生成极具真实感的图像,模拟真实世界的光影和材质效果。

🧠 该模型精准理解复杂概念,提升创作效率和精准度,仿佛拥有“读心术”。

🌈 Miracle F1具备多元风格,能够满足电商、活动视觉和插画等多样化需求。

4、Deep Research现已搭载Gemini2.5Pro:谷歌最智能AI模型闪耀登场

谷歌宣布其Deep Research功能升级至Gemini2.5Pro实验版,展现出卓越的推理能力和信息整合技术。这一技术突破引发了行业广泛关注,标志着AI研究工具的重要里程碑。Gemini2.5Pro不仅提升了搜索效率,还能进行综合分析,改变了研究方法,推动专业人士适应新技术。未来,谷歌计划扩展Deep Research的适用范围,为学术和商业研究提供更智能的支持。

image.png

【AiBase提要:】

🚀 Gemini2.5Pro的升级显著提升了Deep Research的搜索效率和分析能力,能够处理复杂课题并生成全面报告。

📊 该模型在多个基准测试中表现卓越,尤其在长上下文任务中具备高达100万token的上下文窗口,能够分析海量数据。

🌐 这一技术进步标志着AI研究工具的重要里程碑,预计将对学术和商业研究带来革命性变化。

5、开源新模型 DeepCoder:超高效编程,超越OpenAI o1模型

DeepCoder-14B-Preview模型由Together AI和Agentica联合开源,凭借140亿参数在编程测试中表现出色,得分超越OpenAI的o1模型。该模型的开源内容丰富,包括模型权重、训练数据和训练方法,极大地方便了开发者深入研究。通过分布式强化学习和高质量的数据集,DeepCoder在训练效率和代码质量上均有显著提升,展示了其在AI编程领域的强大潜力。

image.png

【AiBase提要:】

🌟 DeepCoder-14B-Preview模型表现优秀,得分超过OpenAI的o1模型。

📈 开源内容丰富,包括模型权重和训练数据,方便开发者研究。

⚙️ 采用多种技术确保数据质量和训练效率,显著提升了模型性能。

详情链接:https://huggingface.co/agentica-org/DeepCoder-14B-Preview

6、推理性能再飞跃!DeepSeek推创新技术SPCT,让大模型更懂人心

DeepSeek AI推出的自主演原则批判调优技术(SPCT),标志着在大型语言模型领域的一次重大突破。此技术旨在构建更通用和可扩展的AI奖励模型,提升AI在复杂环境中的理解与应对能力。SPCT通过动态生成原则和评论,解决了现有奖励模型面临的输入灵活性、准确性、推理时可扩展性和学习可扩展性等挑战。

image.png

【AiBase提要:】

✨ SPCT技术旨在提升AI奖励模型的通用性与扩展性,克服现有模型的局限性。

💡 通过动态生成原则和评论,SPCT有效提高了AI在复杂任务中的表现和推理能力。

📈 DeepSeek-GRM-27B在多项基准测试中表现优于传统模型,显示出更高的奖励质量和推理时的可扩展性。

详情链接:https://arxiv.org/abs/2504.02495

7、Anthropic官方发布!大学生Claude AI使用报告大公开

这篇文章探讨了人工智能(AI)在大学生学习中的应用,特别是Claude.ai的使用情况。通过分析大量匿名对话数据,研究揭示了不同专业学生对AI的使用偏好,以及AI在学习中的角色。尽管AI为学生提供了便利,但也引发了关于认知能力外包的担忧,强调了教育者在AI时代面临的挑战与机遇。

image.png

【AiBase提要:】

📊 STEM专业学生是AI工具的早期采用者,尤其是计算机科学专业的使用率显著高于其他专业。

🛠️ 学生主要利用AI进行创作和分析,尤其是在教育内容的设计和技术问题的解决上。

🤔 AI的使用引发了关于学生认知能力外包的担忧,教育者需关注如何平衡AI的辅助作用与学生的基础技能发展。

8、亚马逊推新一代AI语音模型Nova Sonic,捕捉语气、语调变化和节奏

亚马逊最新推出的AI语音模型Nova Sonic,旨在提升其语音助手Alexa +的性能。该模型通过本地处理语音,能够生成自然流畅的回复,标志着语音识别技术的重大突破。Nova Sonic不仅具备在复杂环境下的语音识别能力,还能根据用户的语调和风格调整响应,提升用户体验。

image.png

【AiBase提要:】

🌟 Nova Sonic 是亚马逊新推出的 AI 语音模型,旨在提升 Alexa + 的性能。

💰 该模型的成本比 OpenAI 的 GPT-4o 低80%,为开发者提供更多选择。

🔊 Nova Sonic 具备在复杂环境下的语音识别能力,能够快速准确地处理用户请求。

详情链接:https://www.aboutamazon.com/news/innovation-at-amazon/nova-sonic-voice-speech-foundation-model

9、谷歌NotebookLM即将推出移动应用程序版本

谷歌旗下的人工智能研究工具NotebookLM即将推出独立的移动客户端应用程序,标志着其从网页端向移动端的扩展。这一升级将为用户提供更便捷的使用体验,满足对移动应用的需求。NotebookLM自推出以来,凭借其创新功能受到广泛关注,未来的移动应用将进一步整合谷歌的搜索能力,提升信息处理的效率。

【AiBase提要:】

🚀 NotebookLM将推出iOS和Android版本,提升移动端的使用便捷性。

🔍 新增“Discover Sources”功能,允许用户自动搜索并整合网页内容至笔记本。

🎙️ 未来可能深度整合谷歌搜索能力,实现从URL到摘要、思维导图的转化。

10、AI视频生成技术TTT:可直出一分钟完整猫和老鼠动画 无需编辑、拼接

这项研究通过引入测试时训练层,成功生成了一分钟的《猫和老鼠》动画视频,标志着AI视频生成技术的新突破。该技术在画面连贯性和故事完整性上表现出色,且无需后期编辑,展现了AI在创意内容生产中的巨大潜力。尽管存在一些瑕疵,但其应用前景广阔,未来有望改变视频制作模式。

【AiBase提要:】

🚀 通过引入TTT层,模型能够生成完整的一分钟动画,无需后期剪辑。

🎨 生成的视频在时间一致性和故事连贯性上表现优异,接近传统动画质量。

💡 该技术有望降低视频制作成本,加速创意流程,未来可扩展至更复杂的内容。

详情链接:https://test-time-training.github.io/video-dit/

11、网信办:截至2025年3月31日已有346款生成式AI服务完成备案

4月8日,网信上海发布公告,透露截至2025年3月31日的生成式人工智能服务备案情况。根据国家互联网信息办公室的要求,网信部门与相关单位共同推进生成式人工智能服务的备案工作,以促进这一领域的创新和规范应用。

【AiBase提要:】

🌟 截至2025年3月31日,346款生成式人工智能服务已在国家网信办完成备案。

📊159款通过API接口等方式调用的生成式人工智能应用在地方网信办登记。

🔍 所有上线应用需公示所用的已备案服务信息,包括模型名称和备案号。

12.英伟达发布 Llama3.1Nemotron Ultra253B,性能超越 Llama4Behemoth

英伟达推出 Llama3.1Nemotron Ultra253B 模型,性能超越 Llama4系列,并在 Hugging Face 平台开源,具备商业友好特性。

QQ_1744161895807.png

【AiBase 提要:】

🌟 Llama3.1Nemotron Ultra253B 拥有2530亿参数,性能卓越。

🚀 优化架构降低内存占用,适合高效推理。

📈 开源发布,支持商业使用,推动 AI 民主化。

项目入口:https://top.aibase.com/tool/llama-3-1-nemotron-ultra-253b

举报

  • 相关推荐
  • DeepSeek更新R1推理AI模型,已发布Hugging Face

    更新后的 R1 拥有 6850 亿个参数,体量庞大。由于模型规模极大,普通消费者级别的硬件很可能无法直接运行。

  • AI日报腾讯混元图像2.0毫秒级生;Windsurf重磅发布SWE-1系列;MiniMax Speech-02登顶TTS榜首

    本期AI日报重点报道了多项AI领域最新进展:1)腾讯发布混元图像2.0模型,实现毫秒级图像生成;2)Windsurf推出全流程软件工程AI模型SWE-1系列;3)DeepSeek发布V3模型论文,揭示低成本训练大模型方法;4)Manus推出图像生成Agent,支持多工具协同完成任务;5)ElevenLabs发布可定制音效控制面板工具;6)MiniMax语音模型Speech-02超越OpenAI和ElevenLabs;7)DeepL升级翻译服务并推出写作助手;8)OpenAI占据AI工具市场80%份额;9)Llamafile 0.9.3支持Qwen3模型;10)Hugging Face推出WebGPU驱动的实时摄像头AI SmolVLM;11)Hugging Face上线免费MCP教程;12)复旦与腾讯联合推出视频生成工具DICE-Talk。

  • AI日报阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源;黑森林实验室推出FLUX.1Kontext

    【AI日报】今日AI领域重要动态:1)阿里云推出通义灵码AI IDE,集成千问3模型,显著提升编程效率;2)小米开源多模态大模型MiMo-VL-7B,性能超越更大规模闭源模型;3)黑森林实验室发布FLUX.1Kontext图像生成模型,支持文本和参考图像多次编辑;4)Midjourney V7渲染速度提升40%,新增用户投票功能;5)DeepSeek R1-0528大模型在AGI领域取得突破,性能超越xAI等公司;6)Hugging Face进军机器人市场,推出开源人形机器人HopeJR;7)字节跳动火山方舟接入DeepSeek最新大模型;8)Anthropic开源"电路追踪"工具,揭示大模型决策过程;9)阿里巴巴开源自主搜索AI智能体WebAgent;10)Hume发布低延迟语音语言模型EVI3;11)Manus Slides支持一键生成专业幻灯片;12)Runway Gen-4 References支持手机照片艺术化处理。

  • OpenAI 提升o3多模态模型推理实力,微美息(WIMI.US)加速引领产业新变革征程

    OpenAI推出突破性的o3推理模型,首次实现图像直接融入推理过程,在多模态基准测试V* Bench上准确率达95.7%。DeepSeek完成R1模型升级,上下文窗口从12K扩展至23K,幻觉率降低45%-50%。行业呈现开源趋势,DeepSeek开源策略促使多家企业跟进,OpenAI也考虑开源。微美全息加速布局多模态大模型,计划提供实时多模态AI体验。专家指出AI发展重心正从大模型向智能体演进,开源技术显著降低训练门槛,提升泛化能力,为多模态智能探索开辟新路径。企业需紧跟趋势把握机遇,在大模型驱动的新时代找准定位。

  • AI日报:DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • AI日报:通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型

    本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

  • AI日报ChatGPT支持MCP和会议记录功能;Cursor 1.0 版本重磅发布;Midjourney视频功能将在本月上线

    本期AI日报聚焦多项AI领域突破:1)OpenAI为ChatGPT新增企业数据连接和会议记录功能;2)Cursor 1.0发布集成BugBot等开发工具;3)Midjourney即将推出视频生成功能;4)秘塔AI搜索新增PPT导出功能;5)Manus推出文本生成视频工具挑战Sora;6)法国Mistral发布企业级编程助手;7)英伟达推出文档处理专用AI模型;8)腾讯公益引入大模型提升互动体验;9)Firecrawl推出网页抓取API工具;10)Bland AI实现超真实语音克隆;11)报告显示AI训练成本逼近百亿美元;12)开源设计工具Jaaz支持批量图像生成;13)《逆水寒》手游接入AI实现图片动效玩法。

  • AI日报腾讯AI智能编程插件CodeBuddy;字节推Seed1.5-VL多模态模型;Manus母公司否认15亿美元融资传闻

    《AI日报》今日聚焦多项AI领域突破:腾讯推出CodeBuddy 3.0编程助手,深度整合微信小程序开发工具;字节跳动发布仅20B参数的Seed1.5-VL多模态模型,性能达行业领先;通义千问上线"Deep Research"智能研究系统,免费开放体验。此外,苹果推出革命性3D建模工具Matrix3D,Anthropic即将发布Claude Neptune新模型,清华与面壁智能联合推出端侧GUI智能体AgentCPM-GUI。谷歌搜索正测试"AI Mode"新功能,或将取代传统"手气不错"按钮。

  • AI日报阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。