首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:昆仑万维开源Skywork-OR1系列模型;讯飞星辰Agent开发平台全面支持MCP;字节跳动布局AI智能眼镜

2025-04-14 15:31 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、Kimi开源视觉语言模型 Kimi-VLKimi-VL-Thinking,多项基准超越 GPT-4o

Moonshot AI 最近开源了 Kimi-VL 和 Kimi-VL-Thinking 两款视觉语言模型,展现出卓越的多模态理解与推理能力。这些模型采用轻量级的 MoE 架构,参数仅有30亿,却在多个基准测试中超越了 GPT-4o。Kimi-VL 系列在数学推理、智能体操作和高分辨率图像处理等方面表现突出,支持超长上下文理解,展现出广泛的应用潜力。

image.png

【AiBase提要:】

🛠️ Kimi-VL 和 Kimi-VL-Thinking 采用轻量级 MoE 架构,参数仅30亿,运行效率高。

📊 在 MathVision 和 ScreenSpot-Pro 测试中,Kimi-VL 分别取得36.8% 和34.5% 的优异成绩,展示强大的推理能力。

📈 支持高达128K tokens 的上下文输入,适用于长文档和视频分析,展现出广泛的应用潜力。

详情链接:https://github.com/MoonshotAI/Kimi-VL https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct

2、科大讯飞旗下讯飞星辰Agent开发平台已全面支持MCP

科大讯飞近日宣布其讯飞星辰Agent开发平台全面支持MCP,旨在帮助开发者高效构建Agent应用。该平台不仅支持轻松配置和调用行业领先的MCP Server,还允许一键发布自定义MCP Server,实现真正的“即插即用”。首批支持的MCP Server覆盖多个行业,推动AI应用的中间层标准化。

image.png

【AiBase提要:】

🌟 开发者可以轻松配置和调用行业领先的MCP Server,支持一键发布自定义MCP Server。

🔧 首批支持20+行业精品MCP Server,涵盖AI能力、生活服务等多个领域。

🌐 讯飞星辰Agent开发平台支持零代码和低代码创建模式,赋能个人和企业快速开发大模型应用。

详情链接:https://mcp.xfyun.cn/

3、昆仑万维开源Skywork-OR1系列模型 数学代码能力出色

昆仑万维天工团队于4月13日推出了全新升级的Skywork-OR1系列模型,标志着在逻辑推理和复杂任务求解方面的重大突破。该系列包含三款高性能模型,分别针对数学和代码领域,展现出卓越的推理能力和性价比。Skywork-OR1-32B-Preview在竞赛编程任务中表现尤为突出,显示出其训练策略的先进性。

image.png

【AiBase提要:】

🔍 Skywork-OR1系列模型在逻辑理解与复杂任务求解方面实现了业界领先的推理性能。

💻 包括Skywork-OR1-Math-7B、Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview三款高性能模型,满足不同需求。

🏆 Skywork-OR1-32B-Preview在竞赛编程任务中表现突出,接近DeepSeek-R1的能力,展现出优越的性价比。

详情链接:https://github.com/SkyworkAI/Skywork-OR1

4、字节跳动推出Seed-Thinking-v1.5:推理AI竞赛中的新力量

字节跳动推出的新型大语言模型Seed-Thinking-v1.5在推理AI竞争中展现出强大的实力。该模型采用混合专家架构,能够在多项基准测试中超越行业巨头,尤其是在科学、技术、数学和工程领域。通过技术创新和高效的训练方法,Seed-Thinking-v1.5不仅提高了推理能力,还在非推理任务中表现出色。

QQ20250414-090120.png

【AiBase提要:】

🚀 字节跳动推出Seed-Thinking-v1.5,专注于STEM领域,采用混合专家架构。

🏆 在多项基准测试中表现优异,超越Google和OpenAI的产品。

🔍 采用先进的训练技术和强化学习框架,提升模型性能与效率。

5、商汤大装置SenseCore2.0全新升级 推出1亿元代金券计划

在2025商汤技术交流日上,商汤科技宣布其大装置SenseCore2.0全面升级,旨在为企业提供高效、灵活的全栈AI基础设施服务。此次升级响应了大模型产业的三大挑战,并通过技术创新显著提升了算力利用率和推理性能。此外,商汤科技投入1亿元专项代金券,助力各行业加速AI落地。

image.png

【AiBase提要:】

⚙️ SenseCore2.0全面升级,提升AI基础设施服务的性价比和灵活性。

🤝 商汤与松应科技战略合作,推动具身智能技术的发展,解决智能化落地难题。

💰 投入1亿元代金券,支持企业从咨询到模型训练的全流程AI服务。

6、Google AI Studio开放Veo2视频模型有限免费试用

Google AI Studio最近向部分用户开放了Veo2视频模型的有限免费试用,引发了广泛关注。Veo2作为最新一代AI视频生成工具,支持高达4K分辨率和真实的物理模拟,展现了其强大的技术实力。然而,试用权限受到严格限制,用户对冷却时间和后续使用的未知感到困惑。

image.png

【AiBase提要:】

🌟 Veo2视频模型由Google DeepMind开发,支持高达4K分辨率,展现出卓越的生成能力。

🕒 试用权限有限,用户反馈冷却时间不明确,可能影响体验。

🔒 Google对生成内容进行严格把控,确保用户隐私和安全。

7、上海AI实验室开源InternVL3系列多模态大型语言模型

OpenGVLab于4月11日发布了InternVL3系列模型,标志着多模态大型语言模型领域的新里程碑。该系列模型包含从1B到78B的多种尺寸,具备处理文字、图片、视频等多种信息的能力,性能显著提升。与前代产品相比,InternVL3在多模态感知和推理上有了显著进步,扩展了工具使用、工业图像分析等多个领域的能力。

image.png

【AiBase提要:】

🧠 InternVL3系列模型支持从1B到78B的多种尺寸,展现出卓越的多模态处理能力。

🔍 与InternVL2.5相比,InternVL3在多模态感知和推理能力上有显著提升,支持多图像和视频数据。

⚙️ 模型可通过LMDeploy的api_server部署为OpenAI兼容API,用户可轻松进行模型调用。

详情链接:https://modelscope.cn/collections/InternVL3-5d0bdc54b7d84e

8、AI“智商”大考变革!全新GAIA基准超越 ARC-AGI

随着人工智能技术的迅速发展,如何准确评估AI的智能水平成为行业关注的重点。传统的评估基准如MMLU虽然广泛使用,但其局限性逐渐显现,无法全面反映AI在实际应用中的能力。新推出的GAIA基准通过模拟真实世界的复杂问题,强调了AI在多步骤任务中的灵活性与专业化,标志着AI评估方法的重大转变。

image.png

【AiBase提要:】

🔍 新基准GAIA旨在评估AI在实际应用中的能力,涵盖多模态理解和复杂推理等关键技能。

📊 传统基准如MMLU的高分并不代表AI的真实能力,实际应用中的表现差异显著。

🚀 GAIA基准的初步结果显示,灵活性强的模型在复杂任务中表现优于其他知名模型。

详情链接:https://huggingface.co/gaia-benchmark

9、百元成本炼成开源视频模型Pusa:基于Mochi微调,低成本复现高质量

Pusa是一个基于Mochi微调的开源视频生成模型,具有低成本和完全开源的特点。仅需约100美元的训练成本,Pusa展现出较好的视频生成能力,支持多种生成任务。其开放的微调流程促进了社区的合作与发展,吸引更多研究者参与到视频模型的研究中。

image.png

【AiBase提要:】

💰 Pusa模型的训练成本仅为100美元,显著低于传统大型视频模型的数万甚至数十万美元的成本。

🔧 Pusa完全开源,提供完整的代码库和训练方法,支持研究者复现实验并进行创新。

🎬 基于Mochi的微调,Pusa支持多种视频生成任务,尽管当前分辨率为480p,但在运动保真度和提示遵循性方面表现出潜力。

详情链接:https://top.aibase.com/tool/pusa

10、字节跳动开源项目UNO:图片生成可以保持角色、物体一致性

字节跳动的开源项目UNO在AI图像生成领域取得了重要突破,解决了以往生成图像时角色或物体一致性的问题。通过创新的高一致性数据合成流程和模型设计,UNO能够确保无论是单主体还是多主体场景,生成的图像都能保持特征一致性。

image.png

【AiBase提要:】

🧠 UNO项目旨在解决AI图像生成中的角色一致性问题,避免“脸盲症”。

🔍 采用高一致性数据合成流程和创新模型设计,UNO提升了图像生成的可控性。

🎨 同时支持单主体和多主体场景,确保生成结果的高度一致性。

详情链接:https://huggingface.co/bytedance-research/UNO

11、小鹏汽车推新物理大模型,定位AI汽车公司

小鹏汽车创始人何小鹏在社交媒体上强调了公司作为AI汽车公司的定位,认为人工智能的最大价值在于改变物理世界。他透露小鹏在自动驾驶领域的创新技术,尤其是强化学习与模型蒸馏,使其在行业内具备独特竞争力。此外,小鹏正在训练一个超大规模的物理世界模型,标志着其在AI技术应用上的领先地位。

【AiBase提要:】

🤖 小鹏汽车定位为AI汽车公司,强调AI技术在物理世界的应用价值。

🚀 引入强化学习与模型蒸馏技术,提升自动驾驶领域的竞争力。

📅2025年发布会将解答小鹏未来发展方向,推出新车型X9。

12、字节跳动布局AI智能眼镜,挑战下一代可穿戴设备市场

字节跳动正在积极研发一款AI智能眼镜,旨在将先进的人工智能功能与高质量影像捕捉相结合,提供创新的用户体验。该设备将集成字节跳动自研的“豆包”AI模型,增强智能交互能力,用户可通过语音指令等方式与眼镜互动。项目已进入实质性研发阶段,字节跳动与供应链伙伴展开沟通,推动产品的功能设计与上市计划。

【AiBase提要:】

🧠 字节跳动研发AI智能眼镜,融合先进AI功能与影像捕捉。

🔍 集成“豆包”AI模型,支持语音指令、实时翻译等智能交互。

📈 计划与供应链伙伴沟通,推动产品设计与上市,挑战Meta等竞争对手。

举报

  • 相关推荐
  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • 苹果智能眼镜布局全面加速,Meta/微美全息产业生态协同撬动万亿市场

    苹果计划2025年推出搭载M5处理器的Vision Pro智能眼镜,2027年将发布主打拍摄和AI功能的Vision Air,以及更轻便的头显设备。彭博社透露苹果还在探索有线版Vision Pro。Meta与Ray-Ban合作的智能眼镜取得市场成功,即将推出高端版Hypernova眼镜,配备神经腕带控制器。微美全息积极布局智能眼镜领域,通过技术创新推动AR眼镜发展。随着AI技术进步,智能眼镜市场迎来爆发式增长,互联网巨头、硬件厂商纷纷入局,推动办公、影视、游戏等场景应用升级。

  • A日报:B站升级动漫视频生成模型AniSora V3;字节开源4D视频生成框架EX-4D;DeepSWE开源AI Agent系统强势登顶

    AI日报栏目汇总了近期AI领域的重要进展:1)字节跳动开源EX-4D框架,可将单目视频转换为多视角4D视频;2)B站开源动漫视频生成模型AniSora V3,支持多种风格;3)DeepSWE+开源基于Qwen3-32B的AI Agent系统;4)字节开源3亿参数图像编辑模型VINCIE-3B;5)Stability AI推出移动端音频生成模型Stable Audio Open Small;6)谷歌发布免费教育AI工具套件Gemini for Education;7)Topview推出革命性AI数字人带货技术Avatar

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • AI日报:阿里通义推Qwen-TTS模型;Cursor已支持网页和手机端;字节发布图像合成技术XVerse

    【AI日报】今日AI领域7大突破:1)阿里通义Qwen-TTS实现方言语音合成重大突破;2)Cursor发布Web版AI编程工具;3)字节XVerse技术实现多对象精准图像生成;4)NoteGen跨平台AI笔记工具革新知识管理;5)ManimML动画库可视化Transformer架构;6)TEN+Agent开源语音交互技术降低延迟;7)Chai-2抗体设计模型将药物研发周期缩短至两周。淘宝同时上线RecGPT推荐模型提升购物体验。

  • A日报:月之暗面开源大模型Kimi K2;智源全面开源RoboBrain2.0;通义千问发布Qwen Chat桌面客户端

    本期AI日报重点报道了多项AI领域突破性进展:1.月之暗面推出万亿参数开源大模型Kimi K2,展现强大智能能力;2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统;3.通义千问发布桌面客户端Qwen Chat;4.IndexTTS2实现影视级语音合成;5.HuggingFace开源机器人Reachy Mini热销;6.Meta推出实时视频生成模型StreamDiT;7.PixVerse新增多关键帧视频生成功能;8.特斯拉推出仅支持AMD处理器的Grok AI助手;9.OpenAI推迟开源大模型发布以加强安全测试;10.Liquid AI开源边缘AI模型LFM2;11.AI"时间穿越"特效在社交媒体走红。

  • 最新AI模型哪里看?查找最佳AI模型平台推荐

    文章介绍了AI领域快速迭代背景下,开发者如何高效追踪最新模型动态。主要渠道包括:1)官方渠道(GitHub、公司官网/博客);2)科技媒体和社区(Twitter、Reddit等);3)专业聚合平台(推荐AIbase模型广场)。重点推荐AIbase平台,其优势在于:实时更新全球最新模型、结构化展示关键信息、支持多维筛选排序、直达相关资源链接。建议开发者善用官方渠道获取源头信息,同时�

  • 最强Agent?3分钟看懂Kimi K2真的好用吗?

    Moonshot AI于2025年7月11日发布开源大模型Kimi K2,主打代码编写、数学推理和Agent工具调用功能。该模型采用MoE架构(1T参数,激活32B),在SWE-Bench等测试中表现优异,数学推理得分达97.4。支持128k上下文、工具调用和API集成,定价为输入4元/百万tokens、输出16元/百万tokens。相比闭源模型,Kimi K2具有开源免费、成本低等优势,适合开发者和企业使用。同时推荐AIbase平台,可系统比较�

  • AI日报:xAI 震撼发布Grok4;微软开源全新Phi-4-mini版本;上海累计82款大模型通过备案

    AI日报栏目聚焦人工智能领域最新动态:1)xAI发布旗舰模型Grok4,在数学推理和代码生成表现突出,同时推出开发者专用Grok4Code;2)微软开源Phi-4-mini模型,推理效率提升10倍,适合边缘设备;3)上海82款大模型完成备案,垂直领域应用取得突破;4)Hugging Face推出开源桌面机器人Reachy Mini,支持Python编程;5)Perplexity发布AI浏览器Comet挑战Chrome;6)OpenAI将首次发布开放权重模型,打破闭源惯例;7)谷歌医疗AI模型MedGemma系列上新,单个GPU即可运行;8)OpenAI以约65亿美元收购AI硬件公司io Products,正式进军硬件市场。

  • AI日报:MiniMax发布视频智能体Hailuo Agent;昆仑万维开源 Skywork-SWE-32B;B站接入Qwen 3等模型

    本期AI日报聚焦多项AI领域创新:1)MiniMax推出视频Agent工具,支持文本生成高清视频及人脸驱动;2)昆仑万维开源Skywork-SWE-32B模型,提升软件工程任务表现;3)B站接入通义千问模型,推出数据分析智能体InsightAgent;4)ChatGPT深度整合Gmail与日历功能;5)腾讯云发布全链路AI开发平台"AI Builder";6)HeyGen推出UGC广告数字人功能;7)研究显示过度依赖AI或削弱批判性思维。此外还涵盖AI音乐生成、内容检测工具停运等动态,展现AI技术快速发展的多元应用与潜在影响。