首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:昆仑万维开源Skywork-OR1系列模型;讯飞星辰Agent开发平台全面支持MCP;字节跳动布局AI智能眼镜

2025-04-14 15:31 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、Kimi开源视觉语言模型 Kimi-VLKimi-VL-Thinking,多项基准超越 GPT-4o

Moonshot AI 最近开源了 Kimi-VL 和 Kimi-VL-Thinking 两款视觉语言模型,展现出卓越的多模态理解与推理能力。这些模型采用轻量级的 MoE 架构,参数仅有30亿,却在多个基准测试中超越了 GPT-4o。Kimi-VL 系列在数学推理、智能体操作和高分辨率图像处理等方面表现突出,支持超长上下文理解,展现出广泛的应用潜力。

image.png

【AiBase提要:】

🛠️ Kimi-VL 和 Kimi-VL-Thinking 采用轻量级 MoE 架构,参数仅30亿,运行效率高。

📊 在 MathVision 和 ScreenSpot-Pro 测试中,Kimi-VL 分别取得36.8% 和34.5% 的优异成绩,展示强大的推理能力。

📈 支持高达128K tokens 的上下文输入,适用于长文档和视频分析,展现出广泛的应用潜力。

详情链接:https://github.com/MoonshotAI/Kimi-VL https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct

2、科大讯飞旗下讯飞星辰Agent开发平台已全面支持MCP

科大讯飞近日宣布其讯飞星辰Agent开发平台全面支持MCP,旨在帮助开发者高效构建Agent应用。该平台不仅支持轻松配置和调用行业领先的MCP Server,还允许一键发布自定义MCP Server,实现真正的“即插即用”。首批支持的MCP Server覆盖多个行业,推动AI应用的中间层标准化。

image.png

【AiBase提要:】

🌟 开发者可以轻松配置和调用行业领先的MCP Server,支持一键发布自定义MCP Server。

🔧 首批支持20+行业精品MCP Server,涵盖AI能力、生活服务等多个领域。

🌐 讯飞星辰Agent开发平台支持零代码和低代码创建模式,赋能个人和企业快速开发大模型应用。

详情链接:https://mcp.xfyun.cn/

3、昆仑万维开源Skywork-OR1系列模型 数学代码能力出色

昆仑万维天工团队于4月13日推出了全新升级的Skywork-OR1系列模型,标志着在逻辑推理和复杂任务求解方面的重大突破。该系列包含三款高性能模型,分别针对数学和代码领域,展现出卓越的推理能力和性价比。Skywork-OR1-32B-Preview在竞赛编程任务中表现尤为突出,显示出其训练策略的先进性。

image.png

【AiBase提要:】

🔍 Skywork-OR1系列模型在逻辑理解与复杂任务求解方面实现了业界领先的推理性能。

💻 包括Skywork-OR1-Math-7B、Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview三款高性能模型,满足不同需求。

🏆 Skywork-OR1-32B-Preview在竞赛编程任务中表现突出,接近DeepSeek-R1的能力,展现出优越的性价比。

详情链接:https://github.com/SkyworkAI/Skywork-OR1

4、字节跳动推出Seed-Thinking-v1.5:推理AI竞赛中的新力量

字节跳动推出的新型大语言模型Seed-Thinking-v1.5在推理AI竞争中展现出强大的实力。该模型采用混合专家架构,能够在多项基准测试中超越行业巨头,尤其是在科学、技术、数学和工程领域。通过技术创新和高效的训练方法,Seed-Thinking-v1.5不仅提高了推理能力,还在非推理任务中表现出色。

QQ20250414-090120.png

【AiBase提要:】

🚀 字节跳动推出Seed-Thinking-v1.5,专注于STEM领域,采用混合专家架构。

🏆 在多项基准测试中表现优异,超越Google和OpenAI的产品。

🔍 采用先进的训练技术和强化学习框架,提升模型性能与效率。

5、商汤大装置SenseCore2.0全新升级 推出1亿元代金券计划

在2025商汤技术交流日上,商汤科技宣布其大装置SenseCore2.0全面升级,旨在为企业提供高效、灵活的全栈AI基础设施服务。此次升级响应了大模型产业的三大挑战,并通过技术创新显著提升了算力利用率和推理性能。此外,商汤科技投入1亿元专项代金券,助力各行业加速AI落地。

image.png

【AiBase提要:】

⚙️ SenseCore2.0全面升级,提升AI基础设施服务的性价比和灵活性。

🤝 商汤与松应科技战略合作,推动具身智能技术的发展,解决智能化落地难题。

💰 投入1亿元代金券,支持企业从咨询到模型训练的全流程AI服务。

6、Google AI Studio开放Veo2视频模型有限免费试用

Google AI Studio最近向部分用户开放了Veo2视频模型的有限免费试用,引发了广泛关注。Veo2作为最新一代AI视频生成工具,支持高达4K分辨率和真实的物理模拟,展现了其强大的技术实力。然而,试用权限受到严格限制,用户对冷却时间和后续使用的未知感到困惑。

image.png

【AiBase提要:】

🌟 Veo2视频模型由Google DeepMind开发,支持高达4K分辨率,展现出卓越的生成能力。

🕒 试用权限有限,用户反馈冷却时间不明确,可能影响体验。

🔒 Google对生成内容进行严格把控,确保用户隐私和安全。

7、上海AI实验室开源InternVL3系列多模态大型语言模型

OpenGVLab于4月11日发布了InternVL3系列模型,标志着多模态大型语言模型领域的新里程碑。该系列模型包含从1B到78B的多种尺寸,具备处理文字、图片、视频等多种信息的能力,性能显著提升。与前代产品相比,InternVL3在多模态感知和推理上有了显著进步,扩展了工具使用、工业图像分析等多个领域的能力。

image.png

【AiBase提要:】

🧠 InternVL3系列模型支持从1B到78B的多种尺寸,展现出卓越的多模态处理能力。

🔍 与InternVL2.5相比,InternVL3在多模态感知和推理能力上有显著提升,支持多图像和视频数据。

⚙️ 模型可通过LMDeploy的api_server部署为OpenAI兼容API,用户可轻松进行模型调用。

详情链接:https://modelscope.cn/collections/InternVL3-5d0bdc54b7d84e

8、AI“智商”大考变革!全新GAIA基准超越 ARC-AGI

随着人工智能技术的迅速发展,如何准确评估AI的智能水平成为行业关注的重点。传统的评估基准如MMLU虽然广泛使用,但其局限性逐渐显现,无法全面反映AI在实际应用中的能力。新推出的GAIA基准通过模拟真实世界的复杂问题,强调了AI在多步骤任务中的灵活性与专业化,标志着AI评估方法的重大转变。

image.png

【AiBase提要:】

🔍 新基准GAIA旨在评估AI在实际应用中的能力,涵盖多模态理解和复杂推理等关键技能。

📊 传统基准如MMLU的高分并不代表AI的真实能力,实际应用中的表现差异显著。

🚀 GAIA基准的初步结果显示,灵活性强的模型在复杂任务中表现优于其他知名模型。

详情链接:https://huggingface.co/gaia-benchmark

9、百元成本炼成开源视频模型Pusa:基于Mochi微调,低成本复现高质量

Pusa是一个基于Mochi微调的开源视频生成模型,具有低成本和完全开源的特点。仅需约100美元的训练成本,Pusa展现出较好的视频生成能力,支持多种生成任务。其开放的微调流程促进了社区的合作与发展,吸引更多研究者参与到视频模型的研究中。

image.png

【AiBase提要:】

💰 Pusa模型的训练成本仅为100美元,显著低于传统大型视频模型的数万甚至数十万美元的成本。

🔧 Pusa完全开源,提供完整的代码库和训练方法,支持研究者复现实验并进行创新。

🎬 基于Mochi的微调,Pusa支持多种视频生成任务,尽管当前分辨率为480p,但在运动保真度和提示遵循性方面表现出潜力。

详情链接:https://top.aibase.com/tool/pusa

10、字节跳动开源项目UNO:图片生成可以保持角色、物体一致性

字节跳动的开源项目UNO在AI图像生成领域取得了重要突破,解决了以往生成图像时角色或物体一致性的问题。通过创新的高一致性数据合成流程和模型设计,UNO能够确保无论是单主体还是多主体场景,生成的图像都能保持特征一致性。

image.png

【AiBase提要:】

🧠 UNO项目旨在解决AI图像生成中的角色一致性问题,避免“脸盲症”。

🔍 采用高一致性数据合成流程和创新模型设计,UNO提升了图像生成的可控性。

🎨 同时支持单主体和多主体场景,确保生成结果的高度一致性。

详情链接:https://huggingface.co/bytedance-research/UNO

11、小鹏汽车推新物理大模型,定位AI汽车公司

小鹏汽车创始人何小鹏在社交媒体上强调了公司作为AI汽车公司的定位,认为人工智能的最大价值在于改变物理世界。他透露小鹏在自动驾驶领域的创新技术,尤其是强化学习与模型蒸馏,使其在行业内具备独特竞争力。此外,小鹏正在训练一个超大规模的物理世界模型,标志着其在AI技术应用上的领先地位。

【AiBase提要:】

🤖 小鹏汽车定位为AI汽车公司,强调AI技术在物理世界的应用价值。

🚀 引入强化学习与模型蒸馏技术,提升自动驾驶领域的竞争力。

📅2025年发布会将解答小鹏未来发展方向,推出新车型X9。

12、字节跳动布局AI智能眼镜,挑战下一代可穿戴设备市场

字节跳动正在积极研发一款AI智能眼镜,旨在将先进的人工智能功能与高质量影像捕捉相结合,提供创新的用户体验。该设备将集成字节跳动自研的“豆包”AI模型,增强智能交互能力,用户可通过语音指令等方式与眼镜互动。项目已进入实质性研发阶段,字节跳动与供应链伙伴展开沟通,推动产品的功能设计与上市计划。

【AiBase提要:】

🧠 字节跳动研发AI智能眼镜,融合先进AI功能与影像捕捉。

🔍 集成“豆包”AI模型,支持语音指令、实时翻译等智能交互。

📈 计划与供应链伙伴沟通,推动产品设计与上市,挑战Meta等竞争对手。

举报

  • 相关推荐
  • 醒醒,只靠MCP和A2A还带不来AI Agent的大繁荣

    文章探讨了AI Agents发展需要类似HTTPS的安全协议保障。回顾互联网发展历程,TCP/IP协议统一了网络通信标准,HTTP协议实现了全球互联,而HTTPS通过SSL加密解决了安全问题。类比互联网发展,当前AI Agents产业面临类似挑战:Anthropic推出的MCP协议解决智能体与工具连接问题,Google的A2A协议实现智能体间协作,但缺乏安全标准。IIFAA联盟正致力于构建AI Agents安全生态,推出ASL中间件保障数据隐私和身份认证。文章指出,正如HTTPS推动电商繁荣,AI Agents的安全标准化将加速商业化进程,蚂蚁集团等企业已开始实践MCP应用。未来AI Agents可能通过统一入口调用工具池,改变现有交互模式。

  • 生成视频好看还不够,还要能自由探索!昆仑万维开源Matrix-Game,单图打造游戏世界

    世界模型的进度条,最近坐上了火箭。 去年11月,两家创业公司打造的 Oasis,首次在开源世界模型中实现了实时、可玩、可交互。生成的虚拟环境不仅包含画面,也体现出了对物理和游戏规则的理解。

  • AI日报: OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP能工具箱;中国占AI专利60%

    【AI日报】栏目聚焦人工智能领域最新动态:1) OpenAI推出ChatGPT图像生成API,开发者可轻松集成AI绘图功能,已生成超7亿张图片;2) 谷歌Gemini月活用户突破3.5亿,但仍落后于ChatGPT的6亿用户;3) OpenAI预测2029年收入将达1250亿美元,AI代理业务成主要增长点;4) Ostris发布8B参数扩散模型Flex.2-preview,优化ComfyUI工作流;5) 英伟达推出多模态LLM模型Describe Anything,支持指定区域生成详细描�

  • 谷歌 I/O大会智能眼镜或引爆技术焦点,Meta/微美息竞逐AI/AR生态新赛道!

    谷歌将于5月20-21日举办I/O开发者大会,重点展示Android系统、AI和Web技术新进展,包括Gemini Live等新功能。Meta正研发新一代智能眼镜Live AI,预计2026年推出,将支持面部识别功能,并计划发布代号Hypernova的AR眼镜。苹果CEO库克聚焦AI/AR眼镜研发,产品或于2027年面世。微美全息(WIMI.US)作为行业领军者,通过技术创新在AR眼镜、头显等核心产品持续布局,推出动态渲染引擎和MicroLED光机模块等技术。2025年AI/AR行业将进入技术沉淀期,硬件迭代、生态开放与AI融合成为竞争核心,推动智能眼镜在文旅、教育等场景的创新应用。

  • 重估昆仑万维:Meta式开源、Adobe级爆款、腾讯级生态

    中国AI公司昆仑万维凭借独特商业模式实现快速增长,其战略融合了Meta的开源技术、Adobe的垂直产品矩阵和腾讯的生态思维。公司90%收入来自海外市场,通过视频、音乐、社交等产品矩阵在东南亚、中东等新兴市场快速扩张。核心产品包括短剧平台DramaWave(年收入1.2亿美元ARR)和AI音乐平台Mureka(年收入1200万美元ARR),均实现盈利。技术层面,公司采用"垂直开源+商业验证"模式,推出SkyReels视频生成等开源模型,形成开发者生态闭环。其独特之处在于:既非单纯对标国际巨头的通用模型,也避免国内同质化竞争,而是通过开源底座+垂类产品+生态卡位的组合构建差异化优势。2024年财报显示,公司AI业务年收入达10亿元,研发投入同比增长23.4%。市场看好其"平台型AI矩阵"价值,近一月股价上涨20.7%。这家中型科技企业的突围路径,为行业提供了技术出海与生态共建的新范式。

  • Agent真的卷疯了,AI办公Agent也来了。

    ​我一直说,每个行业,都一定会有专门优化的垂直领域的Agent。 你看,通用Agent的王座上有Manus,研究类的有DeepResearch,旅游有飞猪问一问,设计类有Lovart。 那现在,办公领域的Agent也来了。 专为办公打造。 这玩意就是昆仑万维的Skywork Super Agents。

  • AI日报:Manus面向所有人开放注册;球首款设计Agent Lovart内测;教育部划清AI使用边界

    【AI日报】今日AI领域重要动态:1)国产AI平台Manus开放注册,无需邀请码即可使用;2)Lovart推出全球首款设计Agent,支持全链路自动化设计;3)教育部发布AI教育指南,禁止学生直接复制AI生成内容;4)昆仑万维开源Matrix-Game大模型,专注交互式世界生成;5)Google Gemma模型下载量突破1.5亿次;6)OpenAI新增一键导出PDF功能;7)字节跳动推出图像编辑框架DreamO;8)Kimi智能助手界面升级;9)阿里MNN更新支持通义千问2.5;10)ChatGPT新增SharePoint连接器;11)OpenVision视觉编码器发布;12)福布斯中国AI企业TOP50榜单发布;13)腾讯"元宝"工具上线,基于混元T1-Vision模型实现图片深度理解。

  • 宝马×字节跳动:以AI赋能汽车营销创新变革

    4月18日,华晨宝马旗下领悦数字信息技术公司与字节跳动旗下火山引擎达成合作,双方将围绕AI技术在汽车营销服务的创新应用展开深度合作。通过AI+场景的高效匹配,实现产品精准推荐、内容智能引导,提升用户购车体验与经销商运营效率。宝马集团大中华区总裁高翔表示,此次合作是宝马"360度全链AI战略"在营销领域的重要实践。领悦公司将借助火山引擎的大模型技术,打造专属智能营销工具,提供24小时在线客服、个性化推荐等服务。这是双方自2019年以来的第三次合作,此前已在数字化运营、直播营销等领域取得成果。此次合作标志着宝马加速推进AI技术在全业务链的应用,持续深化中国市场数字化转型。

  • AI日报:DeepSeek入选2025年度十大IP;快手推出AI作图工具 Poify;字节跳动开源代码模型Seed-Coder

    本文介绍了AI领域多项最新进展:1)快手推出电商AI作图工具Poify,提升商品展示效率;2)字节跳动开源8B参数代码模型Seed-Coder,展现强大编程能力;3)DeepSeek App入选2025全球十大IP;4)Claude AI新增网页搜索功能;5)苹果发布移动端视觉语言模型FastVLM;6)腾讯推出3D形状生成框架PrimitiveAnything;7)首个智能文档处理基准发布;8)谷歌Gemini2.5Pro实现6小时视频理解;9)研究显示简洁提问易致AI错误;10)首款AI智能浏览器Fellou发布;11)NVIDIA推出音频生成技术Audio-SDS;12)Kimi入驻小红书,转向内容深耕。这些创新展现了AI在电商、编程、多模态理解等领域的快速发展。

  • 眼镜就能买单!蚂蚁与星纪魅族发布首个智能眼镜线下支付功能

    星纪魅族与蚂蚁国际旗下Alipay+合作,在香港发布全球首个智能眼镜线下支付功能。该功能基于AR眼镜的光波导显示、语音降噪等技术,用户无需手机即可通过语音完成支付,填补了智能眼镜在支付领域的空白。该功能将搭载于星纪魅族AR眼镜StarV+Air2,预计今年Q3实现。此外,星纪魅族还展示了StarV系列AR智能眼镜新品,其中StarV+View采用BirdBath方案,可投射188英寸巨幕,支持3D片源播放;StarV+Air2具备语音转写功能,为听障人士提供无障碍阅读体验,并集成提词器、多语种翻译等多项AI能力。星纪魅族通过自研AI大模型与第三方头部模型的接入,构建了全面的AI生态系统。

热文

  • 3 天
  • 7天