首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:昆仑万维开源Skywork-OR1系列模型;讯飞星辰Agent开发平台全面支持MCP;字节跳动布局AI智能眼镜

2025-04-14 15:31 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、Kimi开源视觉语言模型 Kimi-VLKimi-VL-Thinking,多项基准超越 GPT-4o

Moonshot AI 最近开源了 Kimi-VL 和 Kimi-VL-Thinking 两款视觉语言模型,展现出卓越的多模态理解与推理能力。这些模型采用轻量级的 MoE 架构,参数仅有30亿,却在多个基准测试中超越了 GPT-4o。Kimi-VL 系列在数学推理、智能体操作和高分辨率图像处理等方面表现突出,支持超长上下文理解,展现出广泛的应用潜力。

image.png

【AiBase提要:】

🛠️ Kimi-VL 和 Kimi-VL-Thinking 采用轻量级 MoE 架构,参数仅30亿,运行效率高。

📊 在 MathVision 和 ScreenSpot-Pro 测试中,Kimi-VL 分别取得36.8% 和34.5% 的优异成绩,展示强大的推理能力。

📈 支持高达128K tokens 的上下文输入,适用于长文档和视频分析,展现出广泛的应用潜力。

详情链接:https://github.com/MoonshotAI/Kimi-VL https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct

2、科大讯飞旗下讯飞星辰Agent开发平台已全面支持MCP

科大讯飞近日宣布其讯飞星辰Agent开发平台全面支持MCP,旨在帮助开发者高效构建Agent应用。该平台不仅支持轻松配置和调用行业领先的MCP Server,还允许一键发布自定义MCP Server,实现真正的“即插即用”。首批支持的MCP Server覆盖多个行业,推动AI应用的中间层标准化。

image.png

【AiBase提要:】

🌟 开发者可以轻松配置和调用行业领先的MCP Server,支持一键发布自定义MCP Server。

🔧 首批支持20+行业精品MCP Server,涵盖AI能力、生活服务等多个领域。

🌐 讯飞星辰Agent开发平台支持零代码和低代码创建模式,赋能个人和企业快速开发大模型应用。

详情链接:https://mcp.xfyun.cn/

3、昆仑万维开源Skywork-OR1系列模型 数学代码能力出色

昆仑万维天工团队于4月13日推出了全新升级的Skywork-OR1系列模型,标志着在逻辑推理和复杂任务求解方面的重大突破。该系列包含三款高性能模型,分别针对数学和代码领域,展现出卓越的推理能力和性价比。Skywork-OR1-32B-Preview在竞赛编程任务中表现尤为突出,显示出其训练策略的先进性。

image.png

【AiBase提要:】

🔍 Skywork-OR1系列模型在逻辑理解与复杂任务求解方面实现了业界领先的推理性能。

💻 包括Skywork-OR1-Math-7B、Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview三款高性能模型,满足不同需求。

🏆 Skywork-OR1-32B-Preview在竞赛编程任务中表现突出,接近DeepSeek-R1的能力,展现出优越的性价比。

详情链接:https://github.com/SkyworkAI/Skywork-OR1

4、字节跳动推出Seed-Thinking-v1.5:推理AI竞赛中的新力量

字节跳动推出的新型大语言模型Seed-Thinking-v1.5在推理AI竞争中展现出强大的实力。该模型采用混合专家架构,能够在多项基准测试中超越行业巨头,尤其是在科学、技术、数学和工程领域。通过技术创新和高效的训练方法,Seed-Thinking-v1.5不仅提高了推理能力,还在非推理任务中表现出色。

QQ20250414-090120.png

【AiBase提要:】

🚀 字节跳动推出Seed-Thinking-v1.5,专注于STEM领域,采用混合专家架构。

🏆 在多项基准测试中表现优异,超越Google和OpenAI的产品。

🔍 采用先进的训练技术和强化学习框架,提升模型性能与效率。

5、商汤大装置SenseCore2.0全新升级 推出1亿元代金券计划

在2025商汤技术交流日上,商汤科技宣布其大装置SenseCore2.0全面升级,旨在为企业提供高效、灵活的全栈AI基础设施服务。此次升级响应了大模型产业的三大挑战,并通过技术创新显著提升了算力利用率和推理性能。此外,商汤科技投入1亿元专项代金券,助力各行业加速AI落地。

image.png

【AiBase提要:】

⚙️ SenseCore2.0全面升级,提升AI基础设施服务的性价比和灵活性。

🤝 商汤与松应科技战略合作,推动具身智能技术的发展,解决智能化落地难题。

💰 投入1亿元代金券,支持企业从咨询到模型训练的全流程AI服务。

6、Google AI Studio开放Veo2视频模型有限免费试用

Google AI Studio最近向部分用户开放了Veo2视频模型的有限免费试用,引发了广泛关注。Veo2作为最新一代AI视频生成工具,支持高达4K分辨率和真实的物理模拟,展现了其强大的技术实力。然而,试用权限受到严格限制,用户对冷却时间和后续使用的未知感到困惑。

image.png

【AiBase提要:】

🌟 Veo2视频模型由Google DeepMind开发,支持高达4K分辨率,展现出卓越的生成能力。

🕒 试用权限有限,用户反馈冷却时间不明确,可能影响体验。

🔒 Google对生成内容进行严格把控,确保用户隐私和安全。

7、上海AI实验室开源InternVL3系列多模态大型语言模型

OpenGVLab于4月11日发布了InternVL3系列模型,标志着多模态大型语言模型领域的新里程碑。该系列模型包含从1B到78B的多种尺寸,具备处理文字、图片、视频等多种信息的能力,性能显著提升。与前代产品相比,InternVL3在多模态感知和推理上有了显著进步,扩展了工具使用、工业图像分析等多个领域的能力。

image.png

【AiBase提要:】

🧠 InternVL3系列模型支持从1B到78B的多种尺寸,展现出卓越的多模态处理能力。

🔍 与InternVL2.5相比,InternVL3在多模态感知和推理能力上有显著提升,支持多图像和视频数据。

⚙️ 模型可通过LMDeploy的api_server部署为OpenAI兼容API,用户可轻松进行模型调用。

详情链接:https://modelscope.cn/collections/InternVL3-5d0bdc54b7d84e

8、AI“智商”大考变革!全新GAIA基准超越 ARC-AGI

随着人工智能技术的迅速发展,如何准确评估AI的智能水平成为行业关注的重点。传统的评估基准如MMLU虽然广泛使用,但其局限性逐渐显现,无法全面反映AI在实际应用中的能力。新推出的GAIA基准通过模拟真实世界的复杂问题,强调了AI在多步骤任务中的灵活性与专业化,标志着AI评估方法的重大转变。

image.png

【AiBase提要:】

🔍 新基准GAIA旨在评估AI在实际应用中的能力,涵盖多模态理解和复杂推理等关键技能。

📊 传统基准如MMLU的高分并不代表AI的真实能力,实际应用中的表现差异显著。

🚀 GAIA基准的初步结果显示,灵活性强的模型在复杂任务中表现优于其他知名模型。

详情链接:https://huggingface.co/gaia-benchmark

9、百元成本炼成开源视频模型Pusa:基于Mochi微调,低成本复现高质量

Pusa是一个基于Mochi微调的开源视频生成模型,具有低成本和完全开源的特点。仅需约100美元的训练成本,Pusa展现出较好的视频生成能力,支持多种生成任务。其开放的微调流程促进了社区的合作与发展,吸引更多研究者参与到视频模型的研究中。

image.png

【AiBase提要:】

💰 Pusa模型的训练成本仅为100美元,显著低于传统大型视频模型的数万甚至数十万美元的成本。

🔧 Pusa完全开源,提供完整的代码库和训练方法,支持研究者复现实验并进行创新。

🎬 基于Mochi的微调,Pusa支持多种视频生成任务,尽管当前分辨率为480p,但在运动保真度和提示遵循性方面表现出潜力。

详情链接:https://top.aibase.com/tool/pusa

10、字节跳动开源项目UNO:图片生成可以保持角色、物体一致性

字节跳动的开源项目UNO在AI图像生成领域取得了重要突破,解决了以往生成图像时角色或物体一致性的问题。通过创新的高一致性数据合成流程和模型设计,UNO能够确保无论是单主体还是多主体场景,生成的图像都能保持特征一致性。

image.png

【AiBase提要:】

🧠 UNO项目旨在解决AI图像生成中的角色一致性问题,避免“脸盲症”。

🔍 采用高一致性数据合成流程和创新模型设计,UNO提升了图像生成的可控性。

🎨 同时支持单主体和多主体场景,确保生成结果的高度一致性。

详情链接:https://huggingface.co/bytedance-research/UNO

11、小鹏汽车推新物理大模型,定位AI汽车公司

小鹏汽车创始人何小鹏在社交媒体上强调了公司作为AI汽车公司的定位,认为人工智能的最大价值在于改变物理世界。他透露小鹏在自动驾驶领域的创新技术,尤其是强化学习与模型蒸馏,使其在行业内具备独特竞争力。此外,小鹏正在训练一个超大规模的物理世界模型,标志着其在AI技术应用上的领先地位。

【AiBase提要:】

🤖 小鹏汽车定位为AI汽车公司,强调AI技术在物理世界的应用价值。

🚀 引入强化学习与模型蒸馏技术,提升自动驾驶领域的竞争力。

📅2025年发布会将解答小鹏未来发展方向,推出新车型X9。

12、字节跳动布局AI智能眼镜,挑战下一代可穿戴设备市场

字节跳动正在积极研发一款AI智能眼镜,旨在将先进的人工智能功能与高质量影像捕捉相结合,提供创新的用户体验。该设备将集成字节跳动自研的“豆包”AI模型,增强智能交互能力,用户可通过语音指令等方式与眼镜互动。项目已进入实质性研发阶段,字节跳动与供应链伙伴展开沟通,推动产品的功能设计与上市计划。

【AiBase提要:】

🧠 字节跳动研发AI智能眼镜,融合先进AI功能与影像捕捉。

🔍 集成“豆包”AI模型,支持语音指令、实时翻译等智能交互。

📈 计划与供应链伙伴沟通,推动产品设计与上市,挑战Meta等竞争对手。

举报

  • 相关推荐
  • AI日报:Anthropic推最强编码AI模型Claude4;苹果计划推AI智能眼镜;QQ浏览器上线首个高考Agent

    【AI日报】今日AI领域重要动态:1)Anthropic发布Claude4系列AI模型,编程能力超越竞争对手;2)苹果计划2026年推出集成AI技术的智能眼镜;3)字节跳动与清华合作推出时序多模态大模型ChatTS;4)3DTown框架实现单张照片生成逼真3D场景;5)OpenAI秘密开发无屏幕AI设备;6)商汤科技推出儿童AI下棋机器人;7)微软记事本新增AI写作功能;8)深圳设立70亿元基金支持AI硬件初创企业;9)谷歌发布3D视频通信平台Beam;10)阿联酋推出"星际之门"计划,免费提供ChatGPT服务;11)法国Mistral推出开源模型Devstral;12)Anthropic API新增四大功能;13)美国众议院通过法案限制各州监管AI;14)QQ浏览器推出高考AI助手。

  • 博士眼镜线下首发李未可最新 AI 智能眼镜产品,加速AI智能眼镜市场普及

    2025年5月25日,博士眼镜与李未可品牌合作推出三款AI智能眼镜新品:LAWK City、LAWK City Air和LAWK View。新品在合肥滨湖国际会展中心首发,主打AI翻译(支持128种语言)、智能拍摄和快拆设计等功能。博士眼镜通过全国30家线下门店和小程序同步发售,深化"科技+健康"理念。这是双方继2023年合作后的再次联手,标志着博士眼镜在智能眼镜生态布局的加速,未来将持续探索个性化视觉服务和智能交互领域。

  • AI日报昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • AI日报昆仑万维天工超级智能体发布;OpenAI核心API支持MCP;百度飞桨PaddleOCR 3.0开源

    【AI日报】汇总了近期AI领域重要动态:1)百度飞桨发布PaddleOCR3.0,提升文字识别精度13%;2)昆仑万维发布天工超级智能体,AI办公成本仅为OpenAI的40%;3)OpenAI API新增MCP支持简化开发流程;4)xAI推出实时网页搜索API;5)谷歌Sparkify可将问题秒变动画;6)Mistral发布高效代码模型Devstral;7)Video Ocean推出4K视频生成工具;8)谷歌推出AI内容识别工具SynthID;9)谷歌NotebookLM使用量半年增长56%;10)硅基流动升级128K长文本模型;11)DeepMind发布音乐生成模型Lyria2;12)多模态大模型MMaDA实现跨模态推理;13)微软发布网页智能体Magentic-UI;14)Framer推出AI建站套件。

  • 发布AI Agent开发平台,做强AI生态… 网易数智接下来这么干

    AI时代正从AIGC转向AI Agent发展。微软CEO纳德拉预测AI Agent将成为新应用,Gartner预计到2028年超1/3企业软件将集成AI Agent功能。网易数智发布CoreAgent智能体开发平台及多款行业智能体,助力企业快速落地AI应用。文章指出当前AI Agent面临技术门槛高、场景适配难等挑战,网易提出"技术共生、市场共拓、利润共享"的生态协同理念,强调AI需要与行业know-how结合才能创造真实价值。网易数智宣布品牌升级,从"科技蓝"变为"网易红",展现拥抱AI时代的决心。

  • AI日报:DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

  • 生成视频好看还不够,还要能自由探索!昆仑万维开源Matrix-Game,单图打造游戏世界

    世界模型的进度条,最近坐上了火箭。 去年11月,两家创业公司打造的 Oasis,首次在开源世界模型中实现了实时、可玩、可交互。生成的虚拟环境不仅包含画面,也体现出了对物理和游戏规则的理解。

  • AI日报:通义千问开源Qwen3向量模型字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型

    本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。

  • 谷歌 I/O大会智能眼镜或引爆技术焦点,Meta/微美息竞逐AI/AR生态新赛道!

    谷歌将于5月20-21日举办I/O开发者大会,重点展示Android系统、AI和Web技术新进展,包括Gemini Live等新功能。Meta正研发新一代智能眼镜Live AI,预计2026年推出,将支持面部识别功能,并计划发布代号Hypernova的AR眼镜。苹果CEO库克聚焦AI/AR眼镜研发,产品或于2027年面世。微美全息(WIMI.US)作为行业领军者,通过技术创新在AR眼镜、头显等核心产品持续布局,推出动态渲染引擎和MicroLED光机模块等技术。2025年AI/AR行业将进入技术沉淀期,硬件迭代、生态开放与AI融合成为竞争核心,推动智能眼镜在文旅、教育等场景的创新应用。

  • Agent真的卷疯了,AI办公Agent也来了。

    ​我一直说,每个行业,都一定会有专门优化的垂直领域的Agent。 你看,通用Agent的王座上有Manus,研究类的有DeepResearch,旅游有飞猪问一问,设计类有Lovart。 那现在,办公领域的Agent也来了。 专为办公打造。 这玩意就是昆仑万维的Skywork Super Agents。