首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线

2025-05-29 15:23 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、DeepSeek R1-0528震撼发布:免费128K上下文,性能直逼OpenAI o3!

DeepSeek R1-0528版本发布,支持128K超大上下文,推理能力和代码生成能力大幅提升,且保持免费使用。

image.png

【AiBase提要:】

🌟 支持128K超大上下文,文本召回测试准确度显著提升,适合复杂任务。

💻 代码生成与写作能力优化,生成速度快且准确,媲美顶级模型。

💰 免费开放策略降低使用门槛,挑战传统AI商业模式。

详情链接:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

2、字节发布图像Agent“小云雀AI” 打造一键爆款创作神器

字节跳动推出了全新的图像Agent‘小云雀AI’,这款智能创作工具能够通过简单的指令快速生成高质量的视频和图片,降低了内容创作的技术门槛。

【AiBase提要:】

🌟 用户只需一句指令,‘小云雀AI’就能主动思考并生成爆款视频与图片,实现‘灵感即所得’。

📚 基于字节自研‘云雀’大模型,融合深度学习与多模态技术,提供强大的图像生成与视频编辑能力。

📱 当前已上线安卓客户端,iOS版本预计6月发布,有望推动AI创作向更广泛应用场景发展。

3、可灵2.1重磅上线:价格降65%,性能显著提升

可灵2.1正式上线,价格大幅降低65%,性价比显著提升。新增三个质量模型,满足不同用户需求。生成效果优于前版本,速度更快,适合短视频和广告制作。

image.png

【AiBase提要:】

🌟 可灵2.1价格大幅降低65%,性价比显著提升。

⚡ 新增标准版、高品质版与大师版三种模型,满足不同用户需求。

📈 生成效果优于前版本,速度更快,适合短视频和广告制作。

4、全球首款AI代理浏览器Opera Neon发布,智能聊天与自动化任务引领Web4.0时代

Opera Neon作为全球首款代理型浏览器,通过AI驱动的智能聊天、任务自动化及内容创作功能,重新定义了网络体验。

image.png

【AiBase提要:】

🌐 Opera Neon是全球首款“完全代理型”浏览器,能主动执行搜索、表单填写、购物等任务,提升用户效率。

💬 内置AI助手Neon Chat支持多语言交互,能从网页提取信息并提供上下文相关答案,让交互更自然。

💻 Neon Make通过简单指令生成游戏、网站等内容,一站式体验从创意到成品的全过程,释放创造力。

详情链接:https://www.operaneon.com/

5、Meta 发布 Multi-SpatialMLLM:引领多模态 AI 的空间理解革命

Meta 与香港中文大学合作推出 Multi-SpatialMLLM 模型,通过整合深度感知、视觉对应和动态感知三大组件,显著提升了多模态大语言模型的空间理解能力,在多项基准测试中表现出色。

image.png

【AiBase提要:】

🌟 Multi-SpatialMLLM 模型通过三大组件突破单帧图像分析限制,增强空间理解能力。

📊 新模型利用 MultiSPA 数据集及五项任务训练,大幅提升了多帧空间推理能力。

🏆 在多项基准测试中,Multi-SpatialMLLM 准确率显著提高,超越传统模型。

6、通义实验室、北大发布新技术ZeroSearch 让LLM检索能力激活,成本降低88%

ZeroSearch 是一项创新框架,通过模拟搜索引擎激活大语言模型的检索能力,大幅降低训练成本达88%,同时提升模型的推理清晰度与答案提取效率。

【AiBase提要:】

✨ ZeroSearch 利用大语言模型生成检索文档,无需真实搜索,显著降低训练成本与噪声干扰。

🔍 框架采用结构化训练模板和“模拟微调”策略,提升生成文档质量及模型泛化能力。

🚀 实验表明,ZeroSearch 性能优于传统方法,尤其在大规模模型中表现更佳,推动智能检索技术发展。

详情链接:https://arxiv.org/pdf/2505.04588

7、字节推出全新 AI 剪辑应用 “剪小映”,轻松记录生活瞬间

字节跳动推出新应用“剪小映”,主打AI视频剪辑,降低创作门槛,让用户轻松制作高质量视频。

image.png

【AiBase提要:】

🎥 字节推出 “剪小映” 应用,助力用户轻松制作高质量视频。

🤖 应用集成 AI 技术,降低视频创作门槛,鼓励用户分享生活。

💡 火山引擎豆包大模型为应用提供强大支持,提升视频处理效率。

8、MotionPro炸场!AI视频生成革命来袭,40ms一帧精准控制,影视游戏行业要变天

MotionPro是一款专为图像到视频生成设计的精密运动控制器,通过区域轨迹和运动掩码技术实现精细化控制,为视频生成带来灵活性和精确性。

image.png

【AiBase提要:】

✨ MotionPro通过区域轨迹和运动掩码技术,解决了传统I2V生成中运动控制粗糙的问题,实现更自然、细腻的效果。

🎥 同时控制物体与镜头运动,无需特定数据集,支持复杂镜头和物体轨迹的精准生成。

🌐 开源生态支持,提供优化的训练框架和数据构建工具,助力开发者快速上手并推动行业进步。

详情链接:https://huggingface.co/papers/2505.20287

9、马斯克的xAI与 Telegram 达成3亿美元合作协议,推出Grok AI聊天机器人

Telegram与xAI合作,xAI支付3亿美元部署Grok AI聊天机器人,提升Telegram用户体验并增加收入。

【AiBase提要:】

Telegram与xAI合作,xAI支付3亿美元用于部署Grok AI聊天机器人。

Grok AI将提升Telegram用户交流体验,提供智能化聊天服务。

合作将使Telegram盈利模式多样化,推动社交媒体智能化进程。

10、OpenAI CFO 透露:重组新架构为未来可能的IPO打开大门

OpenAI正在进行组织重组为IPO做准备,但上市时机取决于市场氛围。微软投资超130亿美元,OpenAI转型公共利益公司平衡股东回报与社会责任。

【AiBase提要:】

🌟 OpenAI正在重组架构,为未来的IPO铺路,但上市需视市场状况。

💰 微软投资超130亿美元,OpenAI转型公共利益公司兼顾股东与社会责任。

📈 稳定性是关键,上市需公司准备充分且市场窗口合适。

11、像素蛋糕 “方糖大模型” 成功获批,成为国内影像行业首个备案图像大模型

像素蛋糕自主研发的‘方糖大模型’通过国家网信办备案,成为影像行业首个获官方资质的应用级图像大模型,标志着技术突破与合规性,将在广告、影视等领域推动行业发展。

【AiBase提要:】

🌟 方糖大模型成功通过国家网信办备案,成为国内影像行业首个获官方资质的图像大模型。

🚀 自主研发彰显像素蛋糕在AI技术领域的实力与创新能力,推动图像生成技术发展。

🔒 符合国家政策要求,确保用户使用环境的安全与可靠性,树立行业新标杆。

12、开源+低成本!Paper2Poster让学术论文秒变学术海报

Paper2Poster是一款通过自动化技术将学术论文转化为多模态海报的工具,显著提升了学术传播效率,降低了成本。

image.png

【AiBase提要:】

🌟 核心功能:将PDF论文自动转化为结构清晰、视觉友好的学术海报,效率远超传统手动方式。

💰 开源与低成本:生成一张海报仅需0.005美元,开源特性降低学术工具使用门槛。

📊 创新评估机制:发布100个论文-海报对的数据集,推动多模态内容生成领域规范化发展。

详情链接:https://arxiv.org/abs/2505.21497

13、Resemble AI开源TTS Chatterbox ,性能直逼超越ElevenLabs

Chatterbox是一款基于开源的TTS模型,具有卓越的性能和创新功能,包括实时合成、零样本语音克隆和情感夸张控制等,成为行业焦点。

【AiBase提要:】

🌟 Chatterbox基于0.5B规模的LLaMA架构,训练数据超50万小时,盲测中63.75%的听众更偏好其真实感和流畅度。

⚡ 支持实时合成,延迟低于200ms,且具备零样本语音克隆与情感夸张控制功能,为开发者提供高度灵活性。

🔒 开源特性降低门槛,同时嵌入水印技术确保内容可追溯,展现开源与商业化的双轨战略。

详情链接:https://github.com/resemble-ai/chatterbox

14.蚂蚁集团开源 Ming-lite-omni: 首个媲美 GPT-4o 的开源多模态模型

蚂蚁集团宣布全面开源多模态模型 Ming-lite-omni,具备 220 亿参数,标志其 AI 技术的新高度,能够与 GPT-4o 相媲美。

QQ20250529-151554.png

【AiBase 提要:】

🌟 220 亿参数的 Ming-lite-omni 模型展现了强大能力。

🚀 模型权重和推理代码已向公众开放,促进开发者使用。

📈 性能对标 GPT-4o,成为开源多模态领域的重要选择。

举报

  • 相关推荐
  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • AI日报:美图发布影像AI Agent RoboNeo;1.8bit量化Kimi K2模型上线;亚马逊推AI代码编辑器 Kiro

    【AI日报】今日AI领域重要动态:1)美图推出RoboNeo,通过自然语言指令实现图片精修、品牌设计等全能影像处理;2)Unsloth AI将Kimi K2模型量化至1.8bit,体积缩减78%保持性能;3)谷歌Gemini嵌入模型登顶MTEB榜单,超越OpenAI;4)亚马逊发布免费AI代码编辑器Kiro,集成Claude模型;5)Claude新增应用工具目录功能提升工作效率;6)MiniMax完成近3亿美元融资,估值超40亿美元;7)UTCP新协议让AI代理直

  • AI日报:字节将发布AI编程工具TRAE2.0版本;Mistral重磅推出音频模型Voxtral;月之暗面回应Kimi K2 API速度慢

    AI日报栏目聚焦AI领域最新动态:1)字节跳动将发布TRAE 2.0编程工具,新增语音交互功能;2)Mistral推出开源音频模型Voxtral,支持多语言;3)月之暗面回应Kimi K2API速度慢问题,正在优化系统;4)昆仑万维发布AgentOrchestra框架,实现多智能体协作;5)OpenAI前CTO创立的Thinking Machines Lab获20亿美元融资;6)Kimi-2上线,性能超越GPT-4.1;7)TRAE推出Kimi-K2模型服务,国际版支持Grok-4;8)字节跳动Seed团队开源POLARIS训练方法,提升小模型数学推理能力;9)ima网页版上线,提供更便捷的知识库访问体验。

  • A日报:B站升级动漫视频生成模型AniSora V3;字节开源4D视频生成框架EX-4D;DeepSWE开源AI Agent系统强势登顶

    AI日报栏目汇总了近期AI领域的重要进展:1)字节跳动开源EX-4D框架,可将单目视频转换为多视角4D视频;2)B站开源动漫视频生成模型AniSora V3,支持多种风格;3)DeepSWE+开源基于Qwen3-32B的AI Agent系统;4)字节开源3亿参数图像编辑模型VINCIE-3B;5)Stability AI推出移动端音频生成模型Stable Audio Open Small;6)谷歌发布免费教育AI工具套件Gemini for Education;7)Topview推出革命性AI数字人带货技术Avatar

  • 秘塔AI也终于悄悄上线了DeepResearch。

    测试完以后,我觉得这玩意,还是值得我将近通宵写一篇的。 深度研究,也就是DeepResearch。 我过去写过很多次秘塔AI了,因为我自己的搜索习惯,现在基本就是,大活上ChatGPT用DeepResearch,常识问答直接找豆包,一般的AI搜索就是秘塔AI。 当然很多ChatBot产品都有AI搜索,但是我自己这两年,还是习惯用秘塔AI和Perplexity这样形态的原生AI搜索产品了,这可能就是习惯的力量吧。

  • 国内有哪些AI资讯网站?可灵AI上线可图2.1等热点新闻哪里看最及时?

    本文介绍了国内主要AI资讯平台,帮助用户获取及时全面的AI信息。重点推荐了机器之心、AI科技评论、新智元等综合性平台,以及CSDN、InfoQ等技术导向网站,特别强调AIbase.cn的时效性优势,该平台能第一时间发布如可灵AI可图2.1模型免费开放等重要动态。文章指出,选择资讯平台需结合时效性与内容深度,建议用户根据自身需求建立信息筛选体系,通过订阅日报、设置关键词提醒等方式构建个人AI资讯生态系统,其中AIbase.cn因其更新快、覆盖全的特点值得重点关注。

  • LiblibAI 重磅发布「星流 Agent」:中文语义 + 图片视频3D全能生成,中国最强设计 Agent

    LiblibAI推出Lovart中文版"星流Agent",这是一款专为中国市场深度优化的AI设计工具。该产品在保留Lovart全球版"生成-编辑-排版-交付"全链路能力基础上,针对中文语义、国风审美和本土使用场景进行了全面重构。星流Agent支持从创意构思到设计交付的全流程自动化,可处理平面设计、视频生成和3D建模等跨模态创作,内置符合中国文化的视觉风格库。该产品的推出标�

  • 可灵AI推出可图2.1模型 多维能力跃升、会员限时7天免费

    可灵AI于7月10日上线可图2.1模型,图片生成能力全面升级:1)指令遵循能力显著提升,可精准捕捉复杂提示细节;2)新增180多种风格响应,支持特殊材质、数字艺术等创作需求;3)人像美感大幅优化,肌肤纹理与光影效果更自然;4)增强电影质感生成,能呈现大片级层次氛围;5)文字生成效果提升,支持中英文营销海报等设计。即日起面向会员免费开放7天,实测显示该模型在复杂场景还原和细节表现上达到新高度,累计已生成超3亿张图片。

  • AI日报:xAI 震撼发布Grok4;微软开源全新Phi-4-mini版本;上海累计82款大模型通过备案

    AI日报栏目聚焦人工智能领域最新动态:1)xAI发布旗舰模型Grok4,在数学推理和代码生成表现突出,同时推出开发者专用Grok4Code;2)微软开源Phi-4-mini模型,推理效率提升10倍,适合边缘设备;3)上海82款大模型完成备案,垂直领域应用取得突破;4)Hugging Face推出开源桌面机器人Reachy Mini,支持Python编程;5)Perplexity发布AI浏览器Comet挑战Chrome;6)OpenAI将首次发布开放权重模型,打破闭源惯例;7)谷歌医疗AI模型MedGemma系列上新,单个GPU即可运行;8)OpenAI以约65亿美元收购AI硬件公司io Products,正式进军硬件市场。

  • 最强Agent?3分钟看懂Kimi K2真的好用吗?

    Moonshot AI于2025年7月11日发布开源大模型Kimi K2,主打代码编写、数学推理和Agent工具调用功能。该模型采用MoE架构(1T参数,激活32B),在SWE-Bench等测试中表现优异,数学推理得分达97.4。支持128k上下文、工具调用和API集成,定价为输入4元/百万tokens、输出16元/百万tokens。相比闭源模型,Kimi K2具有开源免费、成本低等优势,适合开发者和企业使用。同时推荐AIbase平台,可系统比较�