AI日报：快手可灵AI全面接入DeepSeek-R1；百度发布文心4.5与X1大模型；小米大模型团队登顶音频推理MMAU榜

2025-03-17 15:20 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、快手可灵AI全面接入DeepSeek-R1，DeepSeek灵感版已上线

快手旗下的可灵AI近期全面接入DeepSeek-R1，为用户在视频和图片生成方面带来了显著便利。通过DeepSeek-R1，用户能够轻松将灵感转化为专业提示词，从而降低创作门槛并提升效率。此外，DeepSeek灵感版与可灵AI的灵感词库功能联动，帮助用户更好地掌控视频细节，使得即使是普通用户也能创作出高质量的内容。这一系列创新举措使得可灵AI在行业中继续保持领先地位。

【AiBase提要:】
🌟快手可灵AI全面接入DeepSeek-R1，助力用户将灵感转化为专业提示词。
🔥可灵AI持续迭代升级，接入DeepSeek-R1后进一步降低创作门槛。
🎬DeepSeek灵感版与“灵感词库”联动，提升用户掌控视频细节的能力。

2、百度发布文心4.5与X1大模型，价格大幅降低引关注

百度最新推出的文心大模型4.5和X1，标志着其在多模态理解和逻辑推理领域的重大进展。文心4.5以其显著的价格优势和卓越的性能超越了GPT-4.5，吸引了众多开发者的关注。而X1则专注于中文知识问答和文学创作，具备强大的推理能力和多模态功能。

【AiBase提要:】
💡 文心4.5是百度首个原生多模态大模型，性能超越GPT-4.5，API调用价格仅为后者的1%。
🧠 文心大模型X1专注于中文知识问答和逻辑推理，具备长思维链和多模态能力，能理解和生成图片。
💰 文心4.5和X1的输入输出价格极具竞争力，标志着百度在大模型领域的强劲布局。

3、小米大模型团队登顶音频推理 MMAU 榜，受到DeepSeek-R1启发

小米大模型团队在音频推理领域取得了显著进展，利用强化学习算法成功提升了模型的准确率至64.5%，在国际权威的MMAU评测榜上名列前茅。该团队的研究表明，强化学习的实时反馈机制在模型训练中更为有效，并且开源了相关技术，推动了学术界和产业界的进一步研究。

【AiBase提要:】
🔍 小米大模型团队通过强化学习算法在音频推理领域取得突破，准确率达到64.5%。
📈 MMAU 评测集是音频推理能力的重要标准，当前人类专家准确率为82.23%。
💡 研究结果表明，强化学习的实时反馈机制对模型训练更为有效，未来研究仍需深入探索。
详情链接:https://github.com/xiaomi-research/r1-aqa

4、钉钉推出AI客服助理可自动接入企业官网、公众号等平台

钉钉于2025年3月17日推出了AI客服助理，旨在提升企业客户服务效率。该功能能够自动接入企业官网及公众号，支持多轮对话，精准理解用户需求并提供专业回复。自推出以来，已有700多家企业接入，具备7×24小时在线服务，响应速度快，且可通过多平台部署，极大便利了企业与用户的沟通。

【AiBase提要:】
💡 AI客服助理可自动接入官网和公众号，提升企业服务能力。
🛠️ 只需三步配置，企业可快速上线AI助理，简化知识体系构建。
🌐 支持多平台部署，企业可通过多渠道为用户提供服务。

5、图像效果转换技术LBM:一键移除路人甲，还可调整光照

LBM（潜在桥梁匹配）是一款由gojasper团队开发的图像处理工具，能够高效地实现图像效果转换。它不仅具备强大的对象移除能力，使得用户能够轻松去除照片中的不必要元素，还能灵活调整光线，营造出理想的氛围。LBM的创新理念在于潜在空间的操作，使得图像编辑变得更加简单和高效，适合摄影爱好者和专业人士使用。

【AiBase提要:】
🖌️ LBM具备强大的对象移除能力，用户只需轻点即可去除照片中的干扰元素，简化了图像编辑流程。
☀️ 该工具支持光照调整，用户可以在阴天拍摄的照片中创造出阳光明媚的效果，提升照片的视觉吸引力。
🔧 LBM在法线和深度估计等多种图像转换任务中表现卓越，展现出其广泛的应用潜力和可扩展性。
详情链接:https://top.aibase.com/tool/lbm

6、Anthropic将发布 Harmony 功能:让 AI 助手无缝接入本地文件

Anthropic正在开发名为Harmony的新功能，旨在将本地文件目录集成到Claude的工作环境中。这一创新将使用户能够与文件进行更流畅的互动，AI助手可以直接读取、索引和分析目录中的内容。Harmony不仅支持文件的分析和修改，还提供基于关键词的搜索功能，展现了强大的AI编码助手潜力。

【AiBase提要:】
✅ Harmony功能将使用户能够无缝接入本地文件，提升AI的交互能力。
🔍 Claude在测试中成功识别了多个代码安全漏洞，显示出其强大的分析能力。
🧭 Anthropic还在开发Compass功能，可能会支持深度研究和信息整合。

7、开源图片超分模型Thera:可以提升图片清晰度，让模糊从此“下岗”

Thera是一款由苏黎世联邦理工学院和苏黎世大学开发的开源超分辨率模型，能够以任意倍数提升图片清晰度。它不仅能让模糊照片恢复生机，还通过内置的物理观测模型，减少图像失真，呈现更自然的细节。

【AiBase提要:】
✨ Thera支持任意尺度的超分辨率放大，用户可以自定义放大倍数，灵活应对各种需求。
🔍 内置物理观测模型，模拟真实图像形成过程，减少失真，呈现更真实细节。
🌍 作为开源项目，Thera以Apache-2.0许可证提供，促进技术共享与发展，提供预训练模型便于用户使用。
详情链接:https://top.aibase.com/tool/thera

8、谷歌Gemini2.0Flash去除图片水印功能引版权担忧

谷歌新推出的Gemini2.0Flash模型引发了关于去除图片水印的争议，尤其是涉及到Getty Images等知名图片库的内容。尽管该模型在图像生成和编辑方面表现出色，但其缺乏使用限制引发了版权方面的担忧。Gemini2.0Flash的功能似乎更为强大，但在美国版权法下，未经同意去除水印的行为仍然可能被视为违法。

【AiBase提要:】
🚫Gemini2.0Flash可去除图片水印，功能强大但引发版权争议。
💬其他AI模型如Claude3.7Sonnet和GPT-4o拒绝去除水印，认为此举不道德且可能违法。
⚖️美国版权法下，未经原所有者同意去除水印通常被视为违法，谷歌未对质疑作出及时回应。

9、Cohere 发布AI模型Command A，两块GPU就能高效运转，企业部署成本降50%

Cohere推出的Command A模型以其仅需两块GPU的低硬件需求和高达50%的成本节省，打破了高性能AI的传统门槛。其1110亿参数的设计结合优化的Transformer架构，使得企业能够在处理复杂任务时，享受超长的上下文窗口和多语种支持。

【AiBase提要:】
💻 Command A模型仅需两块GPU即可高效运转，显著降低了企业的硬件需求。
🌍 支持多达23种语言及地区方言，助力企业拓展全球市场。
💰 私有部署成本降低高达50%，为企业带来显著的财务优势。
详情链接:https://huggingface.co/CohereForAI/c4ai-command-a-03-2025

10、首个国产Agent开发框架!仓颉社区发布Cangjie Magic，原生支持鸿蒙等全平台!

Cangjie Magic是一个创新的智能体开发框架，基于华为自研的仓颉编程语言，旨在重塑智能体开发的方式。该框架通过独特的Agent DSL架构、原生支持MCP通信协议和智能调度引擎，提供了全面的智能体生命周期管理。

【AiBase提要:】
🛠️ 独创的Agent DSL架构，实现智能体建模的声明式编程，提升开发效率。
🌐 原生支持MCP通信协议，确保智能体之间的高效通信与协作。
📱 计划在第三季度实现对Android和iOS的智能体调用能力，拓展移动端应用场景。
详情链接:https://gitcode.com/Cangjie-TPC/CangjieMagic

11、OpenAI 高管预测:AI 将于2025年底超越人类程序员

在最近的播客中，OpenAI 的首席产品官凯文・维尔表示，人工智能预计将在2025年底之前超越人类程序员，尤其是在编码基准测试中。他强调了AI编码模型的快速进步，并提到Anthropic及OpenAI的先进模型正在推动编码的自动化。随着推理能力的提升，AI在编程领域的表现也在不断改善，未来几乎所有代码可能由AI生成。

【AiBase提要:】
🌟 AI预计将在2025年底超越人类程序员，成为更优秀的编码者。
💻 Anthropic和OpenAI的先进模型正在推动编码自动化，未来几乎所有代码可能由AI生成。
🚀 OpenAI即将推出的新模型在竞争性编码排名中不断上升，标志着AI在编程领域的持续进步。

（举报）

相关推荐

关键词：

十方融海小智AI：以科技温度诠释“人工智能+”时代的人文关怀

近日，小女孩“小十三”与十方融海研发的小智AI机器人深情告别的视频走红网络。这段1分17秒的对话不仅让无数网友泪目，更展现了AI技术的情感温度。十方融海团队迅速响应，跨越600公里为女孩送上定制版机器人作为生日礼物，并推出儿童心理陪伴计划。该事件体现了“人工智能+教育”的深刻内涵，彰显科技企业的人文关怀与社会担当，成为“技术向善”的生动实践。
全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

AI圈虽然天天卷，但是很多的模型，真的越来越无聊了。每天就是跑分又多了几个点。直到昨天，DeepSeek久违的发了一个新模型。 DeepSeek-OCR。这玩意，是真的有点酷。

DeepSeek-OCR AI模型 OCR技术
DeepSeek开源3B OCR模型：长文本识别达97%精度

DeepSeek在GitHub开源新一代OCR模型，采用创新光学二维映射压缩技术，在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌，较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率，显著优于同类模型。该技术路径为OCR系统小型化提供解决方案，其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

DeepSeek-OCR 光学二维映射压缩长文本识别
微算法科技（NASDAQ:MLGO）开发延迟和隐私感知卷积神经网络分布式推理，助力可靠人工智能系统技术

微算科技开发了延迟和隐私感知卷积神经网络分布式推理技术，通过创新队列机制和深度强化学习优化CNN推理过程，结合分布式计算与隐私保护机制，在降低边缘设备计算延迟的同时强化数据隐私。该技术将推理任务智能分配到不同节点，减少数据传输范围，实现高效推理与隐私安全的平衡，为智能医疗、交通等领域提供可靠解决方案。

人工智能深度学习隐私保护
GEO排名查询工具:AI时代下的品牌可见度监控指南

随着ChatGPT等生成式AI平台爆发，用户获取信息方式发生根本转变，传统搜索引擎优化（SEO）正被生成引擎优化（GEO）取代。文章指出，品牌在Google排名第一却可能在AI平台无人知晓，因此AI搜索排名成为2024年B2B营销新焦点。GEO需关注三大核心指标：品牌在AI回答中的提及频次、竞品对比排名、提及语境质量。有效的GEO工具应具备多平台覆盖、真实场景模拟、多维度分析能力，并通过四步实施：建立基准数据、识别优化机会、制定优化方案、持续监控迭代。GEO并非替代SEO，而是其延伸，两者需协同推进。
中国AI算力突围：东方超算Deep X算力盒子超国际竞品82%，重新定义行业标准

中国公司东方超算发布Deep X G20系列AI工作站，在MLPerf测试中性能超越NVIDIA DGX Spark达82%，价格持平，实现性能与性价比"双超越"。产品搭载Intel Ultra 9285处理器和NVIDIA RTX PRO 5000显卡，AI算力达1824 TOPS，体积仅2.7L。通过三大技术创新实现突破：智能异构计算引擎提升资源利用率40%；统一推理运行时支持多框架；深度硬件优化提升关键算子性能50-200%。该产品打破国际巨头垄断，已在量化金融、医疗影像等领域实现显著投资回报，标志着中国AI硬件实现重要突破。
WEEX反诈指南：提升警觉，防范高收益陷阱

近年来数字资产市场快速发展，但网络诈骗层出不穷，包括仿冒交易平台、高收益投资骗局和假客服等手段。WEEX以安全为本，通过多重加密、冷热钱包分离、多因素身份验证等技术防护，结合反诈教育和实时监控系统保护用户。文章提醒投资者警惕高收益承诺，不点击陌生链接，不泄露验证信息，仅通过官方渠道下载APP，强调安全需平台与用户共同维护。

数字资产安全防范投资安全
生成式 AI 搜索优化（GEO）完全指南：从入门到落地

随着生成式AI工具普及，用户更倾向直接提问而非传统搜索，导致优质内容可能被AI忽略。本文介绍生成式引擎优化（GEO）策略，帮助内容被AI理解、引用并整合进答案。核心包括：优化内容结构（如摘要、问答块、列表）、使用Schema标记、构建权威性，并推荐AIBase等工具监控引用效果。GEO是SEO的演进，需重塑写作方式以适应AI阅读逻辑。

GEO 生成式引擎优化 AI搜索优化
1.3亿美元！LiblibAI拿下国内最大AI应用融资

2025年AI应用公司LiblibAI完成1.3亿美元B轮融资，由红杉中国等机构领投，创国内AI应用赛道最大单笔融资。该公司通过“工具集成+社区生态”模式，整合图像、视频、3D等多模态能力，覆盖从灵感到成片的完整AI工作流，已孵化超2000万创作者。平台将加速全球化布局，打造多模态内容生态，标志着AI投资正从底层模型转向应用层落地。

AI应用 B轮融资多模态模型
荐市值一日暴增近3000亿港元，阿里迈向超级人工智能之路

9月24日，阿里巴巴股价创下四年新高，单日涨超9%，市值达到约3.32万亿港元，一日增加近3000亿港元。引爆股价的，是阿里集团每年一度的云栖大会。在会上，阿里释放多条重磅消息，尤其是在阿里集团CEO、阿里云智能集团董事长兼CEO吴泳铭的演讲结束后，阿里的股价表现就出现了明显的拉升。

阿里巴巴云栖大会股价

今日大家都在搜的词：

热文

3 天
7天

AI日报：快手可灵AI全面接入DeepSeek-R1；百度发布文心4.5与X1大模型；小米大模型团队登顶音频推理MMAU榜

十方融海小智AI：以科技温度诠释“人工智能+”时代的人文关怀

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

DeepSeek开源3B OCR模型：长文本识别达97%精度

微算法科技（NASDAQ:MLGO）开发延迟和隐私感知卷积神经网络分布式推理，助力可靠人工智能系统技术

GEO排名查询工具:AI时代下的品牌可见度监控指南

中国AI算力突围：东方超算Deep X算力盒子超国际竞品82%，重新定义行业标准

WEEX反诈指南：提升警觉，防范高收益陷阱

生成式 AI 搜索优化（GEO）完全指南：从入门到落地

1.3亿美元！LiblibAI拿下国内最大AI应用融资

荐市值一日暴增近3000亿港元，阿里迈向超级人工智能之路

今日大家都在搜的词：

热文

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

华为nova Flip S小折叠开售：首发3388元起

雷军回应K90定价：最近内存涨价太多希望大家理解这份诚意

REDMI K90标准版12+512GB降价300元小米回应：可退差价

苹果首款2nm手机芯片上热搜 A20由iPhone 18系列首发

小米汽车发布跨年购置税补贴方案至高不超15000元

卢伟冰：REDMI K90标准版12+512首销月直降300 售价2899元

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”

华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

微信三大更新放出上热搜涉及群聊消息处理、消息撤回等

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个

余承东官宣华为路由X3 Pro 采用“日照金山”设计

红米REDMI K90标准版亮相：质感、工艺脱胎换骨

AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停So

站长商机