首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:快手可灵AI全面接入DeepSeek-R1;百度发布文心4.5与X1大模型;小米大模型团队登顶音频推理MMAU榜

2025-03-17 15:20 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、快手可灵AI全面接入DeepSeek-R1,DeepSeek灵感版已上线

快手旗下的可灵AI近期全面接入DeepSeek-R1,为用户在视频和图片生成方面带来了显著便利。通过DeepSeek-R1,用户能够轻松将灵感转化为专业提示词,从而降低创作门槛并提升效率。此外,DeepSeek灵感版与可灵AI的灵感词库功能联动,帮助用户更好地掌控视频细节,使得即使是普通用户也能创作出高质量的内容。这一系列创新举措使得可灵AI在行业中继续保持领先地位。

image.png

【AiBase提要:】

🌟快手可灵AI全面接入DeepSeek-R1,助力用户将灵感转化为专业提示词。

🔥可灵AI持续迭代升级,接入DeepSeek-R1后进一步降低创作门槛。

🎬DeepSeek灵感版与“灵感词库”联动,提升用户掌控视频细节的能力。

2、百度发布文心4.5与X1大模型,价格大幅降低引关注

百度最新推出的文心大模型4.5和X1,标志着其在多模态理解和逻辑推理领域的重大进展。文心4.5以其显著的价格优势和卓越的性能超越了GPT-4.5,吸引了众多开发者的关注。而X1则专注于中文知识问答和文学创作,具备强大的推理能力和多模态功能。

【AiBase提要:】

💡 文心4.5是百度首个原生多模态大模型,性能超越GPT-4.5,API调用价格仅为后者的1%。

🧠 文心大模型X1专注于中文知识问答和逻辑推理,具备长思维链和多模态能力,能理解和生成图片。

💰 文心4.5和X1的输入输出价格极具竞争力,标志着百度在大模型领域的强劲布局。

3、小米大模型团队登顶音频推理 MMAU 榜,受到DeepSeek-R1启发

小米大模型团队在音频推理领域取得了显著进展,利用强化学习算法成功提升了模型的准确率至64.5%,在国际权威的MMAU评测榜上名列前茅。该团队的研究表明,强化学习的实时反馈机制在模型训练中更为有效,并且开源了相关技术,推动了学术界和产业界的进一步研究。

image.png

【AiBase提要:】

🔍 小米大模型团队通过强化学习算法在音频推理领域取得突破,准确率达到64.5%。

📈 MMAU 评测集是音频推理能力的重要标准,当前人类专家准确率为82.23%。

💡 研究结果表明,强化学习的实时反馈机制对模型训练更为有效,未来研究仍需深入探索。

详情链接:https://github.com/xiaomi-research/r1-aqa

4、钉钉推出AI客服助理 可自动接入企业官网、公众号等平台

钉钉于2025年3月17日推出了AI客服助理,旨在提升企业客户服务效率。该功能能够自动接入企业官网及公众号,支持多轮对话,精准理解用户需求并提供专业回复。自推出以来,已有700多家企业接入,具备7×24小时在线服务,响应速度快,且可通过多平台部署,极大便利了企业与用户的沟通。

image.png

【AiBase提要:】

💡 AI客服助理可自动接入官网和公众号,提升企业服务能力。

🛠️ 只需三步配置,企业可快速上线AI助理,简化知识体系构建。

🌐 支持多平台部署,企业可通过多渠道为用户提供服务。

5、图像效果转换技术LBM:一键移除路人甲,还可调整光照

LBM(潜在桥梁匹配)是一款由gojasper团队开发的图像处理工具,能够高效地实现图像效果转换。它不仅具备强大的对象移除能力,使得用户能够轻松去除照片中的不必要元素,还能灵活调整光线,营造出理想的氛围。LBM的创新理念在于潜在空间的操作,使得图像编辑变得更加简单和高效,适合摄影爱好者和专业人士使用。

image.png

【AiBase提要:】

🖌️ LBM具备强大的对象移除能力,用户只需轻点即可去除照片中的干扰元素,简化了图像编辑流程。

☀️ 该工具支持光照调整,用户可以在阴天拍摄的照片中创造出阳光明媚的效果,提升照片的视觉吸引力。

🔧 LBM在法线和深度估计等多种图像转换任务中表现卓越,展现出其广泛的应用潜力和可扩展性。

详情链接:https://top.aibase.com/tool/lbm

6、Anthropic将发布 Harmony 功能:让 AI 助手无缝接入本地文件

Anthropic正在开发名为Harmony的新功能,旨在将本地文件目录集成到Claude的工作环境中。这一创新将使用户能够与文件进行更流畅的互动,AI助手可以直接读取、索引和分析目录中的内容。Harmony不仅支持文件的分析和修改,还提供基于关键词的搜索功能,展现了强大的AI编码助手潜力。

【AiBase提要:】

✅ Harmony功能将使用户能够无缝接入本地文件,提升AI的交互能力。

🔍 Claude在测试中成功识别了多个代码安全漏洞,显示出其强大的分析能力。

🧭 Anthropic还在开发Compass功能,可能会支持深度研究和信息整合。

7、开源图片超分模型Thera:可以提升图片清晰度,让模糊从此“下岗”

Thera是一款由苏黎世联邦理工学院和苏黎世大学开发的开源超分辨率模型,能够以任意倍数提升图片清晰度。它不仅能让模糊照片恢复生机,还通过内置的物理观测模型,减少图像失真,呈现更自然的细节。

image.png

【AiBase提要:】

✨ Thera支持任意尺度的超分辨率放大,用户可以自定义放大倍数,灵活应对各种需求。

🔍 内置物理观测模型,模拟真实图像形成过程,减少失真,呈现更真实细节。

🌍 作为开源项目,Thera以Apache-2.0许可证提供,促进技术共享与发展,提供预训练模型便于用户使用。

详情链接:https://top.aibase.com/tool/thera

8、谷歌Gemini2.0Flash去除图片水印功能引版权担忧

谷歌新推出的Gemini2.0Flash模型引发了关于去除图片水印的争议,尤其是涉及到Getty Images等知名图片库的内容。尽管该模型在图像生成和编辑方面表现出色,但其缺乏使用限制引发了版权方面的担忧。Gemini2.0Flash的功能似乎更为强大,但在美国版权法下,未经同意去除水印的行为仍然可能被视为违法。

image.png

【AiBase提要:】

🚫Gemini2.0Flash可去除图片水印,功能强大但引发版权争议。

💬其他AI模型如Claude3.7Sonnet和GPT-4o拒绝去除水印,认为此举不道德且可能违法。

⚖️美国版权法下,未经原所有者同意去除水印通常被视为违法,谷歌未对质疑作出及时回应。

9、Cohere 发布AI模型Command A,两块GPU就能高效运转,企业部署成本降50%

Cohere推出的Command A模型以其仅需两块GPU的低硬件需求和高达50%的成本节省,打破了高性能AI的传统门槛。其1110亿参数的设计结合优化的Transformer架构,使得企业能够在处理复杂任务时,享受超长的上下文窗口和多语种支持。

image.png

【AiBase提要:】

💻 Command A模型仅需两块GPU即可高效运转,显著降低了企业的硬件需求。

🌍 支持多达23种语言及地区方言,助力企业拓展全球市场。

💰 私有部署成本降低高达50%,为企业带来显著的财务优势。

详情链接:https://huggingface.co/CohereForAI/c4ai-command-a-03-2025

10、首个国产Agent开发框架!仓颉社区发布Cangjie Magic,原生支持鸿蒙等全平台!

Cangjie Magic是一个创新的智能体开发框架,基于华为自研的仓颉编程语言,旨在重塑智能体开发的方式。该框架通过独特的Agent DSL架构、原生支持MCP通信协议和智能调度引擎,提供了全面的智能体生命周期管理。

image.png

【AiBase提要:】

🛠️ 独创的Agent DSL架构,实现智能体建模的声明式编程,提升开发效率。

🌐 原生支持MCP通信协议,确保智能体之间的高效通信与协作。

📱 计划在第三季度实现对Android和iOS的智能体调用能力,拓展移动端应用场景。

详情链接:https://gitcode.com/Cangjie-TPC/CangjieMagic

11、OpenAI 高管预测:AI 将于2025年底超越人类程序员

在最近的播客中,OpenAI 的首席产品官凯文・维尔表示,人工智能预计将在2025年底之前超越人类程序员,尤其是在编码基准测试中。他强调了AI编码模型的快速进步,并提到Anthropic及OpenAI的先进模型正在推动编码的自动化。随着推理能力的提升,AI在编程领域的表现也在不断改善,未来几乎所有代码可能由AI生成。

【AiBase提要:】

🌟 AI预计将在2025年底超越人类程序员,成为更优秀的编码者。

💻 Anthropic和OpenAI的先进模型正在推动编码自动化,未来几乎所有代码可能由AI生成。

🚀 OpenAI即将推出的新模型在竞争性编码排名中不断上升,标志着AI在编程领域的持续进步。

举报

  • 相关推荐
  • 陕西一景区介绍标注作者为DeepSeek 工作人员:有版权问题

    近日,陕西渭南的一处景区引发了网友们的热议,原因竟是景区介绍牌上标注的作者是一个颇为特别的名字——“DeepSeek”。 不少游客在看到这个作者名时,都误以为是个外国人的名字,仔细一瞧才发现,这原来是一款人工智能助手的名字。景区工作人员解释说,这块介绍牌是去年摆放的,上面的内容确实是由DeepSeek生成的,主要是对尧头窑进行一个简单的介绍。

  • DeepSeek V4 Lite悄然更新:2000亿小参数性能逼近美国顶流

    虽然春节档DeepSeek V4没有发布,但DeepSeek在2月11日发了一个新模型,被称为DeepSeek V4 Lite,只有2000亿参数,规模比较小。 DeepSeek V4 Lite主要特色是1M上下文,之前网友测试其表现除了超长上下文之外也没太惊艳的地方,毕竟参数规模跟主流的大模型差很多。 然而DeepSeek V4 Lite发布之后一直在悄悄升级,2月27日已经有网友测试发现其性能越来越强大,昨天又升级了一波,Linux Do社区�

  • AI日报:多模态大模型DeepSeek V4即将发布;谷歌即将停用Gemini 3 Pro Preview;微软推出AI软件组合

    本期AI日报聚焦行业动态:谷歌将停用Gemini 3 Pro Preview,开发者需迁移至3.1版本;DeepSeek V4发布,支持多模态生成并与华为、寒武纪合作优化硬件;微软计划推出AI软件组合,月费或高达99美元;爱奇艺财报显示利润下滑,将押注AI电影制作与去中心化转型;壁仞智能完成数亿元融资,深化端侧AI布局;英伟达将发布集成Groq技术的推理处理器,巩固市场地位;联想展示模块化AI PC概念,提升用户体验;我国发布首个国家级人形机器人标准体系,推动产业高质量发展。

  • AI日报:MiniMax发布Expert 2.0与云端助手MaxClaw;DeepSeek V4 细节曝光;肯德基AI 点餐助手接入通义千问

    本期AI日报聚焦多款AI产品动态:MiniMax发布Expert 2.0与云端助手MaxClaw,降低专业AI Agent开发门槛;DeepSeek V4细节曝光,具备万亿参数与原生多模态能力;肯德基接入通义千问推出AI点餐助手“小K”;华强北AI眼镜在美销量暴涨;Perplexity发布通用AI代理Computer,集成多模型协同工作;三星Galaxy S26系列手机AI功能全面升级;三七互娱“小七大模型”深度落地游戏出海等场景。整体呈现AI

  • Meta调整薪酬结构:为聚焦人工智能 员工股权激励缩水5%

    为给巨额人工智能投入腾出资金,Meta正推进新一轮成本控制措施,包括将数万名员工的股权激励缩减5%。这是该公司连续第二年削减员工薪酬。去年已削减股票期权分配约10%,此次再下调5%。扎克伯格正加大AI领域投入,希望与OpenAI、谷歌等对手竞逐前沿模型开发,同时安抚尚未看到AI投资回报的投资者。他还在其他业务领域持续裁员,今年1月就在持续亏损的元宇宙部门裁减约1500个岗位。不过知情人士透露,尽管股权激励普遍下调,Meta今年仍在改革绩效考核体系,为业绩优异者提供更丰厚奖励。这意味着公司整体薪酬预算并未下降,而是进行了结构性调整。一名员工表示,考虑到当前科技行业就业市场不景气,而Meta薪酬水平仍然具备竞争力,员工大概率不会因这一变化而选择离职。

  • 即梦客服回应Seedance 2.0生成视频排队:节后使用人数多

    字节跳动旗下APP“即梦”因支持AI视频生成模型Seedance2.0迅速走红,但用户量激增导致视频生成延迟、卡顿、排队时间长及AI人脸素材审核失败等问题。用户反馈网页版生成10秒内视频也需长时间等待,普通会员称连续两天排队超6小时,系统显示等待人数达上万人。客服解释模型因春节后用户暴增处于“火爆状态”,视频生成消耗大量算力资源,导致排队时间长、生成速度慢,后续将持续优化模型性能。针对素材审核问题,客服提醒用户上传图片或文字关键词若涉及版权风险可能被驳回,需调整描述或更换图片后重新提交。

  • 好用的 BI 产品怎么选?2026 新一代智能分析工具深度测评指南

    文章指出,2026年企业选择BI产品时,国产BI已成为决策者首选。本土BI更懂中国式复杂报表、多级汇总、数据填报等业务痛点,全面适配信创生态,本地化响应与服务效率也远超海外产品。Gartner报告显示,全球超80%企业仍深陷传统“IT造数、业务等数”模式,决策速度远跟不上市场变化节奏。企业数据资产非但没有成为增长驱动力,反而变成了拖慢效率的新负担。文章深度解析了八大主流BI工具(含头部国产与国际标杆),从核心优势、定价策略、适配规模三大维度对比,并结合典型场景提供选型框架,助力企业拨开迷雾,找到打开数据宝库的专属钥匙。

  • AI日报:谷歌Nano Banana 2正式上线;可灵3.0全球视频模型第一;周鸿祎直言AI眼镜难做

    本期AI日报聚焦多领域进展:谷歌Gemini App更新,图像生成模型Nano Banana 2上线,支持2K分辨率与文字渲染;快手可灵3.0在视频生成基准测试中表现优异,彰显中国AI技术领先地位;周鸿祎指出AI眼镜硬件门槛高,未来应聚焦智能体技术;阿里巴巴推出千问AI眼镜,整合生态提供智能生活体验;xAI联合创始人离职引发核心团队变动关注;豆包手机助手回应安全争议,称未收到漏洞报�

  • 定义AI时代的品牌语言:“八大黄金维度”比谷歌EEAT更适配GEO未来

    文章探讨了在生成式搜索兴起的背景下,品牌营销评估体系的重构。重点对比了谷歌的EEAT框架(经验、专业、权威、可信)与聚界智能提出的“面向AI权威信源的八大黄金维度”。后者专为AI时代设计,包含真实性、科普性、结构性、权威性、热点性、多模态、时效性、一致性八个维度。文章指出,八大维度不仅定义了优质内容,更提供了让AI理解并信任品牌的系统方法,强调从被动评估转向主动构建,从单点优化转向系统协同,更契合企业品牌传播的本质需求,是定义AI时代品牌语言的关键。

  • 大厂入局引爆AI漫剧,第一批跳槽的人工资涨10倍?

    十万成本,四天时间,换来亿级曝光。 去年秋天,AI漫剧《洪荒:代管截教,忽悠出了一堆圣人》首播,爆了。89集,没有真人演员,没有实景拍摄,全部由算法逐帧生成,风格在动态漫画与动画之间。 《洪荒》制作方是酱油文化,商务负责人叫颜四海,他觉得”这个行业好像产生了一个风口”。投放开始一天只有20万,2025年底飙到2000万,2026年1月中旬过3000万。 颜四海说,�

今日大家都在搜的词: