首页 > AI头条  > 正文

开源模型逆袭:Databricks TAO 技术微调 Llama 超越 GPT-4o

2025-03-27 14:39 · 来源: AIbase基地

近日,数据智能公司 Databricks 推出了一种全新的大语言模型微调方法 ——TAO(Test-time Adaptive Optimization),这一技术的出现为开源模型的发展带来了新的希望。通过运用无标注数据和强化学习,TAO 不仅在降低企业成本方面表现出色,更是在一系列基准测试中取得了令人瞩目的成绩。

根据科技媒体 NeoWin 的报道,TAO 微调后的 Llama3.370B 模型在金融文档问答和 SQL 生成等任务中,展现出了优于传统标注微调方法的性能,甚至逼近了 OpenAI 的顶级闭源模型。这一成果标志着开源模型在与商用 AI 产品竞争中的又一次重大突破。

image.png

TAO 方法的核心在于其独特的 “测试时计算” 理念,能够自动探索任务的多样性,同时结合强化学习来优化模型,从而避免了传统微调所需的人工标注成本。在多项企业基准测试中,TAO 微调的 Llama 模型成绩斐然:

- 在 FinanceBench 基准测试中,该模型在7200道 SEC 文档问答中取得了85.1的高分,超过了传统标注微调(81.1)和 OpenAI 的 o3-mini(82.2)的成绩。

- 在 BIRD-SQL 测试中,TAO 微调的 Llama 模型得分为56.1,接近 GPT-4o 的58.1,远超传统标注微调(54.9)。

- 在 DB Enterprise Arena 中,TAO 模型得分为47.2,虽然略低于 GPT-4o 的53.8,但仍然显示了强劲的竞争力。

image.png

TAO 技术为开源模型的持续进化打开了一扇新的大门。随着用户使用量的增加,模型将通过反馈数据进行自我优化。目前,Databricks 已在 Llama 模型上开始了私测,企业可通过申请参与这一创新的体验。

image.png

这一新技术的推出,不仅是开源 AI 领域的一次创新突破,也是对未来大语言模型发展的重要指引。随着更多企业的参与,TAO 微调方法有望进一步推动开源模型的性能提升,让开源 AI 在商业化应用中展现更大潜力。

  • 相关推荐
  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • 理想汽车OTA7.4正式推送!自研MindGPT-4o-preview模型首次上车

    理想汽车5月28日发布OTA 7.4版本升级,主要亮点包括:1)首次搭载自研MindGPT-4o大模型,智能助手"理想同学"升级为3D毛绒形象,新增双手交互动作,语音交互更自然生动;2)新增"小同桌"多角色对话功能,支持连续聊天和情商引导;3)升级为生活助手Agent,能自主操作车机完成复杂任务,支持支付宝小程序操作;4)新增家庭账号系统、面容识别和对话历史功能;5)影音体验优化,支持前后排独立音区;6)推出儿童节专属"小主人"模式,新增斑马百科应用;7)新增超充站降锁、冰箱定时开关等实用功能;8)优化L6车型CDC悬架系统,提升操控性。

  • StarRocks 优化实践:揭秘毫秒级实时分析的三大核心技术

    StarRocks是一款高性能实时分析数据库,通过三大核心技术解决海量数据分析难题:1)向量化执行引擎,采用批处理方式减少CPU开销,支持SIMD指令集加速计算;2)CBO优化器,基于统计信息智能选择最优执行计划,支持复杂查询改写和物化视图优化;3)列式存储结构,结合稀疏索引和Bitmap索引提升I/O效率。其企业级产品镜舟数据库在此基础上增强多租户隔离、RBAC权限控制等特性

  • AI竞争关键在于“数据竞赛”, 星环科技AI-Ready Data Platform成破局密钥

    文章探讨了大模型技术红利窗口正在收窄的行业现状。随着Transformer架构主导的算法同质化,模型性能差异从技术代差演变为工程优化。同时指出企业80%非结构化数据仍处于沉睡状态,包括设备日志、工艺文档等数据金矿未被有效开采。在此背景下,企业AI能力建设重心正从"模型军备竞赛"转向"数据基建深耕"。 星环科技发布的AI-Ready Data Platform通过架构革命、治理跃迁与工具链进化三个维度的创新,构建从数据沉淀到AI落地的全栈数据能力。该平台实现了11种模型数据的统一存储管理,并凭借实时湖仓集技术构建端到端秒级分析体系。在金融和制造业的实践中,该平台显著提升了数据处理效率和决策响应速度,验证了数据基础设施重构的商业价值。

  • 能否按时上市:特斯拉重新申请新“Tesla Robotaxi”商标

    特斯拉公司重新提交了Tesla Robotaxi”这一名称的商标申请。 此前,特斯拉在2024年10月首次申请了Robotaxi”和Cybercab”两个商标,但遭遇了阻碍。 美国专利商标局(USPTO)以Robotaxi”这一术语被多家公司使用为由,要求特斯拉提供更多细节信息,而Cybercab”的申请则因Cyber”一词被众多公司尝试注册不同用途的商标而被直接驳回。 此次,特斯拉提交了三个新的商标申请,将商标名

  • 苹果公布 Intel Mac 支持终止时间表,Rosetta 2 也将逐步淘汰

    苹果近日正式确认,对 Intel 架构 Mac 的支持即将画上句号,而 Rosetta 2 应用转换功能也将进入淘汰阶段。

  • AI日报:阿里开源3D数字人项目MNN TaoAvatar;MiniMax Agent上线;罗永浩数字人直播再探“AI+IP”带货模式

    本文汇总了AI领域最新动态:1)阿里开源MNN+TaoAvatar技术,实现手机端3D数字人实时交互;2)MiniMax升级AI工具Agent,新增智能图像搜索和多语言支持;3)罗永浩数字人将登陆百度电商直播;4)OpenAI员工套现近30亿美元,软银成最大接盘方;5)ChatGPT推出深度研究和语音模式升级;6)Meta发布V-JEPA2模型,提升机器人环境适应能力;7)AMD与OpenAI合作推出新一代AI芯片;8)Google Gemini集成Imagen4图像生成模型;9)谷歌AI实现10公里级精准天气预报;10)Gartner预测到2028年80%的AI应用开发时间将缩短50%。

  • ​ Satakunta Energy 欢迎 比特引擎(BitEngine Mining Tech) 战略投资,携手推动比特币挖矿与绿色能源整合创新

    芬兰能源供应商Satakunta Energy宣布与比特币挖矿企业BitEngine达成战略投资合作。BitEngine将持有Satakunta部分股份,双方将在能源供应与挖矿技术创新方面展开合作。此次合作将整合BitEngine在全球比特币挖矿领域的技术优势与Satakunta在芬兰地区的可再生能源供应能力,共同提升挖矿行业能源效率,探索绿色能源应用方案。Satakunta表示,这将帮助公司拓展高耗能科技领域的客户群体,加速绿色能源解决方案的研发应用。

  • 谷歌 I/O大会智能眼镜或引爆技术焦点,Meta/微美全息竞逐AI/AR生态新赛道!

    谷歌将于5月20-21日举办I/O开发者大会,重点展示Android系统、AI和Web技术新进展,包括Gemini Live等新功能。Meta正研发新一代智能眼镜Live AI,预计2026年推出,将支持面部识别功能,并计划发布代号Hypernova的AR眼镜。苹果CEO库克聚焦AI/AR眼镜研发,产品或于2027年面世。微美全息(WIMI.US)作为行业领军者,通过技术创新在AR眼镜、头显等核心产品持续布局,推出动态渲染引擎和MicroLED光机模块等技术。2025年AI/AR行业将进入技术沉淀期,硬件迭代、生态开放与AI融合成为竞争核心,推动智能眼镜在文旅、教育等场景的创新应用。

  • Staycation风潮来了:在酒店里躺平,比旅游更治愈

    “在酒店吹空调、吃西瓜、躺着追剧,不比在30℃的景点人挤人更香?” 刚刚过去的端午三天假期,时间不够远游,却刚好适合“逃离日常”。越来越多年轻人瞄准当地的高端酒店,开启“微度假”新姿势——Staycation。 Staycation是“Stay”(停留)和“Vacation”(假期)的结合,指的是假期或周末留在当地或附近城市住酒店放松。对于不想折腾、不愿赶车赶景点的年轻人来说,这种

今日大家都在搜的词: