首页 > 业界 > 关键词  > Llama-rephraser最新资讯  > 正文

Vicuna Makers打造小型AI模型Llama-rephraser,130亿参数、性能媲美GPT-4

2023-11-17 09:48 · 稿源:站长之家

**划重点:**

1. 🌐 Vicuna Makers的研究团队成功构建了一个只有130亿参数的小型语言模型(LLM),在性能上与OpenAI的GPT-4相媲美。

2. 🔄 利用新工具LLM Decontaminator,研究人员通过改写测试集,使得LLM能够在主要基准测试中达到GPT-4的性能水平。

3. 🌟 Llama-rephraser的研发不仅在性能上取得突破,而且通过挑战对语言模型中数据污染的理解,为业务提供了性能与成本平衡的可能性。

站长之家(ChinaZ.com)11月17日 消息:Vicuna Makers的研究团队在构建Vicuna语言模型的基础上,成功推出了一款新型的小型人工智能模型(LLM),该模型在性能上与OpenAI的GPT-4相媲美,仅包含130亿个参数。

这一新模型被命名为Llama-rephraser,由LMSYS Org揭示。尽管规模相对较小,但该模型在主要基准测试中达到了GPT-4的性能水平。这一成就的关键在于团队采用了一种独特的方法:通过改写测试集,即对测试样本进行释义,使模型能够进行泛化并实现高性能。

通过在数据集中改变句子,Llama-rephraser不仅帮助模型记住文本,更能理解其含义。通过用变化的短语提示模型,研究团队验证了模型是否真正理解了材料。结果表明,Llama-rephraser能够返回正确的响应。

image.png

这一创新性的方法让这个拥有130亿参数的Llama-rephraser在基准测试中取得了GPT-4级别的成绩,包括涵盖基本数学、计算机科学、法律等多个领域的流行MMLU基准测试,以及人工评估模型代码生成的HumanEval基准测试。

这一研究的最大成就之一是挑战了对语言模型中数据污染的理解。数据污染指的是测试集的信息泄漏到训练集中,可能导致对模型性能的过于乐观的估计,尤其是对于一个只有130亿参数的模型能够达到GPT-4的成果。

在构建Llama-rephraser的研究过程中,他们发现类似CodeAlpaca的GPT生成的合成数据可能导致微妙的污染,这是难以检测的。为了解决这个问题,他们引入了一个名为LLM Decontaminator的新工具,用于量化数据集的释义样本与基准的对比,使开发人员能够估计数据集中释义样本的污染程度,并将其删除。

对于企业而言,这意味着在采用人工智能解决方案时,有必要使模型规模更小,以保持运营成本的低廉。像Llama-rephraser这样性能媲美GPT-4的小型模型的出现,有助于企业在性能和成本之间取得平衡。此外,LLM Decontaminator这样的工具还可以帮助企业完善其现有系统,使当前一代模型得以改进,而无需在开发成本上投入大量资金构建全新的模型。

LMSYS Org在博客文章中呼吁社区重新思考在大型语言模型背景下的基准测试和数据污染,并在对大型语言模型进行公共基准测试时采用更强大的去污染工具。

举报

  • 相关推荐
  • GPT-5和Claude 4 Opus谁更强?用这个AI大模型对比工具一眼明了

    OpenAI正式发布GPT-5,与Claude4Opus和Gemini2.5Pro进行对比测试。GPT-5在编程能力(SWE-bench测试74.9%)和数学推理(AIME2025测试94.6%)表现突出;Claude4Opus编程优异(72.5%)但数学较弱(33.9%);Gemini2.5Pro擅长长文本处理(100万token窗口)和多模态应用。价格方面,GPT-5和Gemini2.5Pro定价相近($1.25-$10),Claude4Opus较高($15-$75)。建议根据需求选择:GPT-5适合综合应用,Claude4Opus适合专业编程,Gemini2.5Pro适合长文档�

  • GPT-5横空出世:API最低0.40美元,人人享“博士级智慧”

    OpenAI正式发布新一代旗舰模型GPT-5,CEO奥尔特曼称其智能水平如同与博士级专家对话。该模型在写作、编码、医疗等核心领域表现突出,幻觉率大幅降低80%,输出token数量减少50%-80%。GPT-5系列包含多个版本,其中GPT-5nano的API价格低至0.4美元/百万token,极具竞争力。基准测试显示GPT-5以68分位居榜首,超越Grok-4等对手。OpenAI同时宣布向所有用户开放使用,并计划升级语音模式,探索

  • GPT-5有望明天发布 OpenAI:免费无限使用

    OpenAI宣布将于太平洋时间7月4日上午10点(北京时间7月5日凌晨1点)举办重要直播活动。官方预告中"LIVESTREAM"误写为"LIVE5TREAM",引发网友猜测可能暗示GPT-5即将发布。消息称免费版ChatGPT将在标准设置下开放GPT-5对话功能,但会设置防滥用阈值;Plus和Pro用户则可享受更智能的GPT-5服务,包括语音交互、绘图创作等高级功能。此前CEO奥特曼曾透露GPT-5将整合多项前沿技术。若属实,这将是AI爱好者的重大福利,也将进一步提升ChatGPT的实用性和用户体验。

  • GPT-5正式发布:与Claude 4、Gemini 2.5等主流大模型谁更胜一筹?

    2025年8月7日,OpenAI正式发布GPT-5,官方称其为"最智能、最快速、最实用"的AI模型。GPT-5在数学推理能力上大幅提升,在AIME2025测试中取得94.6%的高分,处理速度也有明显改善。但与竞争对手相比仍存在差距:Claude4在代码生成和逻辑推理方面表现优异,支持200K token长文本;Gemini2.5具备2M超大上下文窗口和全模态支持;国产模型DeepSeek R1在中文理解和性价比方面具有优势。AI�

  • Lamett乐迈石晶携手肖战共筑品牌势能,经销商信心倍增抢滩市场

    欧洲高端建材品牌Lamett乐迈石晶宣布肖战成为首位全球品牌代言人,双方将共同推动"健康、安全"理念。Lamett创立于1985年,专注新型建材研发,2016年首创全球首款石晶地板,2024年又推出石晶柜板,实现从地面到全屋空间的应用突破。此次合作将助力品牌从专业领域走向大众视野,通过"全域营销+供应链布局+数字化管理"赋能经销商。目前品牌在中国设有七大直营体验中心,未来将通过"东西南北中"五大生产基地实现全链路自主把控。

  • AI日报:GPT-5正式发布;百度将推文心5.0大模型;知网发布AIKBase V2.0多模态数据管理系统

    《AI日报》精选AI领域最新动态:1)OpenAI发布GPT-5模型,具备强大多模态能力但推理任务仍有局限;2)知网推出AIKBase V2.0多模态数据管理系统;3)Ideogram新增"角色"功能实现图像风格统一;4)Cursor发布CLI版本支持终端AI编程;5)百度即将推出全新推理模型和文心5.0大模型;6)dots.ocr推出1.7B参数多语言文档解析工具;7)特斯拉解散Dojo超算团队转向英伟达合作;8)谷歌Pixel 10引入AI相�

  • OpenAI正式发布GPT-5模型 网友:写作像诗人

    OpenAI在直播活动中正式推出新一代人工智能模型GPT-5,宣称其覆盖编程、数学、写作、健康咨询、视觉感知等核心领域,实现"公司迄今为止最重大的模型升级"。OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)形容,与GPT-5交互如同与各领域专家对话,其多维度能力突破将重塑人机协作模式。 分层开放策略满足多元需求 GPT-5将于本周四启动全球用户分批推送,免费用户与付�

  • GPT5发布,槽点竟多过亮点:AGI没来,AI公司肉搏时代来了

    ​我们至今不知道让奥特曼“瘫倒在椅子上”的是什么力量。 因为人们等待许久的GPT-5发布,至少从大家第一时间对发布会的感受来看,居然是槽点,甚至笑料多过了亮点…… 几个月前,甚至发布前,都不会有人想到,这么万众期待的模型发布,被传播最多的会是多张让人哭笑不得的错误图表:

  • GPT-4.5和Claude4哪家强?一文看懂优劣差异,附最实用AI大模型对比工具!

    文章对比分析了GPT-4.5和Claude4两大AI模型的性能差异:GPT-4.5在响应速度、编程能力和生态开放度上占优,适合实时对话和内容创作;Claude4则在长文本处理(200k+上下文)、安全性和企业适配性方面表现突出。推荐使用AIbase的模型对比工具(https://model.aibase.com/zh/compar)进行多维度智能筛选,根据具体场景(如客服、写作、编程等)选择最适合的模型。核心结论:没有绝对优劣,�

  • 减少幻觉、不再谄媚!OpenAI:即日起 史上最强大的GPT-5将免费提供给用户

    这是我们迄今为止最智能、最快、最实用的模型,具有内置思维,可将专家级智能交到每个人手中。” OpenAI在官方新闻稿中写道,这是我们迄今为止最优秀的人工智能系统。GPT-5的智能性能远超我们之前的所有模型,在编码、数学、写作、健康、视觉感知等领域均拥有卓越的性能。 GPT-5 不仅在基准测试中超越了之前的模型,回答问题的速度也更快,而且最重要的是,它对现�