首页 > 业界 > 关键词  > AI编码工具最新资讯  > 正文

微软推出微型AI自动编码模型phi-1,击败 GPT-3.5

2023-06-26 10:16 · 稿源:站长之家

站长之家(ChinaZ.com)6月26日 消息:微软的人工智能研究人员发布了一种新的、轻量级的代码生成模型 phi-1,并且其性能优于 ChatGPT 背后的大型语言模型 GPT-3.5。

据了解, 这个基于 Transformer 的模型仅拥有13亿个参数,相比之下,Codex拥有120亿个参数。

微软的研究人员仅用了四天时间就使用 Nvidia 的8个 A100芯片来训练 phi-1。该模型使用来自网络的60亿个token以及使用 GPT-3.5生成的另外10亿个token进行训练。

在性能方面,phi-1在HumanEval基准测试中获得了50.6% 的 pass@1准确率。尽管模型小得多,但微软模型击败了 Hugging Face 和 ServiceNow 的 StarCoder (33.6%)、OpenAI 的 GPT-3.5(47%) 和谷歌的 PaLM2-S (37.6% ) 。

在MBPP pass@1测试中,phi-1表现更好,取得了55.5% 的分数。上述许多模型尚未发布该基准测试的结果,但 WizardLM 的WizardCoder在本月早些时候进行的测试中得分为51.5%。WizardCoder 是一个150亿个参数模型,而 phi-1的参数模型为13亿个。

病毒、代码 (4)

高质量数据带来差异

微软的研究人员认为,正是“高质量数据的力量”让 phi-1表现如此出色。为了说明这一点,研究人员将他们模型的论文命名为“教科书就是你所需要的”。

他们写道:“正如一本全面、精心制作的教科书可以为学生提供掌握新学科所需的知识一样,我们的工作展示了高质量数据在磨练语言模型在代码生成任务中的熟练程度方面的显着影响。” 。

“通过制作‘教科书质量’数据,我们能够训练出一个模型,尽管模型大小缩小了10倍,数据集大小缩小了100倍,但在编码基准(例如 HumanEval 和 MBPP)上,该模型超越了几乎所有开源模型。”

与其他可用的编码模型相比,Phi-1仅限于 Python 编码。他们表示,该模型的局限性还在于它缺乏大型模型的特定领域知识,例如使用特定 API 进行编程。

为了扩展他们的工作,微软的研究人员建议使用 GPT-4而不是 GPT-3.5来生成用于模型训练的合成数据。

研究人员还将寻求提高数据集的多样性和非重复性,尽管该团队表示,他们必须找到方法“在数据生成过程中注入随机性和创造力,同时仍然保持示例的质量和连贯性。”

举报

  • 相关推荐
  • 从传统收款码到AI收款码的变迁,网付重塑了支付行业

    8月11日外滩大会聚焦人工智能与支付行业融合。国内聚合支付品牌“网付”推出首张AI收款码,标志着支付从工具属性向生态属性转型。AI支付重构人货场关系,实现“消费即推广”;倒逼抖音等平台开放数据接口;融合刷脸支付等前沿技术。预计2026年将出现“AI支付+智能推荐”新形态,印证“所有行业都值得用AI重做一次”趋势。网付正将支付环节升级为商业基础设施,书写数字经济新篇章。

  • 软件测试的“自动驾驶革命”:从工具自动化到思维智能化

    AI正推动软件测试领域变革,测试团队脚本维护时间减少60%,工作重心转向策略设计与异常监控。行业报告显示,AI驱动的测试效率提升显著,尤其在探索性测试中可发现人工难以预见的边缘场景缺陷。实践案例表明,金融、汽车等行业引入AI测试后,迭代周期缩短,用例自动生成率大幅提升。未来测试工程师将更专注于质量体系设计和风险分析,而非脚本编写,实现从“人工密集型”向“智能驱动型”的转变。

  • 从数字工具到效率员工,AI员工赋能企业营销服务生产力全面提升!多款AI工具口碑推荐,用AI驱动新增长!

    如今,AI赋能业务已非遥不可及,而是切实帮助企业降本增效的新方案。文章以获客、销售、服务、办公四大场景为例,说明AI如何替代重复性工作:营销人员可借助AI工具快速生成高质量素材;销售可将客户跟进、资料更新等琐事交给AI,专注高价值沟通;售后AI能24小时响应基础问题,提升服务效率;办公场景中,AI还能辅助招聘筛选、邮件撰写等日常任务。通过引入具备理解、推理、执行能力的智能工具,企业能以更少人力、更高效率实现业务优化,未来率先布局AI的企业将更具竞争优势。

  • 爷爷卖菜攒3万 孙子放宝马车内被盗:存钱时密码输错没存成

    近日,江西南昌发生了一起令人痛心的事件。一位年过八旬的爷爷,多年来靠卖菜辛苦积攒下了3万多元现金。十一假期期间,孙子郭先生从上海回到南昌老家陪伴爷爷,爷爷满心信赖地将这笔钱交给孙子,让他帮忙存起来。 ​然而,由于爷爷忘记了银行卡密码,存钱时密码输错没存成,郭先生便暂时将这笔钱放在了自己的宝马汽车扶手箱内。

  • 烟机怎么选?京东TOP榜:海尔全自动烟机位居NO.1

    国庆中秋双节前夕,AI厨电成为行业新增长点。传统油烟机市场长期由传统品牌主导,但海尔全自动油烟机凭借颠覆传统操作模式,连续多日位居京东销量榜首。其成功关键在于精准切中年轻用户追求高效便捷的核心需求:通过AI风感科技实现自动监测油烟浓度、自动调节风力,彻底解决传统产品操作繁琐、油烟倒灌等痛点。海尔还以632米超长排烟管创世界纪录,为高层住宅提供技术保障。数据显示,海尔厨电已连续三年全球销量突破千万台,持续以技术创新重塑行业竞争格局。

  • AI排名监控工具实战必备:掌握GEO优化效果,提升品牌AI搜索排名

    随着AI大模型和智能搜索的快速发展,用户搜索习惯正从传统搜索引擎转向直接向AI平台提问。品牌能否被AI“推荐”已成为新的竞争力。AIBase推出的GEO排名查询工具,专为监测品牌在AI对话中的曝光率、推荐次数及呈现方式而设计。它支持多平台同步检测,提供可视化数据分析和历史记录对比,帮助团队优化AI搜索排名。该工具不仅统计曝光量,还能还原AI对话细节,为品牌形象提升提供数据支持,是布局AI流量的重要利器。

  • AI排名监控工具实战指南:如何用GEO排名查询提升品牌AI搜索可见度

    随着ChatGPT等AI搜索引擎普及,传统SEO正经历深刻变革。文章指出,超60%用户开始使用AI搜索,而AI直接给出答案而非展示链接,导致品牌面临可见度危机。为此提出GEO(生成引擎优化)概念,强调需通过专业工具监测AI排名,并推荐AIBase平台的多平台覆盖、真实场景模拟和竞品分析功能。最后给出四步优化流程:建立监测基准、分析排名差异、针对性内容优化、持续迭代,帮助品牌在AI时代建立竞争优势。

  • GEO排名查询工具推荐:霸屏AI大模型答案的核心方法,做好AI大模型排名优化

    随着AI大模型成为用户获取信息的主要入口,AIBase推出GEO排名查询工具,帮助品牌监测在豆包、DeepSeek、文心一言等主流AI平台中的曝光情况。该工具支持多平台检测、关键词追踪、可视化数据展示,可精准分析品牌是否被推荐、出现频次及具体场景,为制定AI大模型排名优化策略提供数据支撑。在GEO时代,抢占AI回答推荐位意味着获得全新流量入口。

  • GEO排名查询工具完全指南:AI搜索时代的排名优化实战

    随着ChatGPT等AI搜索引擎崛起,传统SEO正经历革命性变革。GEO应运而生,成为内容创作者必备新技能。AI搜索直接生成答案而非链接列表,这意味着:内容需被AI引用才能获得曝光;排名机制重构,更看重内容权威性和相关性;需同时优化多个AI平台表现。专业GEO工具能批量监控多平台表现,追踪内容在AI中的引用情况,通过历史数据分析排名趋势,帮助制定有效优化策略。

  • GEO排名查询工具推荐:搞定GEO搜索优化,让品牌AI可见度更清晰

    随着AI平台成为用户获取信息的重要入口,品牌在AI推荐中的曝光度直接影响用户触达。文章提出GEO(生成引擎优化)概念,强调其相比传统SEO更关注AI平台的推荐权重。AIBase推出的GEO排名查询工具可帮助品牌方检测在主流AI平台(如豆包、DeepSeek等)的曝光情况,通过选择平台、输入测试问题及品牌关键词,快速获取推荐率、曝光次数等关键指标。该工具适用于品牌营销、SEO优化及研究机构,为提升AI场景品牌可见度提供数据支持。

今日大家都在搜的词: