首页 > 业界 > 关键词  > 小模型最新资讯  > 正文

Chinchilla之死:只要训练足够长时间,小模型也能超过大模型

2023-10-03 09:29 · 稿源: 机器之心公众号

2022年3月,DeepMind 一篇论文《Training Compute-Optimal Large Language Models》通过构建的 Chinchilla 模型得出了一个结论:大模型存在训练不足的缺陷,模型大小和训练 token 的数量应该以相等的比例扩展。也就是说模型越大,所使用的训练 token 也应该越多。但事实可能并非如此

......

本文由站长之家合作伙伴自媒体作者“机器之心公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • ChatGPT/GPT-4/Llama电车难题大PK!小模型道德感反而更高?

    微软对大语言模型的道德推理能力进行了测试,但在电车问题中大尺寸的模型表现反比小模型差。但最强大语言模型GPT-4的道德得分依旧是最高的。这与研究最初的假设:大型模型总是比小型模型具有更强的能力相反,说明利用这些较小的模型开发道德系统具有很大的潜力。

  • 超13万个大模型!微软增强ChatGPT等开源模型训练、推理能力

    著名AI模型开源平台HuggingFace上有超过320,000个大模型,并且每天保持高速增长。据统计只有大约6,000个模型支持ONNX格式,但微软表示,实际上有超过130,000个模型支持该格式。在HuggingFace开源平台上还有10万个模型不支持ONNX格式,鼓励更多的技术研究机构、开源项目加入到ONNX社区,以通过ONNXRuntime增强开发效率。

  • 中文LLaMA-2刷榜,开源可商用!千元预算,训练半天,效果媲美主流大模型

    最强中文版LLaMA-2来了!15小时训练,仅需数千元算力,性能碾压同级中文汉化模型,开源可商用。LLaMA-2相较于LLaMA-1,引入了更多且高质量的语料,实现了显著的性能提升,全面允许商用,进一步激发了开源社区的繁荣,拓展了大型模型的应用想象空间。ColossalAI云平台现已开启公测,注册即可获得代金券,欢迎参与并提出反馈。

  • To C大模型,亏钱也得干

    大模型的两条落地方向,虽南辕北辙但境遇相似。被寄予商业化落地厚望的是确定性较强的toB方向,只是目前看来还还击不穿成本的隔膜,定制化叙事背后的高人力、高资金成本阻碍业务向下普及,增量缓慢。刚刚彻底开放的大模型赛道迎来了智能助手这一赛点,其成熟与爆发很可能是新一轮的行业洗牌潮。

  • AI的大模型时代 ≠ 只有大模型的AI时代

    什么样的技术能经历时间洗礼还历久弥新?答案或许可以归总为一个“三部曲”般的规律——兴起、发展和大规模应用,外加这个过程再一次演进式的迭代。引领第一次工业革命的是蒸汽机,当它演进成为内燃机并开始普及时,第二次工业革命的颠覆者——电能本身以及与它相关的各种设备正处于初创期在电力设备走向微电子的迭代革新时,各种燃油引擎还在持续改良和普及中�

  • CMU华人打破大模型黑盒,Llama 2撒谎被一眼看穿!脑电波惨遭曝光,LLM矩阵全破解

    大语言模型黑盒,居然被CMU等机构的学者打破了?他们发现,LLM内部有可解释的表征,如果撒谎能被测谎仪检测出来!最近,来自CAIS、CMU、斯坦福、康奈尔、马里兰、宾大等机构的学者又有了令人震惊的发现——大语言模型,并不仅仅是黑匣子,或者难以理解的庞大矩阵。在它们内部,具有可解释的内部表征。CMU等机构研究者的探索也告诉我们,人类对于AI系统的理解和控制会越

  • 百度发布医疗大模型“灵医大模型

    9月19日,百度正式发布国内首个“产业级”医疗大模型——灵医大模型。百度正式宣布面向大健康上下游产业开放灵医大模型测评、试用,推动医疗行业的数字化和智能化进程。在辅助诊疗方面,灵医大模型可实现通过多轮对话了解病人病情,实时辅助医生确诊疾病,推荐治疗方案,提升就诊全流程的效率和体验,并成为患者的24小时“健康管家”,提供智能客服服务。

  • 周鸿祎:大模型自身不是壁垒,挑战在于垂直大模型深度定制

    “‘360智脑’在部分场景的表现已接近国际先进水平”,9月17日,由南京市人民政府、中国信息通信研究院联合主办,南京经济技术开发区管委会、中国人工智能产业发展联盟共同承办的2023南京人工智能产业发展大会将在宁召开。三六零集团创始人周鸿祎以“垂直大模型引领新工业革命”为题发表主题演讲。在解决大模型安全,将大模型关进笼子之前,这只是人类美好的愿望是要让人保持在决策回路上。

  • 大模型时代下的技术变革:训练、负载、部署、效率、安全……都遇到了新挑战?

    随着互联网的快速发展,AI大模型算的上是当前行业里最“炽手可热”的技术,大模型是AI领域的重要发展趋势。大模型需要大量的数据和计算资源,同时也需要强大的应用场景支持,对各行各业都有深远的影响,各厂商开始了“千模大战”。正如戴金权所说的那样,“英特尔一直坚持开源开放,无论是从客户侧的产业界合作是从学术界的高校合作,英特尔都在持续推动,相信�

  • 百川智能发布闭源大模型Baichuan2-53B 并开放API

    百川智能发布了闭源大模型Baichuan2-53B,该模型全面升级了Baichuan1-53B的各项能力。Baichuan2-53B在数学和逻辑推理能力上表现出显著的提升,并且通过高质量数据体系和搜索增强的方法极大降低了模型幻觉,是目前国内幻觉问题最低的大模型。企业和开发者可以通过API将Baichuan2-53B集成到他们的应用程序和服务中。