首页 > 业界 > 关键词  > LLM360最新资讯  > 正文

邢波团队提出全开源倡议LLM360 让大模型实现真正的透明

2023-12-13 15:58 · 稿源:站长之家

要点:

  • LLM360是邢波团队提出的全方位开源倡议,旨在使大型语言模型的训练过程真正透明,包括训练数据、代码、模型检查点和性能指标等全方位开放。

  • LLM360的框架包括训练数据集与处理代码、训练代码与配置、模型检查点以及性能指标,提供了标准以确保更好地在社区中流通与共享,推动人工智能领域的开放合作研究。

  • 研究者通过LLM360框架发布了两个大型语言模型:AMBER和CRYSTALCODER,详细揭示了它们的开发细节、评估结果以及对于LLM研究的经验和教训。AMBER在性能上相对较强,CRYSTALCODER在语言和代码任务之间取得平衡。

站长之家(ChinaZ.com)12月13日 消息:开源模型在人工智能领域展现强大活力,但闭源策略限制了LLM(大型语言模型)的发展。邢波团队提出的LLM360全面开源倡议旨在解决这一问题。该框架明确了包括训练数据、代码、模型检查点和性能指标在内的各方面细节,为当前和未来的开源模型树立了透明度的样本。

image.png

论文地址:https://arxiv.org/pdf/2312.06550.pdf

项目网页:https://www.llm360.ai/

博客:https://www.llm360.ai/blog/introducing-llm360-fully-transparent-open-source-llms.html

LLM360的核心组成部分包括训练数据集、训练代码与配置、模型检查点以及性能指标。这一全方位的开源使得研究者可以更好地在社区中分享与流通,推动人工智能领域的开放合作研究。同时,LLM360框架下发布的AMBER和CRYSTALCODER是两个从头开始预训练的大型语言模型,为研究者提供了开发经验和性能评估结果。

AMBER是基于1.3T token进行预训练的7B英语语言模型,性能相对较强。而CRYSTALCODER是基于1.4T token训练的7B语言模型,在语言和代码任务之间取得了很好的平衡。这两个模型的开源不仅提供了性能评估结果,还为整个LLM领域的研究提供了实质性的经验和教训。

总体而言,LLM360的提出为大型语言模型的透明训练提供了一个标准,推动了开源模型的发展,加速了人工智能领域的进步。这一全面开源的趋势有望促进更多研究者的参与与合作,推动人工智能技术的不断创新。

举报

  • 相关推荐
  • 360荣膺“杰出生态伙伴奖”,与华为共建数字安全新范式

    360漏洞研究院凭借全链路漏洞攻防技术优势,荣获2024年度华为终端安全杰出生态伙伴奖,彰显其在全球数字安全领域的标杆地位。作为华为终端安全生态战略技术伙伴,360通过"AI+安全"双轮驱动构建深度协同模式,双方共建AI赋能的漏洞挖掘、威胁研判和应急响应闭环机制,显著提升高危漏洞挖掘效率和应急响应准确率。自2018年起,360已连续多年获得华为安全奖项,并持续刷新国际安全领域纪录,包括十余次登上BlackHat全球顶级安全峰会发布前沿研究成果,多次获得微软MSRC、天府杯等国际奖项。360将持续深化与产业龙头企业的技术协同,加速构建自主可控的数字安全新生态。

  • 有道14B低成本轻量模型“子曰3”开源,数学推理性能超越大模型

    网易有道6月23日开源国内首个专注数学教育的"子诳3"大模型系列数学模型(Confucius3-Math)。该模型在单块消费级GPU上高效运行,在多项数学推理任务中性能超越更大规模的通用模型,高考数学题测试得分达98.5分。其训练成本仅2.6万美元,推理性能是DeepSeek+R1的15倍,服务成本低至每百万token0.15美元,大幅降低教育AI应用门槛。该开源模型为教育公平提供低成本、高性能的AI�

  • 重磅!360与北交大强强联手,共筑网安人才培养新高地

    360集团与北京交通大学达成战略合作,将共建产学研一体化实践基地和创新中心。双方将发挥各自在智能交通数据安全、AI安全等领域优势,联合开发模块化课程体系,培养实战型网络安全人才。目前已合作培养超百名专业人才,其中50余名北交大毕业生加入360。未来将聚焦安全大模型应用、智能交通数据防护等技术攻关,加速科研成果转化,打造数字安全人才培养标杆,为国家网络安全事业提供核心支撑。

  • 360携手广州软件学院共建网安产业学院,打造产教融合新范式

    6月12日,360与广州软件学院合作成立网络安全产业学院,这是360在全国首个校企合作办学模式的产业学院。双方将以"合作办学、合作育人、合作就业、合作发展"为原则,构建产学研深度融合的协同育人新模式。学院计划2025年启动"360数智安全创新实验班",重点培养适应数字化与智能化产业需求的应用型网络安全人才。广东省计算机信息网络安全协会表示,该学院将填补行业人才需求与高校培养之间的鸿沟。360将依托下设的人才培养中心、数智安全运营中心等机构,重点培养网络安全运维、攻防测试、安全智能体开发三类核心人才。双方将通过打造示范性师资团队、共建课程体系等方式,培养具有国际视野的网络安全精英,为数字中国建设提供人才支撑。

  • 360智慧商业行业三部客户私享会:安全底座+AI赋能+PC生态,驱动增长新飞轮

    6月25日,360智慧商业举办"AI领航 破界增长"行业三部客户私享会,聚焦网络服务、商务服务、生活服务三大行业。360集团副总裁黄剑指出,AI大模型应用正在重塑各行业,360已推出"超级搜索智能体"等创新产品,通过纳米AI融合技术打造新一代智能交互体验。在安全领域,360以安全大模型为各行业提供数字安全解决方案。PC生态方面,360软件管家构建"三环流量矩阵",覆盖4.7亿月活用户,2024-2025年将推动AI应用收入增长130%。360还发力构建PC小程序生态,现已成为第二大PC端流量平台。通过AI赋能营销场景,360实现流量价值跃升,预计2025年AI应用收入同比增长130%。360安全云以"省快轻准灵"服务模式,助力企业数字化转型,安全投入成本仅为传统的10%。

  • 男生用一年时间从360分提高到543分 招飞通过后提升近200分

    ​6月25日,山东淄博一名高考生通过社交平台分享复读经历,称自己从去年的360分提升至今年的543分,总分涨幅达183分。 26日,当事人张同学回忆,去年高考失利后,他于距离高考约200天时报名空军招飞并顺利通过初审,这一契机让他明确了奋斗目标,决心全力冲刺。 为弥补知识短板,张同学制定了严格的学习计划:每天清晨六点抵达学校,晚间十点才返回家中,周末则穿插�

  • 破解高密散热难题, 维谛技术(Vertiv) 360AI混合制冷方案重塑AI时代热管理

    文章主要探讨AI大模型训练带来的高温危机及解决方案。随着GPU集群全功率运转,数据中心面临前所未有的散热挑战,单机柜功率密度突破10kW,传统散热手段力不从心。维谛技术(Vertiv)提出"360AI高效混合制冷方案",整合风冷、液冷和自然冷却三种方式,构建全链路温控体系。方案覆盖从服务器到户外的不同场景需求,包括风液混合型、液液CP组合等多元方案,能精准应对10-130kW不同功率密度需求。同时,维谛推出业界首创风液氟泵一体机,支持快速部署,并创新研发适配AI的自然冷高温冷机,单框架制冷能力近3MW。该方案兼顾算力需求与节能政策要求,为智算时代构建更可靠的温控底座。

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。

  • 国内有哪些ai大模型?一文看懂中国核心AI大模型全景

    近两年中国AI大模型发展迅猛,已形成"通用+行业"双轨并进的生态格局。百度文心一言、阿里通义千问等通用大模型在中文理解、多模态生成等方面表现突出;深度求索DeepSeek以1/10参数实现GPT-4级推理能力;月之暗面Kimi以20万汉字上下文窗口领跑长文本处理;智谱AI的GLM-4成为首个支持视频对话的国产千亿模型。医疗、金融等垂直领域涌现出百川智能等专业模型,覆盖超1000家医院。开源生态加速国产芯片适配,15家厂商完成深度优化。行业应用方面,工程文档效率提升60%,24小时拟人化客服等案例凸显价值。未来趋势呈现模型蒸馏、端侧部署和开源生态三大方向,中国AI正从实验室走向产业变革前沿。

  • 主流AI多模态大模型有哪些?超全的多模态大模型指南分享

    2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据,实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型,对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。