邢波团队提出全开源倡议LLM360 让大模型实现真正的透明

2023-12-13 15:58 · 稿源：站长之家

要点:
LLM360是邢波团队提出的全方位开源倡议，旨在使大型语言模型的训练过程真正透明，包括训练数据、代码、模型检查点和性能指标等全方位开放。
LLM360的框架包括训练数据集与处理代码、训练代码与配置、模型检查点以及性能指标，提供了标准以确保更好地在社区中流通与共享，推动人工智能领域的开放合作研究。
研究者通过LLM360框架发布了两个大型语言模型:AMBER和CRYSTALCODER，详细揭示了它们的开发细节、评估结果以及对于LLM研究的经验和教训。AMBER在性能上相对较强，CRYSTALCODER在语言和代码任务之间取得平衡。

站长之家（ChinaZ.com）12月13日消息:开源模型在人工智能领域展现强大活力，但闭源策略限制了LLM（大型语言模型）的发展。邢波团队提出的LLM360全面开源倡议旨在解决这一问题。该框架明确了包括训练数据、代码、模型检查点和性能指标在内的各方面细节，为当前和未来的开源模型树立了透明度的样本。

论文地址:https://arxiv.org/pdf/2312.06550.pdf

项目网页:https://www.llm360.ai/

博客:https://www.llm360.ai/blog/introducing-llm360-fully-transparent-open-source-llms.html

LLM360的核心组成部分包括训练数据集、训练代码与配置、模型检查点以及性能指标。这一全方位的开源使得研究者可以更好地在社区中分享与流通，推动人工智能领域的开放合作研究。同时，LLM360框架下发布的AMBER和CRYSTALCODER是两个从头开始预训练的大型语言模型，为研究者提供了开发经验和性能评估结果。

AMBER是基于1.3T token进行预训练的7B英语语言模型，性能相对较强。而CRYSTALCODER是基于1.4T token训练的7B语言模型，在语言和代码任务之间取得了很好的平衡。这两个模型的开源不仅提供了性能评估结果，还为整个LLM领域的研究提供了实质性的经验和教训。

总体而言，LLM360的提出为大型语言模型的透明训练提供了一个标准，推动了开源模型的发展，加速了人工智能领域的进步。这一全面开源的趋势有望促进更多研究者的参与与合作，推动人工智能技术的不断创新。

（举报）

相关推荐

关键词：

LLM360

360荣膺“杰出生态伙伴奖”，与华为共建数字安全新范式

360漏洞研究院凭借全链路漏洞攻防技术优势，荣获2024年度华为终端安全杰出生态伙伴奖，彰显其在全球数字安全领域的标杆地位。作为华为终端安全生态战略技术伙伴，360通过"AI+安全"双轮驱动构建深度协同模式，双方共建AI赋能的漏洞挖掘、威胁研判和应急响应闭环机制，显著提升高危漏洞挖掘效率和应急响应准确率。自2018年起，360已连续多年获得华为安全奖项，并持续刷新国际安全领域纪录，包括十余次登上BlackHat全球顶级安全峰会发布前沿研究成果，多次获得微软MSRC、天府杯等国际奖项。360将持续深化与产业龙头企业的技术协同，加速构建自主可控的数字安全新生态。

数字安全漏洞研究 AI安全
有道14B低成本轻量模型“子曰3”开源，数学推理性能超越大模型

网易有道6月23日开源国内首个专注数学教育的"子诳3"大模型系列数学模型(Confucius3-Math)。该模型在单块消费级GPU上高效运行，在多项数学推理任务中性能超越更大规模的通用模型，高考数学题测试得分达98.5分。其训练成本仅2.6万美元，推理性能是DeepSeek+R1的15倍，服务成本低至每百万token0.15美元，大幅降低教育AI应用门槛。该开源模型为教育公平提供低成本、高性能的AI�

子曰3 开源大模型数学教育
重磅！360与北交大强强联手，共筑网安人才培养新高地

360集团与北京交通大学达成战略合作，将共建产学研一体化实践基地和创新中心。双方将发挥各自在智能交通数据安全、AI安全等领域优势，联合开发模块化课程体系，培养实战型网络安全人才。目前已合作培养超百名专业人才，其中50余名北交大毕业生加入360。未来将聚焦安全大模型应用、智能交通数据防护等技术攻关，加速科研成果转化，打造数字安全人才培养标杆，为国家网络安全事业提供核心支撑。

360数字安全北京交通大学智能交通数据安全
360携手广州软件学院共建网安产业学院，打造产教融合新范式

6月12日，360与广州软件学院合作成立网络安全产业学院，这是360在全国首个校企合作办学模式的产业学院。双方将以"合作办学、合作育人、合作就业、合作发展"为原则，构建产学研深度融合的协同育人新模式。学院计划2025年启动"360数智安全创新实验班"，重点培养适应数字化与智能化产业需求的应用型网络安全人才。广东省计算机信息网络安全协会表示，该学院将填补行业人才需求与高校培养之间的鸿沟。360将依托下设的人才培养中心、数智安全运营中心等机构，重点培养网络安全运维、攻防测试、安全智能体开发三类核心人才。双方将通过打造示范性师资团队、共建课程体系等方式，培养具有国际视野的网络安全精英，为数字中国建设提供人才支撑。

网络安全合作办学数字安全
360智慧商业行业三部客户私享会:安全底座+AI赋能+PC生态,驱动增长新飞轮

6月25日，360智慧商业举办"AI领航破界增长"行业三部客户私享会，聚焦网络服务、商务服务、生活服务三大行业。360集团副总裁黄剑指出，AI大模型应用正在重塑各行业，360已推出"超级搜索智能体"等创新产品，通过纳米AI融合技术打造新一代智能交互体验。在安全领域，360以安全大模型为各行业提供数字安全解决方案。PC生态方面，360软件管家构建"三环流量矩阵"，覆盖4.7亿月活用户，2024-2025年将推动AI应用收入增长130%。360还发力构建PC小程序生态，现已成为第二大PC端流量平台。通过AI赋能营销场景，360实现流量价值跃升，预计2025年AI应用收入同比增长130%。360安全云以"省快轻准灵"服务模式，助力企业数字化转型，安全投入成本仅为传统的10%。

AI技术行业增长 360智慧商业
男生用一年时间从360分提高到543分招飞通过后提升近200分

6月25日，山东淄博一名高考生通过社交平台分享复读经历，称自己从去年的360分提升至今年的543分，总分涨幅达183分。 26日，当事人张同学回忆，去年高考失利后，他于距离高考约200天时报名空军招飞并顺利通过初审，这一契机让他明确了奋斗目标，决心全力冲刺。为弥补知识短板，张同学制定了严格的学习计划:每天清晨六点抵达学校，晚间十点才返回家中，周末则穿插�

高考复读学习计划成绩提升
破解高密散热难题，维谛技术（Vertiv） 360AI混合制冷方案重塑AI时代热管理

文章主要探讨AI大模型训练带来的高温危机及解决方案。随着GPU集群全功率运转，数据中心面临前所未有的散热挑战，单机柜功率密度突破10kW，传统散热手段力不从心。维谛技术(Vertiv)提出"360AI高效混合制冷方案"，整合风冷、液冷和自然冷却三种方式，构建全链路温控体系。方案覆盖从服务器到户外的不同场景需求，包括风液混合型、液液CP组合等多元方案，能精准应对10-130kW不同功率密度需求。同时，维谛推出业界首创风液氟泵一体机，支持快速部署，并创新研发适配AI的自然冷高温冷机，单框架制冷能力近3MW。该方案兼顾算力需求与节能政策要求，为智算时代构建更可靠的温控底座。

高温危机 AI大模型训练混合制冷解决方案
荐「6月30日AI日报」百度开源文心大模型4.5系列；通义千问发布多模态生成模型Qwen VLo

AI日报精选：1)百度开源文心大模型4.5系列，含10款新模型，性能优异；2)通义千问发布多模态模型Qwen-VL，支持图文交互；3)阿里开源3亿参数多模态模型Ovis-U1；4)华为开源盘古7B稠密和72B混合专家模型；5)美图MOKI推出AI创意广告功能，一键生成专业视频；6)谷歌Gemini 2.5 Pro API重新免费开放；7)豆瓣上线"深入研究"AI功能；8)小米"AI百宝箱"结束内测；9)北京智研院开源多模态系统OmniGen2；10)知乎升级"直答"知识库功能。

AI日报文心大模型开源模型
国内有哪些ai大模型？一文看懂中国核心AI大模型全景

近两年中国AI大模型发展迅猛，已形成"通用+行业"双轨并进的生态格局。百度文心一言、阿里通义千问等通用大模型在中文理解、多模态生成等方面表现突出；深度求索DeepSeek以1/10参数实现GPT-4级推理能力；月之暗面Kimi以20万汉字上下文窗口领跑长文本处理；智谱AI的GLM-4成为首个支持视频对话的国产千亿模型。医疗、金融等垂直领域涌现出百川智能等专业模型，覆盖超1000家医院。开源生态加速国产芯片适配，15家厂商完成深度优化。行业应用方面，工程文档效率提升60%，24小时拟人化客服等案例凸显价值。未来趋势呈现模型蒸馏、端侧部署和开源生态三大方向，中国AI正从实验室走向产业变革前沿。

AI大模型中国AI发展文心一言
主流AI多模态大模型有哪些？超全的多模态大模型指南分享

2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据，实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型，对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。

多模态大模型 AI技术发展 GPT-4V

热文

3 天
7天

邢波团队提出全开源倡议LLM360 让大模型实现真正的透明

360荣膺“杰出生态伙伴奖”，与华为共建数字安全新范式

有道14B低成本轻量模型“子曰3”开源，数学推理性能超越大模型

重磅！360与北交大强强联手，共筑网安人才培养新高地

360携手广州软件学院共建网安产业学院，打造产教融合新范式

360智慧商业行业三部客户私享会:安全底座+AI赋能+PC生态,驱动增长新飞轮

男生用一年时间从360分提高到543分招飞通过后提升近200分

破解高密散热难题，维谛技术（Vertiv） 360AI混合制冷方案重塑AI时代热管理

荐「6月30日AI日报」百度开源文心大模型4.5系列；通义千问发布多模态生成模型Qwen VLo

国内有哪些ai大模型？一文看懂中国核心AI大模型全景

主流AI多模态大模型有哪些？超全的多模态大模型指南分享

热文

罗马仕深夜正式发布停工停产通知：宣布停工停产半年

淘宝闪购日订单突破8000万日活超2亿

王化辟谣小米与徕卡终止合作：无聊还是胡说

华为Mate X5折叠屏降价：8999元起至高优惠4000元

微信：聊天记录备份和迁移已支持外部存储设备可自动备份

罗马仕深夜正式发布停工停产通知：宣布停工停产半年

淘宝闪购日订单突破8000万日活超2亿

罗马仕辟谣倒闭称定将努力解决一切问题

王化辟谣小米与徕卡终止合作：无聊还是胡说

站长商机