首页 > 业界 > 关键词  > LLM360最新资讯  > 正文

LLM360: 首个完全开源和透明的大语言模型

2023-12-14 11:48 · 稿源:站长之家

**划重点:**

1. 🌐 开源LLMs(如LLaMA、Falcon和Mistral)选择性公开了组件,而LLM360计划通过完全开源训练过程,支持AI研究的透明性和可重复性。

2. 🚀 LLM360发布两个7B参数的LLMs,AMBER和CRYSTALCODER,附带训练代码、数据、中间检查点和分析,旨在推动开源LLMs的全面透明。

3. 📈 研究在四个数据集上展示了AMBER模型在预训练期间的性能,强调对LLMs进行全方位开源,包括释放检查点、数据块和评估结果,以实现全面分析和可重复性。

站长之家(ChinaZ.com)12月14日 消息:在众多开源的大型语言模型(LLMs)中,如LLaMA、Falcon和Mistral等,大多数仅公开了特定组件,如最终模型权重或推理脚本。技术文档通常集中在更广泛的设计方面和基本指标上,限制了该领域的进展,因为训练方法的清晰度不足,导致团队不断努力揭示训练过程的众多方面。

image.png

为支持开放和协作的AI研究,来自Petuum、MBZUAI、USC、CMU、UIUC和UCSD的研究人员推出了LLM360。这一倡议旨在通过使端到端LLM训练过程对每个人都透明且可重现,全面开源LLMs。LLM360的目标是让所有训练代码和数据、模型检查点以及中间结果都能为社区所用。

与LLM360最接近的项目是Pythia,也旨在实现LLMs的完全可重复性。EleutherAI模型,如GPT-J和GPT-NeoX,已发布了训练代码、数据集和中间模型检查点,展示了开源训练代码的价值。INCITE、MPT和OpenLLaMA发布了训练代码和训练数据集,RedPajama也发布了中间模型检查点。

LLM360发布了两个7B参数的LLMs,分别是AMBER和CRYSTALCODER,连同它们的训练代码、数据、中间检查点和分析。研究回顾了预训练数据集的详细信息,包括数据预处理、格式、数据混合比例以及LLM模型的架构细节。

研究提到了在先前工作中引入的记忆得分,并发布了研究人员易于找到其对应物的度量、数据块和检查点。该研究还强调了消除LLMs预先训练的数据的重要性,以及有关数据过滤、处理和训练顺序的详细信息,以评估LLMs的风险。

image.png

研究在四个数据集(ARC、HellaSwag、MMLU和TruthfulQA)上展示了模型在预训练期间的性能。HellaSwag和ARC的评估分数在预训练期间单调增加,而TruthfulQA的分数下降。MMLU的分数最初下降,然后开始增长。相对于ARC,AMBER的性能在诸如MMLU之类的分数上相对竞争,但在ARC方面稍逊色。微调的AMBER模型在性能上表现强于其他类似模型。

LLM360是一个推动开源LLMs全面透明的倡议。该研究发布了两个7B LLMs,AMBER和CRYSTALCODER,连同它们的训练代码、数据、中间模型检查点和分析。该研究强调了从各个角度开源LLMs的重要性,包括释放检查点、数据块和评估结果,以实现全面分析和可重复性。阅读论文以获取更多信息,对这项研究的所有贡献归功于该项目的研究人员。如果您喜欢他们的工作,不要忘记加入ML SubReddit、Facebook社群、Discord频道和电子邮件通讯,以获取最新的AI研究新闻和有趣的AI项目。

论文网址:https://arxiv.org/abs/2312.06550

项目网址:https://t.co/ZcLPtYQhdQ

举报

  • 相关推荐
  • 苹果自研AI模型难产:改用第三方大语言模型

    苹果可能会跟OpenAI或Anthropic合作,双方正在谈判讨论一项潜在交易,苹果希望调用OpenAI或Anthropic的第三方大语言模型来为Siri提供技术支持。 据悉,OpenAI或Anthropic正在训练适配苹果私有云计算服务器的模型,苹果也在进行测试,目前苹果发现Anthropic的AI模型最适合Siri,且与Anthropic初步讨论了一些财务条款,消息称Anthropic要求苹果每年支付数十亿美元的费用,且该费用会随时间�

  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • 破局新质人才培育!360与毕节职院共筑贵州产业升级人才基座

    7月10日,360数字安全集团与毕节职业技术学院签署战略合作协议,共建"毕节职业-360数智安全产业学院"。双方将聚焦新一代信息技术产业,重点培养人工智能与数字安全领域的高素质专业人才,助力贵州数字经济发展。合作内容包括共建实训中心、工程中心、科研创新研究院及ISC平台,形成"三中心一平台"体系,通过产教融合模式培养"精技术、善实战、勇担当"的复合型人才。360将输出安全领域核心成果与行业经验,毕节职院将优化专业设置,双方共同打造"教育链-人才链-产业链"深度融合示范案例,为西部数字经济发展探索新路径。

  • 国内首个!高德地图正式上线多语言地图:新增14种语言

    日前,高德地图正式上线多语言地图,在原有的中英文基础上,新增多达14种语言。 这14种语言包括西班牙语、葡萄牙语、法语、德语、泰语、日语、韩语、土耳其语、意大利语、俄语、阿拉伯语、马来语、印尼语、越南语。 此次多语言版的推出,使更多非英语国家的用户也能享受高德地图提供的优质出行服务。 高德地图多语言版实现了产品界面与地理信息的多语种适配,�

  • 英伟达Blackwell Ultra芯片商用落地,微美全息以“算力+开源”领航AI科技新程

    英伟达与CoreWeave合作推出新一代AI芯片Blackwell Ultra,该芯片已实现商业部署,采用液冷技术,包含72个GPU和36个CPU。Blackwell Ultra的AI内容生成能力是前代产品的50倍,预计今年批量出货。英伟达凭借高性能AI芯片近乎垄断市场,年利润超5000亿元,市值逼近4万亿美元,有望成为全球市值最高公司。微软推迟自研AI芯片发布,转向过渡性设计方案。微美全息专注AI芯片技术布局,构建多元化技术生态,推动产业协同,成为全球AI芯片竞赛重要参与者。当前AI产业进入大规模商业化关键阶段,算力需求持续高涨,推动企业向算力数智化迁移。消费电子领域,AI赋能传统智能终端,新型智能硬件结合AI创造增量需求,关注算力产业链技术创新配套机遇。

  • 360荣膺“杰出生态伙伴奖”,与华为共建数字安全新范式

    360漏洞研究院凭借全链路漏洞攻防技术优势,荣获2024年度华为终端安全杰出生态伙伴奖,彰显其在全球数字安全领域的标杆地位。作为华为终端安全生态战略技术伙伴,360通过"AI+安全"双轮驱动构建深度协同模式,双方共建AI赋能的漏洞挖掘、威胁研判和应急响应闭环机制,显著提升高危漏洞挖掘效率和应急响应准确率。自2018年起,360已连续多年获得华为安全奖项,并持续刷新国际安全领域纪录,包括十余次登上BlackHat全球顶级安全峰会发布前沿研究成果,多次获得微软MSRC、天府杯等国际奖项。360将持续深化与产业龙头企业的技术协同,加速构建自主可控的数字安全新生态。

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。

  • 重磅!360与北交大强强联手,共筑网安人才培养新高地

    360集团与北京交通大学达成战略合作,将共建产学研一体化实践基地和创新中心。双方将发挥各自在智能交通数据安全、AI安全等领域优势,联合开发模块化课程体系,培养实战型网络安全人才。目前已合作培养超百名专业人才,其中50余名北交大毕业生加入360。未来将聚焦安全大模型应用、智能交通数据防护等技术攻关,加速科研成果转化,打造数字安全人才培养标杆,为国家网络安全事业提供核心支撑。

  • 360智慧商业行业三部客户私享会:安全底座+AI赋能+PC生态,驱动增长新飞轮

    6月25日,360智慧商业举办"AI领航 破界增长"行业三部客户私享会,聚焦网络服务、商务服务、生活服务三大行业。360集团副总裁黄剑指出,AI大模型应用正在重塑各行业,360已推出"超级搜索智能体"等创新产品,通过纳米AI融合技术打造新一代智能交互体验。在安全领域,360以安全大模型为各行业提供数字安全解决方案。PC生态方面,360软件管家构建"三环流量矩阵",覆盖4.7亿月活用户,2024-2025年将推动AI应用收入增长130%。360还发力构建PC小程序生态,现已成为第二大PC端流量平台。通过AI赋能营销场景,360实现流量价值跃升,预计2025年AI应用收入同比增长130%。360安全云以"省快轻准灵"服务模式,助力企业数字化转型,安全投入成本仅为传统的10%。

  • AI日报:xAI 震撼发布Grok4;微软开源全新Phi-4-mini版本;上海累计82款大模型通过备案

    AI日报栏目聚焦人工智能领域最新动态:1)xAI发布旗舰模型Grok4,在数学推理和代码生成表现突出,同时推出开发者专用Grok4Code;2)微软开源Phi-4-mini模型,推理效率提升10倍,适合边缘设备;3)上海82款大模型完成备案,垂直领域应用取得突破;4)Hugging Face推出开源桌面机器人Reachy Mini,支持Python编程;5)Perplexity发布AI浏览器Comet挑战Chrome;6)OpenAI将首次发布开放权重模型,打破闭源惯例;7)谷歌医疗AI模型MedGemma系列上新,单个GPU即可运行;8)OpenAI以约65亿美元收购AI硬件公司io Products,正式进军硬件市场。