首页 > 业界 > 关键词  > 微型语言模型最新资讯  > 正文

微软研究人员用儿童故事进行训练:微型语言模型进入成熟期

2023-10-09 15:58 · 稿源:站长之家

站长之家(ChinaZ.com) 10月9日消息:学习英语并不容易,许多学生都深有体会。但当学生是一台计算机时,有一种方法表现出奇地出色:只需将大量来自互联网的文本输入到一个名为神经网络的巨大数学模型中。

微软

这就是生成式大语言模型(如 OpenAI 的 ChatGPT)的工作原理,这些模型能够在各种主题上进行连贯(尽管不总是真实)的对话,令研究人员和公众在过去的一年中感到惊讶。

但这种方法也有其缺点。首先,将大量文本档案转化为最先进的语言模型所需的「训练」过程既昂贵又耗时。其次,即使是训练大型语言模型的人们也很难理解它们的内部工作原理;这反过来又使得难以预测它们可能出现的许多问题。

面对这些困难,一些研究人员选择对较小的数据集上的较小模型进行训练,然后研究它们的行为。布朗大学的语言模型研究员 Ellie Pavlick 表示:「这就像测序果蝇基因组与测序人类基因组一样。」

现在,在最近发布在科学预印本服务 arxiv.org 上的一篇论文中,两名微软研究人员介绍了一种训练微小语言模型的新方法:用儿童故事来训练它们。

机器学习研究人员已经接受了这一教训。驱动 ChatGPT 界面的大型语言模型 GPT-3.5 拥有近 2000 亿个参数,它是在包含数千亿个词汇的数据集上训练的。(OpenAI 尚未公布其继任者 GPT-4 的相应数据。)训练如此大型的模型通常需要至少 1000 个并行运行数周的专用处理器(称为 GPU)。只有少数公司能够调集必要的资源,更不用说训练和比较不同模型了。

这两名研究人员展示了,与今天的最先进系统相比,比这些系统小数千倍的语言模型在这种方式下能够迅速学会讲述一致和符合语法的故事。他们的研究结果暗示了可能有助于训练更大型模型并理解其行为的新研究方向。

举报

  • 相关推荐
  • 海尔冰箱唯一获批“制冷家电人工智能技术山东省工程研究中心”

    海尔冰箱在人工智能领域取得新突破,主导建设的"制冷家电人工智能技术山东省工程研究中心"成为2025年山东省工程研究中心认定名单中唯一入选的冰箱品牌。该中心聚焦人工智能、物联网、大数据等技术方向,开发了全空间智慧保鲜舱冰箱等140多项行业首创产品,近三年获授权发明专利803件。海尔冰箱还推出行业首款接入DeepSeek的AI全空间保鲜冰箱,具备方言识别、降噪技术等功能,显著提升用户体验。市场数据显示,2023年1-7月海尔冰箱以47%市场份额稳居行业第一。通过AI技术赋能,海尔冰箱正引领行业向精准、智能保鲜时代跨越。

  • ISC.AI 2025 人工智能安全治理与创新实践论坛圆满召开

    ISC.AI2025人工智能安全论坛在北京召开,聚焦AI安全治理与创新实践。论坛汇集顶尖专家,探讨大模型安全评估与防护、智能体安全、AI治理等前沿议题。360集团张向征指出,随着Agent技术爆发式应用,AI安全已成为产业核心焦点。专家们强调需构建AI安全防护体系,应对大模型直接访问核心系统带来的全新挑战。中国电子院彭健提出企业合规建设需关注九大要素,清华大学苏航揭示智能体安全风险远超传统AI。华为云范建军倡导端到端大模型安全防护,中国信通院杨哲超呼吁构建协同治理框架。论坛为构建安全、普惠、负责任的人工智能未来贡献智慧。

  • 下一个爆款在哪儿?2025英特尔人工智能创新应用大赛获奖名单揭晓

    8月16日,2025英特尔人工智能创新应用大赛总决赛在深圳落幕。40支优秀团队从2817支队伍中脱颖而出,围绕工业、教育、心理健康、游戏等领域展开对决。大赛展示了AI从云端走向边缘的趋势,依托酷睿Ultra处理器和低代码开发工具,推动AI应用本地化落地。获奖作品包括动力电池机器人协作拆卸系统和AI生成PPT服务,体现AI与产业需求的深度融合。英特尔与联想、惠普等合作伙伴共同为开发者提供全栈支持,加速AI技术普及和商业化进程。

  • Razer(雷蛇)在新加坡设立AI CENTER OF EXCELLENCE,加速人工智能投资布局

    雷蛇宣布在新加坡设立全球AI卓越中心,并计划在欧洲和美国建立类似机构,推动游戏与开发者工具领域的创新。新加坡中心将招聘150名AI工程师,专注于下一代AI游戏技术研发。雷蛇还推出AI工具套件,包括Game Co-AI和QA Co-AI,帮助开发者提升游戏质量和开发效率。该战略布局正值全球游戏市场快速增长期,预计2033年AI游戏市场规模将达280亿美元。新加坡数字产业发展局表示,此举将巩固该国作为区域AI创新中心的地位。

  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • AI日报:即梦上线智能多帧功能;可灵2.1首尾帧升级;钉钉推语音识别大模型Fun-ASR

    AI日报栏目汇总近期AI领域重要进展:腾讯元宝接入DeepSeek V3.1提升智能助手能力;即梦AI推出多帧功能简化视频制作;可灵AI首尾帧功能升级效果提升235%;钉钉与通义实验室联合发布Fun-ASR语音识别大模型;腾讯CodeBuddy IDE国内版公测;Vercel发布AI Gateway简化模型调用;Anthropic整合Claude Code强化企业开发;阿里发布Mobile-Agent-v3突破GUI自动化;Qoder平台革新编程模式;清华团队GUAVA框架实现0.1秒3D化身生成;谷歌搜索新增AI Agent功能;VAST推出Tripo 3.0推动3D内容创作。

  • AI最新资讯在哪里看?AIbase:高效获取国内外AI新闻头条与行业动态

    文章探讨了AI时代信息过载的困境:有价值的前沿动态、重磅模型发布和行业解读分散各处,筛选成本高、效率低下。AIbase资讯导航站应运而生,通过四大核心功能解决痛点:1)聚合主流信源,过滤低质噪音;2)结构化分类呈现大模型动态、行业应用等六大板块;3)提炼核心要点,拒绝标题党;4)高频更新确保信息鲜度。该平台致力于成为AI领域的"信息雷达",帮助用户节省70%信息搜集时间,将精力聚焦于思考与创造。适用于技术负责人快速掌握行业动态、产品经理调研案例、投资人捕捉趋势等多元场景。

  • 寒武纪智能芯片赋能多模态大模型应用

    大模型快速发展推动人工智能技术迈向新阶段,从解决特定任务的弱人工智能向处理通用复杂任务的强人工智能演进。IDC报告显示,2024年中国大模型开发平台市场规模达16.9亿元,人工智能算力市场约190亿美元,预计2025年将达259亿美元。寒武纪等企业专注AI芯片研发,推出多款处理器及加速卡产品,支持大模型训练推理及多模态任务,并与产业链合作共同推进人工智能产业发展。

  • 润和软件携丰富金融行业实践成果亮相2025世界人工智能大会

    润和软件在2025世界人工智能大会(WAIC2025)上展示了JettoAI+智能助手平台等系列智慧金融解决方案,包括测试智能助手、消保助手、研报助手等创新产品。作为金融科技领域领先企业,润和软件深耕AI与金融业务融合,已服务6大国有银行、12家股份制银行及超280家中小金融机构。报告显示中国金融科技市场预计将以13.3%复合增长率高速增长,2028年科技投入或突破6500亿元。润和软件�

  • 加佳科技亮相世界人工智能大会,参与浦东重点项目签约并发布创新技术成果

    2025世界人工智能大会(WAIC)7月26日在上海开幕。加佳智云的"曦源一号"项目入选浦东新区人工智能重点项目并签约合作协议。加佳科技首次发布"数字商务智能体训练场"创新技术平台,与多家企业达成战略合作。浦东新区人工智能产业规模超1600亿元,占全市40%。加佳科技通过"曦源一号"训练场基础底座平台,为行业提供"硬件+软件+产业解决方案"一体化服务,推动AI与产业深度融合。大会期间,加佳科技展示其核心成果"数字商务智能体训练场"平台,该平台依托国产替代算力,提供全生命周期开发运营服务,降低企业AI应用门槛。加佳科技还与多家企业达成合作,加速构建开放共生的AI产业生态。

今日大家都在搜的词: