预训练大模型

近几个月来，大型语言模型在人工智能社区中引起了极大的关注和流行。这些模型在文本摘要、问答、代码完成、内容生成等任务中展示出了强大的能力。考虑到低质量网络数据的丰富性和经典LLM训练方法的资源密集性，这种方法提供了一种可能的前进方式。...

特别声明：本页面标签名称与页面内容，系网站系统为资讯内容分类自动生成，仅提供资讯内容索引使用，旨在方便用户索引相关资讯报道。如标签名称涉及商标信息，请访问商标品牌官方了解详情，请勿以本站标签页面内容为参考信息，本站与可能出现的商标名称信息不存在任何关联关系，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述反馈文件后，将会依法依规核实信息，第一时间沟通删除相关内容或断开相关链接。

与“预训练大模型”的相关热搜词：

相关“预训练大模型” 的资讯103篇

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
苹果研究团队揭示WRAP技术：用合成数据进行预训练大模型成本低准确性高

近几个月来，大型语言模型在人工智能社区中引起了极大的关注和流行。这些模型在文本摘要、问答、代码完成、内容生成等任务中展示出了强大的能力。考虑到低质量网络数据的丰富性和经典LLM训练方法的资源密集性，这种方法提供了一种可能的前进方式。

WRAP 大模型 AI头条
全国首个DNA存储领域预训练大模型“ChatDNA”发布

5月21日，2023祥符创新论坛转化医学产业高峰论坛在浙江嘉善举办。上海人工智能研究院、祥符实验室、转化医学国家科学中心联合重磅发布全国首个DNA存储领域预训练大模型“ChatDNA”。会上还围绕精准医学及生命科学前沿热点问题，诊断技术、基因测序、DNA存储、医学人工智能、生物材料及药物研发等前沿领域的最新进展，共同探讨当前转化医学产业的发展现状，分析热点和难点，分享实践经验和创新思路，推动医学产业的健康发展。

转化医学 DNA存储医学人工智能
中国电信天翼云将发布预训练大模型已进入内部测试阶段

天翼云科技有限公司在2023云生态大会上表示，天翼云正在自主研发预训练大模型，目前已经进入内部测试阶段，将在近期适当的时候发布。天翼云科技有限公司，是中国电信子公司。天翼云是中国电信旗下云计算品牌，2016年，天翼云发布天翼云3.0。

天翼云科技云计算品牌预训练大模型
谷歌AI研究提出 SpatialVLM：一种数据合成和预训练机制，以增强视觉语言模型 VLM 空间推理能力

谷歌AI研究团队最近提出了SpatialVLM，这是一种旨在增强视觉语言模型空间推理能力的创新系统。尽管先进的模型如GPT-4V在人工智能驱动任务中取得了显著进展，但它们在空间推理方面仍存在显著局限。-SpatialVLM的开发标志着人工智能技术的重大进步。

SpatialVLM 视觉语言模型 AI头条
智源研究院推出1bit自然语言理解预训练模型BiPFT

智源研究院提出了首个用于自然语言理解任务的1bit轻量化预训练模型BiPFT。与传统的FP32模型相比，BiPFT模型在推理阶段显著减少了操作数量和内存使用。该模型在不同超参数设定下都能取得更好的效果，具有较好的独立学习能力和超参数鲁棒性。
通义千问72B模型登顶Hugging Face开源大模型预训练模型榜首

开源大模型社区HuggingFace公布了最新的开源大模型排行榜，通义千问在预训练模型类别中脱颖出，占据榜首位置。HuggingFace开源大模型排行榜涵盖了全球上百个顶尖的开源大模型，并从阅读理解、逻辑推理、数学计算、事实问答等六个维度进行了全面评估。阿里云开源通义千问720亿参数模型。
谨防大模型基准评估陷阱！测试集乱入预训练，模型变傻

最新研究警告，大型模型在基准评估中可能面临潜在危害，原因是测试集中的数据可能意外进入预训练过程。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄巴纳-香槟分校的学者联合进行。对于未来的研究，需要进一步探讨不同程度的数据泄露对模型性能的影响，并在预训练中引入数据泄露进行更深入的模拟测试。

大模型
ULTRA：知识图谱推理的预训练基础模型

ULTRA是一个旨在推理知识图谱的预训练基础模型。ULTRA的关键创新在于它能够学习通用和可迁移的图表示无需依赖文本信息。ULTRA的通用性和可迁移性使其成为归纳和可迁移的知识图谱推理的有望选择，对于各种不同关系结构的新KGs都能表现出色。

模型
戴尔发布生成式AI工具提供预训练模型

科技公司戴尔发布了一款名为“DellValidatedDesignforGenerativeAIwithNVIDIAforModelCustomization”的生成式人工智能工具，旨在帮助企业从数据中提取智能。这一工具的特点在于提供了预训练的模型，用户无需从头开始构建模型，即可快速提取数据中的智能信息。生成式AI模型的定制和微调可以帮助企业更好地利用其数据资源，实现更高效的工作流程和更准确的决策。

戴尔 AI工具
LLM-Shearing大模型剪枝法：用5%的成本拿下SOTA，比从头开始预训练更划算

陈丹琦团队近期发布了一项重要的研究成果，他们开发了一种名为LLM-Shearing的大模型剪枝法。这项技术允许将庞大的预训练模型剪枝至仅需3%的计算量和5%的成本，同时保持着SOTA水平的性能。这有望在大规模深度学习模型的研究和应用中产生广泛的影响。

大模型
新型AI超分辨率方法StableSR 利用预训练扩散模型提高图像保真度

StableSR是一种创新性的AI方法，旨在通过利用预训练扩散模型的威力来增强超分辨率任务。传统的SR方法通常需要大量的计算资源来从头开始训练扩散模型，这可能会损害它们的生成先验知识。通过利用预训练的扩散模型并结合创新技术，如时间感知编码器、可控特征包装模块和渐进聚合采样策略，StableSR为将扩散先验知识应用于图像恢复任务的未来研究提供了坚实的基础。

StableSR
微软推出全新预训练模型phi-1.5 仅13亿参数常识推理碾压Llama2

微软研究人员最近在一篇论文中提出了一个新的语言模型Phi-1.5，该模型的参数量仅有13亿。研究人员主要关注Phi-1.5在常识推理方面的表现，因为这是对语言模型能力的重要考验。本研究表明，相比单纯追求模型规模，如何获取高质量训练数据可能更为重要，这为未来语言模型研究提供了新的思路。

微软 AI头条
最先进的开源预训练大语言模型Lemur 平衡文本和代码功能

随着语言和技术交叉的日益增多，对多功能和强大语言模型的需求也越来越大。传统的大型语言模型在文本理解或编码任务方面表现出色，但很少能够在两者之间达到平衡。有了Lemur，语言模型技术的未来将比以往任何时候都更加光明和多功能。

大模型
TR0N：将任何类型的条件添加到预训练生成模型的简单有效方法

大型机器学习模型在各种任务中都表现出色。训练此类模型需要大量的计算机能力。HuggingFace上提供了演示。
潞晨科技旗下Colossal-AI开源650亿参数大模型预训练方案

AI创业公司潞晨科技宣布，旗下Colossal-AI首个开源了650亿参数LLaMA低成本预训练方案。相比业界其他主流选择，该预训练方案可提升预训练速度38%，仅需32张A100/A800即可使用，并且不限制商业使用。
荐 650亿参数大模型预训练方案开源可商用！LLaMA训练加速38%，来自明星开源项目

650亿参数大模型的预训练方案，发布即开源。训练速度较传统方案提升38%。其背后公司潞晨科技，近期获得数亿元A轮融资，已在成立18个月内已迅速连续完成三轮融资。

Colossal-AI 人工智能
华为云发布预训练大模型白皮书，促进行业标准化进程

11 月 7 日，华为全联接大会 2022 在深圳召开。在“华为云AI持续创新，加速AI应用走深向实”分论坛上，华为云发布《预训练大模型白皮书》，博瀚智能有限公司CEO郭玮，华为云EI服务产品部部长尤鹏，华为云人工智能领域首席科学家、IEEE Fellow、国际欧亚科学院院士田奇共同出席发布仪式。华为云将持续夯实盘古预训练大模型的能力，将AI技术以及行业落地经验云化、服务化，让企业创新触手可及。

华为云行业标准化华为全联接大会
预训练大模型产业落地的爆发前夜，联汇科技已提前部署

这家从事大规模预训练模型研发的新型AI公司浮出水面。2021 年是大规模预训练模型的爆发之年，掀起了人工智能又一波热潮，并迅速成为AI领域的技术新高地，助推人工智能从1. 0 的感知智能向2. 0 的认知智能转变。自从 2012 年深度学习的应用元年以来，人脸识别、语音识别等技术通过机器学习实现了大量应用场景突破，不仅提升了社会工作效率，同时改变了人们的生活出行模式，建立了人类对人工智能技术的基础认知。但是经过多年的应用实践，传统人工智能基于特定场景、特定内容、特定需求的适配模式也暴露出很多短板，尤其在泛场景应用、小样?

模型场景落地
512颗GPU、10万亿参数！阿里达摩院发布全球最大AI预训练模型

11月8日，阿里巴巴达摩院公布了多模态大模型M6”的最新进展，其参数已从万亿跃迁至10万亿，成为全球最大的AI预训练模型。作为通用性AI大模型，M6拥有多模态、多任务能力，尤其擅长设计、写作、问答，在电商、制造业、文学艺术、科学研究等领域有广泛应用前景。与传统AI相比，大模型拥有成百上千倍神经元”数量，认知和创造能力也更胜一筹，被普遍认为是未来的基础模型”。但是，大模型的算力成本相当高昂，比如训练1750亿参数语言?

阿里阿里云淘宝
达摩院打造全球最大AI预训练模型：参数突破10万亿远超谷歌、微软

阿里巴巴达摩院公布多模态大模型M6最新进展，其参数已从万亿跃迁至10万亿，规模远超谷歌、微软此前发布的万亿级模型，成为全球最大的AI预训练模型。

达摩院谷歌微软
登顶CLUE榜单，腾讯云小微与腾讯AI Lab联合团队提出基于知识的中文预训练模型

2018 年以来，以BERT、GPT等为代表的大规模预训练模型，带来了人工智能领域新的突破，由于其强大的通用性和卓越的迁移能力，掀起了预训练模型往大规模参数化发展的浪潮。其中微软、谷歌、Facebook、NVIDIA等诸多公司在预训练算法上持续大量投入。国内如百度、华为、阿里等公司也相继投入到大规模预训练模型算法的研究中。现阶段，在中文自然语言处理方向上，预训练也如雨后春笋一样涌现。现有算法主要依赖纯文本学习，缺少知识指导

腾讯云小微腾讯AILab
阿里云宣布全方位支持Llama 3训练推理帮助开发者构建自己的大模型

阿里云百炼大模型服务平台近期宣布了一项重要的支持计划，即为Meta公司最新开源的Llama3系列大语言模型提供全方位的支持。这项服务包括限时免费的模型训练、部署和推理服务，旨在帮助企业和开发者在阿里云平台上构建和优化自己的专属大模型。通过结合阿里云强大的云计算资源和Llama3模型的先进性能，企业和开发者将能够开发出更加智能和高效的AI应用，加速AI技术的创

阿里云百炼大模型 AI头条
荐李飞飞团队年度报告揭底大模型训练成本：Gemini Ultra是GPT-4的2.5倍

如何复盘大模型技术爆发的这一年?除了直观的感受，你还需要一份系统的总结。斯坦福HAI研究所发布了第七个年度的AIIndex报告，这是关于人工智能行业现状的最全面的报告之一。该指数中的其他图表显示，不同人群的观点存在显著差异，年轻人更倾向于乐观地看待人工智能将如何改变他们的生活。

李飞飞 GeminiUltra GPT-4
荐 AI日报：北大开源最强aiXcoder-7B代码大模型；OpenAI创始大神手搓千行C代码训练GPT；Stability AI图像模型竟能精细到这程度；在Vercel上一键部署Morphic

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

aiXcoder-7B
破解36年前魔咒！Meta推出反向训练大法消除大模型「逆转诅咒」

【新智元导读】大语言模型的「逆转诅咒」，被解开了。来自MetaFAIR的研究人员推出了反向训练大法，让模型从反方向上学到了事实之间的逻辑，终于改进了这个困扰人们已久的问题。36年前的预言1988年，Fodor和Pylyshyn在《认知》刊物上发了一篇关于思维的系统性的文章。

Meta 大模型
首个国产单池万卡液冷算力集群正式启用！可满足万亿级参数大模型训练

快科技3月24日消息，中国电信官方宣布，首个国产单池万卡液冷算力集群，天翼云上海临港国产万卡算力池正式启用，首批用户也同时入驻。据介绍，这不仅是国内首个投入正式运营的国产单池万卡液冷算力集群，也是业内领先的全国产化云智一体公共智算中心。该集群采用新一代国产AI算力，通过高速RDMA连接各物理机节点，提供低延时、高吞吐量、无损通信网络和强大的并行计算能力，多项技术指标领跑全国。该集群还最高可支持万亿参数大模型，满足AI计算、深度学习、图形渲染等复杂训练任务对算力的要求。有机构认为，双碳背景下，IDC绿色化是大势

中国电信天翼云液冷算力集群
亚马逊云科技与英伟达扩展合作加速超万亿参数级大模型训练

亚马逊云科技与英伟达扩展合作，加速生成式AI创新。双方将在亚马逊云科技上提供NVIDIABlackwell架构GPU，包括GB200GraceBlackwell超级芯片和B100TensorCoreGPU，以帮助客户解锁新的生成式AI能力。推出生成式AI微服务，推进药物发现和医疗领域的发展。

亚马逊云科技英伟达生成式AI
荐今日AI：苹果大模型MM1入场；Sora训练数据来源竟来自这；全球最快AI芯片WSE-3发布；阿里邀请AI参加数学竞赛

欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/📰🤖📢AI新鲜事苹果大模型MM1入场:参数达到300亿超半数作者是华人全球最快AI芯片WSE-3发布性能碾压H100!Midjourney禁止用户生成拜登和特朗普图片Claude3HaikuAPI发布OpenAICTO承认Sora训练�

MM1
中兴服务器R6900 G5实力领先，有效助力大模型训练

中兴通讯推出专为大规模模型训练设计的旗舰GPU服务器—R6900G5。该中兴服务器具备卓越的计算性能、高速网络通信能力以及创新的能效表现，有望为人工智能和深度学习等领域带来全新的突破。相信中兴通讯会继续深耕科技创新，为用户提供更加优质、高效的最强算力解决方案，推动数字经济的繁荣发展。

中兴通讯 GPU服务器人工智能
训练3个月，「APUS大模型3.0伶荔」已免费开放

APUS与深圳大学大数据系统计算技术国家工程实验室联合训练伶荔Linly-70B中文大模型，并在GitHub上正式首发开源，这是APUS大模型3.0的首个开源大模型。APUS大模型3.0伶荔在中文基准测评榜单C-Eval上评分80.6分，中文能力超越GPT-4，在所有参评模型中排名第三，相比原始开源模型标杆LLaMa2-70B取得了大幅提升。APUS还将与大数据国家工程实验室持续推动模型的能力提升和应用拓展，积极探索深化大模型在工具使用、剧情生成和角色扮演、医疗等领域的专业能力，聚力构建大模型生态，让为中国打造的AI大模型真正驱动中国AI产业高质量发展，实现价值共创，赋能千行万业。

热文

3 天
7天

预训练大模型

与“预训练大模型”的相关热搜词：

相关“预训练大模型” 的资讯103篇

热文

站长商机