预训练模型

智源研究院提出了首个用于自然语言理解任务的1bit轻量化预训练模型BiPFT。与传统的FP32模型相比，BiPFT模型在推理阶段显著减少了操作数量和内存使用。该模型在不同超参数设定下都能取得更好的效果，具有较好的独立学习能力和超参数鲁棒性。...

特别声明：本页面标签名称与页面内容，系网站系统为资讯内容分类自动生成，仅提供资讯内容索引使用，旨在方便用户索引相关资讯报道。如标签名称涉及商标信息，请访问商标品牌官方了解详情，请勿以本站标签页面内容为参考信息，本站与可能出现的商标名称信息不存在任何关联关系，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述反馈文件后，将会依法依规核实信息，第一时间沟通删除相关内容或断开相关链接。

与“预训练模型”的相关热搜词：

相关“预训练模型” 的资讯236篇

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
智源研究院推出1bit自然语言理解预训练模型BiPFT

智源研究院提出了首个用于自然语言理解任务的1bit轻量化预训练模型BiPFT。与传统的FP32模型相比，BiPFT模型在推理阶段显著减少了操作数量和内存使用。该模型在不同超参数设定下都能取得更好的效果，具有较好的独立学习能力和超参数鲁棒性。
通义千问72B模型登顶Hugging Face开源大模型预训练模型榜首

开源大模型社区HuggingFace公布了最新的开源大模型排行榜，通义千问在预训练模型类别中脱颖出，占据榜首位置。HuggingFace开源大模型排行榜涵盖了全球上百个顶尖的开源大模型，并从阅读理解、逻辑推理、数学计算、事实问答等六个维度进行了全面评估。阿里云开源通义千问720亿参数模型。
戴尔发布生成式AI工具提供预训练模型

科技公司戴尔发布了一款名为“DellValidatedDesignforGenerativeAIwithNVIDIAforModelCustomization”的生成式人工智能工具，旨在帮助企业从数据中提取智能。这一工具的特点在于提供了预训练的模型，用户无需从头开始构建模型，即可快速提取数据中的智能信息。生成式AI模型的定制和微调可以帮助企业更好地利用其数据资源，实现更高效的工作流程和更准确的决策。

戴尔 AI工具
微软推出全新预训练模型phi-1.5 仅13亿参数常识推理碾压Llama2

微软研究人员最近在一篇论文中提出了一个新的语言模型Phi-1.5，该模型的参数量仅有13亿。研究人员主要关注Phi-1.5在常识推理方面的表现，因为这是对语言模型能力的重要考验。本研究表明，相比单纯追求模型规模，如何获取高质量训练数据可能更为重要，这为未来语言模型研究提供了新的思路。

微软 AI头条
登顶CLUE榜单，腾讯云小微与腾讯AI Lab联合团队提出基于知识的中文预训练模型

2018 年以来，以BERT、GPT等为代表的大规模预训练模型，带来了人工智能领域新的突破，由于其强大的通用性和卓越的迁移能力，掀起了预训练模型往大规模参数化发展的浪潮。其中微软、谷歌、Facebook、NVIDIA等诸多公司在预训练算法上持续大量投入。国内如百度、华为、阿里等公司也相继投入到大规模预训练模型算法的研究中。现阶段，在中文自然语言处理方向上，预训练也如雨后春笋一样涌现。现有算法主要依赖纯文本学习，缺少知识指导

腾讯云小微腾讯AILab
512颗GPU、10万亿参数！阿里达摩院发布全球最大AI预训练模型

11月8日，阿里巴巴达摩院公布了多模态大模型M6”的最新进展，其参数已从万亿跃迁至10万亿，成为全球最大的AI预训练模型。作为通用性AI大模型，M6拥有多模态、多任务能力，尤其擅长设计、写作、问答，在电商、制造业、文学艺术、科学研究等领域有广泛应用前景。与传统AI相比，大模型拥有成百上千倍神经元”数量，认知和创造能力也更胜一筹，被普遍认为是未来的基础模型”。但是，大模型的算力成本相当高昂，比如训练1750亿参数语言?

阿里阿里云淘宝
达摩院打造全球最大AI预训练模型：参数突破10万亿远超谷歌、微软

阿里巴巴达摩院公布多模态大模型M6最新进展，其参数已从万亿跃迁至10万亿，规模远超谷歌、微软此前发布的万亿级模型，成为全球最大的AI预训练模型。

达摩院谷歌微软
蚂蚁集团CodeFuse-VLM开源支持多模态多任务预训练/微调

CodeFuse-VLM是一个支持多种视觉模型和语言大模型的框架，用户可以根据自己的需求搭配不同的VisionEncoder和LLM。CodeFuse-VLM-14B模型在多个通用和代码任务上的性能超过LLAVA-1.5和Qwen-VL。CodeFuse-VLM还被用于训练网页图片到前端代码的多模态大模型，提高了前端工程师的开发效率。
苹果研究团队揭示WRAP技术：用合成数据进行预训练大模型成本低准确性高

近几个月来，大型语言模型在人工智能社区中引起了极大的关注和流行。这些模型在文本摘要、问答、代码完成、内容生成等任务中展示出了强大的能力。考虑到低质量网络数据的丰富性和经典LLM训练方法的资源密集性，这种方法提供了一种可能的前进方式。

WRAP 大模型 AI头条
谷歌AI研究提出 SpatialVLM：一种数据合成和预训练机制，以增强视觉语言模型 VLM 空间推理能力

谷歌AI研究团队最近提出了SpatialVLM，这是一种旨在增强视觉语言模型空间推理能力的创新系统。尽管先进的模型如GPT-4V在人工智能驱动任务中取得了显著进展，但它们在空间推理方面仍存在显著局限。-SpatialVLM的开发标志着人工智能技术的重大进步。

SpatialVLM 视觉语言模型 AI头条
新AI框架 AboutMe：用网页中自我描述来记录英语预训练数据过滤器的效果

随着自然语言处理和自然语言生成的进步，大型语言模型在实际应用中得到了广泛使用。由于它们能够模仿人类行为，并具有通用性，这些模型已经涉足各个领域。研究团队强调了对预训练数据筛选程序及其社会影响进行更多研究的需求。
谨防大模型基准评估陷阱！测试集乱入预训练，模型变傻

最新研究警告，大型模型在基准评估中可能面临潜在危害，原因是测试集中的数据可能意外进入预训练过程。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄巴纳-香槟分校的学者联合进行。对于未来的研究，需要进一步探讨不同程度的数据泄露对模型性能的影响，并在预训练中引入数据泄露进行更深入的模拟测试。

大模型
DeepMind指出「Transformer无法超出预训练数据实现泛化」，但有人投来质疑

说起大语言模型所展示的令人印象深刻的能力，其中之一就是通过提供上下文中的样本，要求模型根据最终提供的输入生成一个响应，从实现少样本学习的能力。这一点依靠的是底层机器学习技术「Transformer模型」，并且它们也能在语言以外的领域执行上下文学习任务。更多研究细节，可参考原论文。

DeepMind Transformer
ULTRA：知识图谱推理的预训练基础模型

ULTRA是一个旨在推理知识图谱的预训练基础模型。ULTRA的关键创新在于它能够学习通用和可迁移的图表示无需依赖文本信息。ULTRA的通用性和可迁移性使其成为归纳和可迁移的知识图谱推理的有望选择，对于各种不同关系结构的新KGs都能表现出色。

模型
LLM-Shearing大模型剪枝法：用5%的成本拿下SOTA，比从头开始预训练更划算

陈丹琦团队近期发布了一项重要的研究成果，他们开发了一种名为LLM-Shearing的大模型剪枝法。这项技术允许将庞大的预训练模型剪枝至仅需3%的计算量和5%的成本，同时保持着SOTA水平的性能。这有望在大规模深度学习模型的研究和应用中产生广泛的影响。

大模型
新型AI超分辨率方法StableSR 利用预训练扩散模型提高图像保真度

StableSR是一种创新性的AI方法，旨在通过利用预训练扩散模型的威力来增强超分辨率任务。传统的SR方法通常需要大量的计算资源来从头开始训练扩散模型，这可能会损害它们的生成先验知识。通过利用预训练的扩散模型并结合创新技术，如时间感知编码器、可控特征包装模块和渐进聚合采样策略，StableSR为将扩散先验知识应用于图像恢复任务的未来研究提供了坚实的基础。

StableSR
最先进的开源预训练大语言模型Lemur 平衡文本和代码功能

随着语言和技术交叉的日益增多，对多功能和强大语言模型的需求也越来越大。传统的大型语言模型在文本理解或编码任务方面表现出色，但很少能够在两者之间达到平衡。有了Lemur，语言模型技术的未来将比以往任何时候都更加光明和多功能。

大模型
上海AI实验室开源“书生·万卷”1.0多模态预训练语料

上海AI实验室联合语料数据联盟成员共同开源发布了高质量多模态预训练语料“书生・万卷”1.0。这个语料库包含了文本数据集、图文数据集和视频数据集，总量超过2TB。该语料数据联盟旨在通过联合多方机构打造高质量的语料数据，探索形成可持续运行的激励机制，打造国际化、开放型的大模型语料数据生态圈。
TR0N：将任何类型的条件添加到预训练生成模型的简单有效方法

大型机器学习模型在各种任务中都表现出色。训练此类模型需要大量的计算机能力。HuggingFace上提供了演示。
潞晨科技旗下Colossal-AI开源650亿参数大模型预训练方案

AI创业公司潞晨科技宣布，旗下Colossal-AI首个开源了650亿参数LLaMA低成本预训练方案。相比业界其他主流选择，该预训练方案可提升预训练速度38%，仅需32张A100/A800即可使用，并且不限制商业使用。
荐 650亿参数大模型预训练方案开源可商用！LLaMA训练加速38%，来自明星开源项目

650亿参数大模型的预训练方案，发布即开源。训练速度较传统方案提升38%。其背后公司潞晨科技，近期获得数亿元A轮融资，已在成立18个月内已迅速连续完成三轮融资。

Colossal-AI 人工智能
全国首个DNA存储领域预训练大模型“ChatDNA”发布

5月21日，2023祥符创新论坛转化医学产业高峰论坛在浙江嘉善举办。上海人工智能研究院、祥符实验室、转化医学国家科学中心联合重磅发布全国首个DNA存储领域预训练大模型“ChatDNA”。会上还围绕精准医学及生命科学前沿热点问题，诊断技术、基因测序、DNA存储、医学人工智能、生物材料及药物研发等前沿领域的最新进展，共同探讨当前转化医学产业的发展现状，分析热点和难点，分享实践经验和创新思路，推动医学产业的健康发展。

转化医学 DNA存储医学人工智能
中国电信天翼云将发布预训练大模型已进入内部测试阶段

天翼云科技有限公司在2023云生态大会上表示，天翼云正在自主研发预训练大模型，目前已经进入内部测试阶段，将在近期适当的时候发布。天翼云科技有限公司，是中国电信子公司。天翼云是中国电信旗下云计算品牌，2016年，天翼云发布天翼云3.0。

天翼云科技云计算品牌预训练大模型
华为云发布预训练大模型白皮书，促进行业标准化进程

11 月 7 日，华为全联接大会 2022 在深圳召开。在“华为云AI持续创新，加速AI应用走深向实”分论坛上，华为云发布《预训练大模型白皮书》，博瀚智能有限公司CEO郭玮，华为云EI服务产品部部长尤鹏，华为云人工智能领域首席科学家、IEEE Fellow、国际欧亚科学院院士田奇共同出席发布仪式。华为云将持续夯实盘古预训练大模型的能力，将AI技术以及行业落地经验云化、服务化，让企业创新触手可及。

华为云行业标准化华为全联接大会
预训练大模型产业落地的爆发前夜，联汇科技已提前部署

这家从事大规模预训练模型研发的新型AI公司浮出水面。2021 年是大规模预训练模型的爆发之年，掀起了人工智能又一波热潮，并迅速成为AI领域的技术新高地，助推人工智能从1. 0 的感知智能向2. 0 的认知智能转变。自从 2012 年深度学习的应用元年以来，人脸识别、语音识别等技术通过机器学习实现了大量应用场景突破，不仅提升了社会工作效率，同时改变了人们的生活出行模式，建立了人类对人工智能技术的基础认知。但是经过多年的应用实践，传统人工智能基于特定场景、特定内容、特定需求的适配模式也暴露出很多短板，尤其在泛场景应用、小样?

模型场景落地
荐全球首个AI程序员诞生，码农饭碗一夜被砸！10块IOI金牌华人团队震撼打造，996写代码训练模型

全球首位AI软件工程师Devin诞生了，它掌握全栈技能，云端部署、底层代码、改bug、训练和微调AI模型都不在话下。最可怕的是，它完全不怕996，老黄的预言是彻底成真了!就在刚刚，世界上第一位AI程序员Devin诞生。CEOWu并没有详细说明他们的智能体背后使用的AI技术，只是笼统地解释说，团队找到了将大语言模型与强化学习技术相结合的独特方法。

AI软件工程师 Devin 全栈技能
清华版「AutoGPT」登GitHub热榜！复杂任务轻松搞定，还能自己训练模型

清华开源通用智能体XAgent，登上GitHub热榜，狂揽1400🌟各种任务都能做，让它使用python来分析给定的数据，分分钟搞定:数学题也难不倒它:编制最有影响力的心理学读书清单，并对每本书做简要总结这种操作就更不在话下:通过展示可以看到，XAgent在回答问题时会分条缕析，逐步给出回答，这是开发专门为其设计的双循环机制。这种设计下，XAgent的自主性非常高，处理复杂任务也“得心应手”，关键安全性也很高。结果XAgent全面取胜，不仅在传统的AI基准测试中表现出色还在处理复杂指令方面表现出卓越的适应性、效率和精度。

XAgent AutoGPT AI头条
免费版妙鸭？智能写真生成插件EasyPhoto：5张照片即可训练模型

随着StableDiffusion模型的普及，各种基于该模型的创意应用也层出不穷。FaceChain开发团队推出了一款名为EasyPhoto的StableDiffusion插件，实现了快速智能写真生成的功能。注意:上传的照片最好是半身照，请勿戴眼镜。

EasyPhoto AI头条
Hugging Face推出新服务Training Cluster 可一键训练模型

人工智能科技公司HuggingFace推出了一项新服务TrainingCluster，用户仅需一键即可对模型进行训练，无需处理复杂的内部过程。这项创新服务将极大地减少用户在深度学习项目中进行模型训练所需的时间和精力。HuggingFace的这一举措有望进一步推动AI技术的普及和发展，降低AI技术应用的门槛。
视觉模型推理工具Roboflow 简化从标注数据到训练模型的过程

Roboflow推理服务器是一个易于使用的、面向生产环境的推理服务器，支持多种流行的计算机视觉模型架构和微调后的模型部署。它可以在各种设备和环境上部署，无需机器学习的先验知识。它是一个部署和管理视觉AI模型非常方便的工具。

视觉模型

热文

3 天
7天

预训练模型

与“预训练模型”的相关热搜词：

相关“预训练模型” 的资讯236篇

热文

站长商机