预训练微调

CodeFuse-VLM是一个支持多种视觉模型和语言大模型的框架，用户可以根据自己的需求搭配不同的VisionEncoder和LLM。CodeFuse-VLM-14B模型在多个通用和代码任务上的性能超过LLAVA-1.5和Qwen-VL。CodeFuse-VLM还被用于训练网页图片到前端代码的多模态大模型，提高了前端工程师的开发效率。...

特别声明：本页面标签名称与页面内容，系网站系统为资讯内容分类自动生成，仅提供资讯内容索引使用，旨在方便用户索引相关资讯报道。如标签名称涉及商标信息，请访问商标品牌官方了解详情，请勿以本站标签页面内容为参考信息，本站与可能出现的商标名称信息不存在任何关联关系，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任。站长之家将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时，可及时向站长之家提出书面权利通知或不实情况说明，并提权属证明及详细侵权或不实情况证明（点击查看反馈联系地址）。本网站在收到上述反馈文件后，将会依法依规核实信息，第一时间沟通删除相关内容或断开相关链接。

与“预训练微调”的相关热搜词：

相关“预训练微调” 的资讯30篇

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
蚂蚁集团CodeFuse-VLM开源支持多模态多任务预训练/微调

CodeFuse-VLM是一个支持多种视觉模型和语言大模型的框架，用户可以根据自己的需求搭配不同的VisionEncoder和LLM。CodeFuse-VLM-14B模型在多个通用和代码任务上的性能超过LLAVA-1.5和Qwen-VL。CodeFuse-VLM还被用于训练网页图片到前端代码的多模态大模型，提高了前端工程师的开发效率。
苹果研究团队揭示WRAP技术：用合成数据进行预训练大模型成本低准确性高

近几个月来，大型语言模型在人工智能社区中引起了极大的关注和流行。这些模型在文本摘要、问答、代码完成、内容生成等任务中展示出了强大的能力。考虑到低质量网络数据的丰富性和经典LLM训练方法的资源密集性，这种方法提供了一种可能的前进方式。

WRAP 大模型 AI头条
谷歌AI研究提出 SpatialVLM：一种数据合成和预训练机制，以增强视觉语言模型 VLM 空间推理能力

谷歌AI研究团队最近提出了SpatialVLM，这是一种旨在增强视觉语言模型空间推理能力的创新系统。尽管先进的模型如GPT-4V在人工智能驱动任务中取得了显著进展，但它们在空间推理方面仍存在显著局限。-SpatialVLM的开发标志着人工智能技术的重大进步。

SpatialVLM 视觉语言模型 AI头条
新AI框架 AboutMe：用网页中自我描述来记录英语预训练数据过滤器的效果

随着自然语言处理和自然语言生成的进步，大型语言模型在实际应用中得到了广泛使用。由于它们能够模仿人类行为，并具有通用性，这些模型已经涉足各个领域。研究团队强调了对预训练数据筛选程序及其社会影响进行更多研究的需求。
智源研究院推出1bit自然语言理解预训练模型BiPFT

智源研究院提出了首个用于自然语言理解任务的1bit轻量化预训练模型BiPFT。与传统的FP32模型相比，BiPFT模型在推理阶段显著减少了操作数量和内存使用。该模型在不同超参数设定下都能取得更好的效果，具有较好的独立学习能力和超参数鲁棒性。
通义千问72B模型登顶Hugging Face开源大模型预训练模型榜首

开源大模型社区HuggingFace公布了最新的开源大模型排行榜，通义千问在预训练模型类别中脱颖出，占据榜首位置。HuggingFace开源大模型排行榜涵盖了全球上百个顶尖的开源大模型，并从阅读理解、逻辑推理、数学计算、事实问答等六个维度进行了全面评估。阿里云开源通义千问720亿参数模型。
谨防大模型基准评估陷阱！测试集乱入预训练，模型变傻

最新研究警告，大型模型在基准评估中可能面临潜在危害，原因是测试集中的数据可能意外进入预训练过程。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄巴纳-香槟分校的学者联合进行。对于未来的研究，需要进一步探讨不同程度的数据泄露对模型性能的影响，并在预训练中引入数据泄露进行更深入的模拟测试。

大模型
DeepMind指出「Transformer无法超出预训练数据实现泛化」，但有人投来质疑

说起大语言模型所展示的令人印象深刻的能力，其中之一就是通过提供上下文中的样本，要求模型根据最终提供的输入生成一个响应，从实现少样本学习的能力。这一点依靠的是底层机器学习技术「Transformer模型」，并且它们也能在语言以外的领域执行上下文学习任务。更多研究细节，可参考原论文。

DeepMind Transformer
ULTRA：知识图谱推理的预训练基础模型

ULTRA是一个旨在推理知识图谱的预训练基础模型。ULTRA的关键创新在于它能够学习通用和可迁移的图表示无需依赖文本信息。ULTRA的通用性和可迁移性使其成为归纳和可迁移的知识图谱推理的有望选择，对于各种不同关系结构的新KGs都能表现出色。

模型
戴尔发布生成式AI工具提供预训练模型

科技公司戴尔发布了一款名为“DellValidatedDesignforGenerativeAIwithNVIDIAforModelCustomization”的生成式人工智能工具，旨在帮助企业从数据中提取智能。这一工具的特点在于提供了预训练的模型，用户无需从头开始构建模型，即可快速提取数据中的智能信息。生成式AI模型的定制和微调可以帮助企业更好地利用其数据资源，实现更高效的工作流程和更准确的决策。

戴尔 AI工具
LLM-Shearing大模型剪枝法：用5%的成本拿下SOTA，比从头开始预训练更划算

陈丹琦团队近期发布了一项重要的研究成果，他们开发了一种名为LLM-Shearing的大模型剪枝法。这项技术允许将庞大的预训练模型剪枝至仅需3%的计算量和5%的成本，同时保持着SOTA水平的性能。这有望在大规模深度学习模型的研究和应用中产生广泛的影响。

大模型
新型AI超分辨率方法StableSR 利用预训练扩散模型提高图像保真度

StableSR是一种创新性的AI方法，旨在通过利用预训练扩散模型的威力来增强超分辨率任务。传统的SR方法通常需要大量的计算资源来从头开始训练扩散模型，这可能会损害它们的生成先验知识。通过利用预训练的扩散模型并结合创新技术，如时间感知编码器、可控特征包装模块和渐进聚合采样策略，StableSR为将扩散先验知识应用于图像恢复任务的未来研究提供了坚实的基础。

StableSR
微软推出全新预训练模型phi-1.5 仅13亿参数常识推理碾压Llama2

微软研究人员最近在一篇论文中提出了一个新的语言模型Phi-1.5，该模型的参数量仅有13亿。研究人员主要关注Phi-1.5在常识推理方面的表现，因为这是对语言模型能力的重要考验。本研究表明，相比单纯追求模型规模，如何获取高质量训练数据可能更为重要，这为未来语言模型研究提供了新的思路。

微软 AI头条
最先进的开源预训练大语言模型Lemur 平衡文本和代码功能

随着语言和技术交叉的日益增多，对多功能和强大语言模型的需求也越来越大。传统的大型语言模型在文本理解或编码任务方面表现出色，但很少能够在两者之间达到平衡。有了Lemur，语言模型技术的未来将比以往任何时候都更加光明和多功能。

大模型
上海AI实验室开源“书生·万卷”1.0多模态预训练语料

上海AI实验室联合语料数据联盟成员共同开源发布了高质量多模态预训练语料“书生・万卷”1.0。这个语料库包含了文本数据集、图文数据集和视频数据集，总量超过2TB。该语料数据联盟旨在通过联合多方机构打造高质量的语料数据，探索形成可持续运行的激励机制，打造国际化、开放型的大模型语料数据生态圈。
TR0N：将任何类型的条件添加到预训练生成模型的简单有效方法

大型机器学习模型在各种任务中都表现出色。训练此类模型需要大量的计算机能力。HuggingFace上提供了演示。
潞晨科技旗下Colossal-AI开源650亿参数大模型预训练方案

AI创业公司潞晨科技宣布，旗下Colossal-AI首个开源了650亿参数LLaMA低成本预训练方案。相比业界其他主流选择，该预训练方案可提升预训练速度38%，仅需32张A100/A800即可使用，并且不限制商业使用。
荐 650亿参数大模型预训练方案开源可商用！LLaMA训练加速38%，来自明星开源项目

650亿参数大模型的预训练方案，发布即开源。训练速度较传统方案提升38%。其背后公司潞晨科技，近期获得数亿元A轮融资，已在成立18个月内已迅速连续完成三轮融资。

Colossal-AI 人工智能
全国首个DNA存储领域预训练大模型“ChatDNA”发布

5月21日，2023祥符创新论坛转化医学产业高峰论坛在浙江嘉善举办。上海人工智能研究院、祥符实验室、转化医学国家科学中心联合重磅发布全国首个DNA存储领域预训练大模型“ChatDNA”。会上还围绕精准医学及生命科学前沿热点问题，诊断技术、基因测序、DNA存储、医学人工智能、生物材料及药物研发等前沿领域的最新进展，共同探讨当前转化医学产业的发展现状，分析热点和难点，分享实践经验和创新思路，推动医学产业的健康发展。

转化医学 DNA存储医学人工智能
中国电信天翼云将发布预训练大模型已进入内部测试阶段

天翼云科技有限公司在2023云生态大会上表示，天翼云正在自主研发预训练大模型，目前已经进入内部测试阶段，将在近期适当的时候发布。天翼云科技有限公司，是中国电信子公司。天翼云是中国电信旗下云计算品牌，2016年，天翼云发布天翼云3.0。

天翼云科技云计算品牌预训练大模型
华为云发布预训练大模型白皮书，促进行业标准化进程

11 月 7 日，华为全联接大会 2022 在深圳召开。在“华为云AI持续创新，加速AI应用走深向实”分论坛上，华为云发布《预训练大模型白皮书》，博瀚智能有限公司CEO郭玮，华为云EI服务产品部部长尤鹏，华为云人工智能领域首席科学家、IEEE Fellow、国际欧亚科学院院士田奇共同出席发布仪式。华为云将持续夯实盘古预训练大模型的能力，将AI技术以及行业落地经验云化、服务化，让企业创新触手可及。

华为云行业标准化华为全联接大会
预训练大模型产业落地的爆发前夜，联汇科技已提前部署

这家从事大规模预训练模型研发的新型AI公司浮出水面。2021 年是大规模预训练模型的爆发之年，掀起了人工智能又一波热潮，并迅速成为AI领域的技术新高地，助推人工智能从1. 0 的感知智能向2. 0 的认知智能转变。自从 2012 年深度学习的应用元年以来，人脸识别、语音识别等技术通过机器学习实现了大量应用场景突破，不仅提升了社会工作效率，同时改变了人们的生活出行模式，建立了人类对人工智能技术的基础认知。但是经过多年的应用实践，传统人工智能基于特定场景、特定内容、特定需求的适配模式也暴露出很多短板，尤其在泛场景应用、小样?

模型场景落地
512颗GPU、10万亿参数！阿里达摩院发布全球最大AI预训练模型

11月8日，阿里巴巴达摩院公布了多模态大模型M6”的最新进展，其参数已从万亿跃迁至10万亿，成为全球最大的AI预训练模型。作为通用性AI大模型，M6拥有多模态、多任务能力，尤其擅长设计、写作、问答，在电商、制造业、文学艺术、科学研究等领域有广泛应用前景。与传统AI相比，大模型拥有成百上千倍神经元”数量，认知和创造能力也更胜一筹，被普遍认为是未来的基础模型”。但是，大模型的算力成本相当高昂，比如训练1750亿参数语言?

阿里阿里云淘宝
达摩院打造全球最大AI预训练模型：参数突破10万亿远超谷歌、微软

阿里巴巴达摩院公布多模态大模型M6最新进展，其参数已从万亿跃迁至10万亿，规模远超谷歌、微软此前发布的万亿级模型，成为全球最大的AI预训练模型。

达摩院谷歌微软
登顶CLUE榜单，腾讯云小微与腾讯AI Lab联合团队提出基于知识的中文预训练模型

2018 年以来，以BERT、GPT等为代表的大规模预训练模型，带来了人工智能领域新的突破，由于其强大的通用性和卓越的迁移能力，掀起了预训练模型往大规模参数化发展的浪潮。其中微软、谷歌、Facebook、NVIDIA等诸多公司在预训练算法上持续大量投入。国内如百度、华为、阿里等公司也相继投入到大规模预训练模型算法的研究中。现阶段，在中文自然语言处理方向上，预训练也如雨后春笋一样涌现。现有算法主要依赖纯文本学习，缺少知识指导

腾讯云小微腾讯AILab
视频编辑利器Pix2Video 无需训练微调

Pix2Video是一项基于预训练的图像扩散模型的视频编辑研究，致力于实现文本引导的编辑，无需繁琐的训练或微调。该方法通过自注意力特征注入，在每个扩散步骤中注入前一帧的特征，以确保编辑后的视频外观连贯一致，解决了编辑过程中可能出现的外观变化问题。该研究为实时互动视频编辑领域提供了一种创新方法，具有潜在的应用前景。

Pix2Video
荐用视觉来做Prompt！沈向洋展示IDEA研究院新模型，无需训练或微调，开箱即用

用视觉来做Prompt，是种什么体验?只需在图里随便框一下，结果秒秒钟圈出同一类别!即便是那种GPT-4V都难搞定的数米粒的环节。只需要你手动拉一下框，就能找出所有米粒来。发布会最后，沈向洋发布《低空经济发展白皮书——深圳方案》，在其智能融合低空系统中，提出时空进程新概念。

Prompt 模型
FreeU：无需额外训练或微调即可提高图像生成质量

FreeU是一种新的人工智能技术，旨在提高生成模型的质量无需额外的训练或微调。它采用概率扩散模型，这是一种先进的生成模型类别，特别适用于与计算机视觉相关的任务。FreeU是一种引人注目的技术，可以显著提高生成模型的质量无需额外的训练或微调，已在多个应用中得到成功应用。

FreeU
荐 700亿参数Llama 2训练加速195%！训练/微调/推理全流程方案开源，0代码一站解决

全球规模最大的大模型开发工具与社区Colossal-AI，发布了全套Llama2训练、微调、推理方案，可以为700亿参数模型的训练加速195%。ChatGPT引发的大模型热潮愈演愈烈，全球科技巨头和明星初创争相入局，打造以AI大模型为核心的竞争力和多样化商业使用需求。相关的应用都经过Colossal-AI团队精心优化，得益于算法和系统的双面优化，能大大降低模型训练以及部署的成本。

Llama2
荐一句话让AI训练AI！20分钟微调羊驼大模型，从数据收集到训练全包了

只需一句话，描述你想要大模型去做什么。就有一系列AI自己当“模型训练师”，帮你完成从生成数据集到微调的所有工作。只需上传一个产品文档，就能自动训练出一个可以回答有关该产品问题的聊天机器人。

大模型

热文

3 天
7天

预训练微调

与“预训练微调”的相关热搜词：

相关“预训练微调” 的资讯30篇

热文

站长商机