首页 > 热点 > 关键词  > 正文

上海AI实验室开源“书生·万卷”1.0多模态预训练语料

2023-08-15 09:14 · 稿源:站长之家

站长之家(ChinaZ.com) 8月15日 消息:上海 AI 实验室联合语料数据联盟成员共同开源发布了高质量多模态预训练语料 “书生・万卷”1.0。

据悉,这个语料库包含了文本数据集、图文数据集和视频数据集,总量超过2TB。其中包括超过5亿个文本、2200万个图文交错文档和1000个节目影像视频。

微信截图_20230815091757.png

这些数据经过细粒度清洗、去重和价值对齐等处理,具备多元融合、精细处理、价值对齐和易用高效的特点。

上海 AI 实验室表示,开源发布 “书生・万卷” 有助于降低大模型技术的门槛,推动大模型的应用和创新。该语料数据联盟旨在通过联合多方机构打造高质量的语料数据,探索形成可持续运行的激励机制,打造国际化、开放型的大模型语料数据生态圈。

地址:https://opendatalab.org.cn/WanJuan1.0

开源地址:https://github.com/opendatalab/WanJuan1.0

举报

  • 相关推荐
  • 上海AI实验室开源工具箱XTuner 8GB显卡就可训练大模型

    上海人工智能实验室发布了一款面向大模型训练的开源工具箱XTuner,通过支持多种硬件适配,大幅降低了企业进行大模型训练的门槛,尤其是对中小企业具有重要意义。XTuner为各类开源模型提供了多样的微调框架XTuner支持与多款开源大模型的无缝衔接,可执行增量预训练、指令微调等任务类型。业内人士表示,这将推动我国在人工智能核心领域的技术进步。

  • 上海AI实验室开源图文混合创作大模型浦语灵笔

    上海人工智能实验室近日推出了首个图文混合创作大模型书生·浦语灵笔,该模型能够根据用户提供的主题或图片,自动创作出图文并茂的文章,为大模型落地应用提供更多可能。浦语灵笔是基于书生·浦语大语言模型的多模态扩展,书生·浦语是上海AI实验室今年7月以来陆续开源的7B及20B版本的大语言模型,为业界提供了完整的大模型研发与应用基座,以及全链条工具体系。浦

  • 实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了

    继各类输入端多模态大语言模型之后,新加坡国立大学华人团队近期开源一种支持任意模态输入和任意模态输出的真正「大一统」多模态大模型,火爆AI社区。ChatGPT的诞生,引爆了2023年的基于大语言模型的AI浪潮,此后各类开源大语言模型陆续问世,包括Flan-T5、Vicuna、LLaMA、Alpaca等。后续研究可以进一步提升模态切换指令微调学习策略以及数据集。

  • 新加坡华人团队开源全能「大一统」多模态大模型NExT-GPT

    继各类单一模态输入的多模态语言模型后,新加坡国立大学的华人团队最近开源了全能多模态模型NExT-GPT。该模型支持任意模态的输入和输出,可以实现文本、图像、语音和视频之间的自由转换,是第一个实现从任一模态到任一模态转换的通用多模态系统。后续工作可以考虑扩展更多模态,使用更大规模的语言模型基座,以及改进多模态生成策略等。

  • AI创企Reka发布多模态AI助手Yasa-1,欲与ChatGPT竞争

    由DeepMind、Google、百度和Meta的研究人员共同创立的AI创企Reka,最近宣布了最新产品一款多模态AI助手Yasa-1。这款助手被设计成可以理解和互动文本、图像、视频和音频等多种媒体形式,被认为有望成为OpenAI的ChatGPT的竞争对手。Yasa-1的发布标志着多模态AI助手领域的竞争愈发激烈,预示着未来AI助手将在不同媒体类型之间进行更多复杂的交互,为用户提供更多有趣和实用的功能。

  • 马毅团队新研究:微调多模态大模型会灾难性遗忘

    随着GPT-4的发布,多模态大模型成为热点。业界常将视觉编码器与语言模型集成构建MLLM。模型设计和训练技巧仍需进一步优化,以平衡不同能力之间的权衡。

  • 挑战GPT-4V!清华唐杰&智谱开源国产多模态模型CogVLM-17B

    清华大学与智谱AI合作开发的CogVLM-17B是一款国产多模态模型,具有卓越的性能。该模型不仅可以识别图像中的对象能分辨完整可见和部分可见的物体。其深度融合方法的创新性标志着多模态模型训练范式的改变,为未来的研究和应用提供了新的思路和可能性。

  • 多模态大模型MMICL霸榜 支持文本图像视频输入

    北京交通大学等机构联合推出了新多模态大模型MMICL。它支持文本、图像、视频三种模态的混合输入,在多项多模态能力评测中表现抢眼。随着其性能和适用场景的不断优化,MMICL有望成为多模态领域的新宠。

  • GPT-5来了?OpenAI被曝加急训练多模态大模型Gobi,一举狙杀谷歌Gimini!

    多模态大模型的战场上,已有人闻到风声。OpenAI的全新多模态模型Gobi似乎已在筹备中。顺便提一句,OpenAI即将在11月召开的首届开发者大会,已经开始注册了,快上手申请吧。

  • 苹果AI/ML团队开发多模态大模型Ferret 成功突破谷歌人机验证码难题

    苹果AI/ML团队与哥伦比亚大学合作研发的多模态大模型“雪貂”已经成功突破了谷歌人机验证码的难题,能够轻松识别图像中的交通信号灯并准确圈出其位置,其性能直逼GPT-4V。Ferret的关键在于改进了大模型在“看说答”任务中的精确度,这得益于其出色的图文关联能力。通过这一研究,Ferret为解决图像理解和多模态任务提供了新的方向,有望在人机交互、智能搜索等领域取得