中国团队开源大规模高质量图文数据集ShareGPT4V

2023-11-29 14:46 · 稿源：站长之家

要点:
中国团队开源大规模高质量图文数据集ShareGPT4V，基于GPT4-Vision构建，训练了一个7B模型，在多模态性能上超越同级模型。
ShareGPT4V数据集包含120万条图像-文本描述数据，涵盖世界知识、对象属性、空间关系、艺术评价等多方面，超越现有数据集在多样性和信息涵盖度方面。
使用ShareGPT4V数据集进行实验，研究者展示了其在多种架构和参数规模的多模态模型中的有效性，最终得到了在多模态基准测试上表现优异的ShareGPT4V-7B模型。

站长之家（ChinaZ.com）11月29日消息:中国团队最近开源了一个引人瞩目的图文数据集，命名为ShareGPT4V，它基于GPT4-Vision构建，训练了一个7B模型。这一举措在多模态领域取得了显著的进展，超越了同级别的模型。

该数据集包含了120万条图像-文本描述数据，涵盖了世界知识、对象属性、空间关系、艺术评价等多个方面，在多样性和信息涵盖度上明显优于现有数据集。

论文地址:https://arxiv.org/abs/2311.12793

Demo演示:https://huggingface.co/spaces/Lin-Chen/ShareGPT4V-7B

项目地址:https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V

多模态模型的性能在很大程度上受制于模态对齐的效果，而现有工作中缺乏大规模高质量的图像-文本数据。为了解决这一问题，中科大和上海AI Lab的研究者们推出了ShareGPT4V，这是一个开创性的大型图文数据集。

通过对GPT4-Vision模型产生的10万条图像-文本描述数据进行深入研究，他们成功构建了这一高质量的数据集，涉及的内容丰富多样，包括世界知识、艺术评价等。

这一数据集的推出为多模态研究和应用奠定了新的基石。在实验中，研究者们展示了ShareGPT4V数据集在多种架构和参数规模的多模态模型中的有效性。通过等量替换实验，他们成功提升了多种模型的性能。

最终，通过在预训练和有监督微调阶段同时使用ShareGPT4V数据集，他们得到了ShareGPT4V-7B模型，在多模态基准测试中取得了优异的成绩。

这一研究为未来的多模态研究和应用提供了有力支持，也促使多模态开源社区关注高质量图像描述的开发，预示着更强大、智能的多模态模型的出现。这一成果对于推动人工智能领域的发展具有积极的意义。

（举报）

相关推荐
大家在看

关键词：

图文数据集

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Meta AI 发布开源基准数据集OpenEQA 促进AI代理的 “体验智能”

MetaAI研究人员今天发布了OpenEQA，这是一个新的开源基准数据集，旨在衡量人工智能系统对“体验式问答”的能力——这种能力使人工智能系统能够理解现实世界，从回答有关环境的自然语言问题。这一数据集被Meta定位为“体验智能”领域的关键基准，其中包含超过1，600个关于180多个真实环境的问题。为了衡量人工智能代理的性能，研究人员使用大型语言模型自动评分，衡量人工智能生成的答案与人类答案的相似程度。

Meta OpenEQA AI头条
Parler-TTS：一个高质量文本到语音（TTS）模型

一个名为Parler-TTS的全新开源项目引起了业界的广泛关注。Parler-TTS是一个高质量的文本到语音模型，它能够生成听起来非常自然的语音，为用户提供了前所未有的语音合成体验。项目团队还提供了交互式的演示和详细的训练指南，帮助用户快速上手并根据自己的需求对模型进行定制。

语音模型 Parler-TTS AI头条
聚焦绿色低碳高质量发展，中成空间这样答题

在数字化转型与绿色发展的时代背景下，全球经济深入发展，产业结构持续升级，新质生产力的培育和发展已成为推动经济社会高质量发展的核心动力。作为行业科技创新的领跑者，中成空间打造“气膜”特色品牌，气膜产品凭借其领先的科研技术、创新实践和环保理念，为新质生产力的发展注入强大动力，为港口码头、矿产原采、文体科技、商旅文化等领域的转型升级和高质量发展增添创新动能。中成空间将持续发挥其在新质生产力发展中的重要作用，助力各行业迈向更高层次的转型升级和高质量发展，同时也为构建更绿色、智能、高效的产业生态贡献企业力量。
Align Your Steps：低步数推理保持高质量结果适用于SD 1.5和SDXL

在深度学习领域，扩散模型作为生成建模的前沿方法已经得到广泛应用。DMs的一个关键缺点是其较慢的采样速度，这主要是由于需要通过大型神经网络进行多次顺序函数评估。在视频生成方面进行了研究，发现使用优化计划可以在视频生成过程中产生更加稳定的视频，减少随时间推移的颜色失真。

AlignYourSteps AI头条
Diffusion-RWKV官网体验入口 AI生成高质量图像工具使用地址

Diffusion-RWKV是一种基于RWKV架构的扩散模型，旨在提高扩散模型的可扩展性。它针对图像生成任务进行了相应的优化和改进，可以生成高质量的图像。欲了解更多详细信息并开始使用Diffusion-RWKV，请访问Diffusion-RWKV官方网站。

Diffusion-RWKV
天九共享助推托育服务高质量发展为家庭提供更好的服务

育儿难题和养老服务需求日益凸显。越来越多的年轻人在结婚生娃后或多或少都会遇到育儿难题，一是因为没有经验，二是很多双职工家庭没人带娃，此外还存在年轻人与长辈教育观念有一定矛盾分歧等问题，这使得高质量的托育服务供不应求。天九共享集团作为享誉中外的创新企业加速平台，积极借助平台资源和能力，持续助力托育养老行业创新和加速增长，推动托育养老服务优质发展，为儿童和家庭提供更好的服务，同时也为行业发展注入新的活力。

育儿难题养老服务托育服务
科技加码，长生人寿向高质量发展之路挺进！

近些年，长生人寿聚焦数年所积累的线下优势持续发力，将保护消费者权益作为一切工作的出发点、立足点和根本点，把“以用户为中心”的服务理念转化成改进管理、优化服务、诚信展业的实际行动，形成线上线下一体、前后端完美联动、实时智能的服务形式，助推公司快速发展，促推保险惠及更广泛的人群。全面互联，搭建数字化平台长生人寿将物联网技术应用到线下服�

长生人寿消费者权益服务理念
创新高质量、体验高价值！小熊电器多款新品亮相

“价值消费”已逐渐成为了年轻人的主流消费观。他们在购买过程中，更多的是对技术创新、功能体验、情感需求等多方面的追求，偏向的不再是“高价位”是“高价值”的产品。18年的初心不变，也让小熊电器经受住了市场的重重考验，成为无数用户的品质生活之选。

高价值消费技术创新用户体验
联纲光电加大研发技术投入打造高质量产品服务

近年来，我国的制造业转型势头强劲，高技术含量、高附加值的高新技术制造企业保持较快增长，不断助推我国制造业加速升级。联纲光电科技股份有限公司深耕光电信号传输领域16年，现旗下拥有6家子公司以及东莞总部生产基地、江西赣州生产基地、广西南宁生产基地、越南北宁生产基地，供应链资源遍布全球，现已荣获国家高新技术企业、国家级专精特新小巨人企业等称�

制造业升级高新技术制造光电传输
拉普拉斯IPO丨用创新科技助力中国光伏产业高质量发展

在“以科技创新引领现代化产业体系建设”的战略指引下，整个光伏行业持续推动技术迭代与生产力升级，朝着更高光电转化效率、更低成本加速迈进。在此背景下，一批以技术驱动为第一生产力的光伏厂商们，在自身领域中不断追求创新，为行业的技术突破贡献力量。政府和相关部门持续出台相关政策加大对高端装备研发的支持力度，也将极大推动光伏产业的技术创新和产业升级。

光伏行业技术创新产业升级

TravAI:是一款AI驱动的旅行培训产品，提供交互式AI培训、模拟、评估和智能助手，为旅行行业人员提供最新的技能和知识。

TravAI是一款旅行行业的AI驱动培训产品，通过注入AI技术，为培训注入活力。它能创建引人入胜、交互式的培训课程，进行逼真的角色扮演模拟，并设计能够真正起作用的测验。同时，TravAI利用您的数据为旅行团队量身定制个性化学习体验，让培训不再是通用的、一刀切的。它是培训旅行业专业人员的更智能、更快速的方式。

旅行培训 AI

Nextminds:是一家提供在线辅导服务的平台，为所有科目和学术水平的学生提供个性化辅导。

Nextminds是一个提供在线辅导服务的平台，通过与经验丰富的导师在线互动，为学生提供个性化的学习经验。平台提供ICSE、CBSE和州委员会等多种教育体系的辅导。Nextminds的主要优点是学生可以在舒适的家中与专业的导师进行一对一的在线学习，为学生提供高质量的辅导服务。

在线辅导学习个性化

Pedagogue.io:每天花费10分钟，提升您的AI技能。

Pedagogue是一款AI技能培训平台，旨在帮助个人和企业提升AI技能。通过该平台，用户可以学习AI工具、技术和策略，并获得40%的生产力提升。Pedagogue的优势在于更新及时的内容库、个性化的技能培养、有趣的学习方式以及具有商业价值的数据驱动洞察。

AI 技能培训教育

LexiGym:你的语言学习伴侣。🚀 # #HinkouLabs

LexiGym是一款语言学习应用，帮助用户提升语言技能。它具有离线和多语言支持的创新功能，是最强大的语言学习伴侣。用户可以根据自己的预算选择免费使用或付费订阅，灵活选择学习方式。LexiGym还提供易于创建字典和智能学习等功能，以及详细的训练统计数据。

语言学习词汇训练多语言

Alevels.ai:A Levels AI是一个利用人工智能提高A Levels学习成绩的工具。

A Levels AI利用人工智能技术，提供个性化的学习计划和辅导资源，帮助学生在A Levels考试中取得优异成绩。它通过分析学生的学习情况和弱点，为其提供针对性的学习建议和练习题。A Levels AI还提供实时答疑和学习进度跟踪功能，帮助学生更好地掌握知识。

教育考试辅导人工智能

MailReply:是一款AI助手，可生成专业且人性化的邮件回复，节省时间。

MailReply通过AI生成邮件回复，帮助用户节省时间。它可以在保持人类写作风格的同时，根据邮件内容生成上下文相关的回复。MailReply适用于Windows和macOS，并兼容多种邮件客户端。

邮件回复 AI助手工具

Notification harbor:高性能团队的电子邮件营销平台

Notification harbor是一个为电子邮件营销团队提供AI优化的电子邮件内容和自动化流程的平台。通过使用LLM技术，我们可以在短短5分钟内创建高性能的电子邮件营销内容，并且随着时间的推移，产品甚至可以自我优化。我们的平台简化了电子邮件营销活动的方式，确保每个活动都能精准地与您的目标受众建立联系。AI生成的电子邮件模板根据您提供的信息和要求选择最合适的模板。实时个性化电子邮件可以提高用户参与度和转化率，并根据每个用户实时定制内容。AI驱动的电子邮件营销使您的团队在创建电子邮件模板和文本方面节省了60％的时间。

电子邮件电子邮件营销 AI优化

Magic Loops:通过结合ChatGPT自动化与代码，创建简单的自动化任务

Magic Loops是一种基于ChatGPT的自动化工具，可以连接数据、发送电子邮件、接收短信、爬取网站等功能。它能够帮助用户自动化生活中的各种任务，提高工作效率。Magic Loops的主要优点是可以与各种数据源和应用程序集成，轻松实现个性化的自动化需求。

自动化工具 ChatGPT

ReplyAuto:Reply Auto是一款AI邮件助手，能够根据上下文理解邮件内容，并提供智能回复。

Reply Auto是一款使用AI技术的邮件助手，它能够自动分析邮件内容，根据上下文提供智能回复。它的主要优点是提高工作效率，减轻用户的邮件负担，并能够个性化定制回复。Reply Auto定位于帮助用户更高效地处理电子邮件，提高工作效率。

邮件智能回复工作效率

Mailman Workcation:智能邮递员 - 自动化影响力的智能Twitter机器人

AI Mailman利用最新的人工智能技术创建世界上最准确的邮件，比人类更快速和高质量。它提供简单的用户界面，能够创建世界上最强大的邮件模板，打开率更高。使用AI Mailman创建的邮件打开率是其他方式的10倍，生成时间只需10秒。

邮件自动化影响力

Inpost:一款AI驱动的移动应用程序，可以改善个人电子邮件体验。

Inpost.ai是一款基于AI的移动应用程序，可以优化个人电子邮件体验。它帮助用户智能地组织和清理收件箱，专注于重要的电子邮件。它提供无缝的邮件交互，提供增强的安全性和独家功能。通过高级AI模型分析邮件内容，而不暴露用户的敏感信息。用户可以轻松追踪支出、管理发票，并利用促销优惠来优化个人预算。Inpost.ai还提供定制的收件箱分类，让用户能够个性化和高效地管理和优化收件箱。

电子邮件 AI 个人化

Leadog:AI驱动的冷邮件营销、线索跟踪和互动

Leadog.io是一款AI驱动的冷邮件营销平台，提供冷邮件发送、线索跟踪和互动等功能。它采用先进的AI技术来优化冷邮件营销策略，提供精确的邮件投递和跟踪，帮助用户更好地了解和转化潜在客户。

冷邮件线索跟踪营销工具

Prospect AI:一键查找网站上的电子邮件地址和联系人信息

Prospect AI是一款插件，可以帮助销售团队、数字营销人员和公关专业人员免费查找公司的联系人。它使用人工智能技术，快速获取所需的联系人信息，帮助用户拓展业务关系。

市场营销销售潜在客户

Email whisperer:写作完美邮件，让你的电子邮件沟通更上一层楼！

Email Whisperer是一个用于Gmail和Outlook的AI电子邮件编写工具。它可以帮助你轻松地写出完美的电子邮件，提供重新表达、拼写检查和修正功能。它能够提高你电子邮件的清晰度和风格，并确保邮件无错误。Email Whisperer是一个提高电子邮件写作效率的工具，让你的邮件专业而准确。

生产力电子邮件 AI工具

Humanize AI by AI Text Converter:将AI生成的文本转换为与人类写作相匹配的内容。

Humanize AI Text是一个免费在线的AI文本人性化转换工具，能够绕过AI检测，并将AI生成的文本转换为与人类写作相匹配的内容。

AI转换工具文本人性化 AI检测绕过

Happily.ai:使用，超越传统调查。我们的AI平台分析员工情绪，提供可操作的见解，为健康、投入、高绩效的团队提供支持。

Happily.ai是一个AI工具包，帮助人力资源和经理人通过无忧无虑的参与、认可和绩效管理来提高人才留存和团队生产力。

员工参与度人力资源绩效管理

ChatKPI:是一款基于AI的数据分析工具，可以通过文本消息跟踪销售趋势、识别热门产品、了解客户行为，提供图表、定制CSV等功能。

ChatKPI是一个AI数据分析工具，旨在帮助Shopify商家做出更明智的数据驱动决策。它可以提供实时洞察力，跟踪销售趋势，识别热门产品，了解客户行为，并通过自然语言对话提供个性化的商业洞察。ChatKPI可以通过文本消息或在Shopify商店内安装的应用程序使用。

数据分析销售趋势热门产品

Limodify.AI | Email Marketing Design Meets AI:Limodify.AI通过AI技术提供电子商务邮件创建服务。

Limodify.AI革新了电子商务邮件的创建过程，只需点击几下，选择格式，输入关键信息，即可在30秒内获得准备好发送的AI设计的邮件。节省时间，利用先进技术，精确实现您的营销目标。立即免费开始使用。

电子商务邮件营销 AI

PurplePro:使用AI技术，只需两个点击即可启动您的忠诚度俱乐部。

PurplePro是一个使用AI技术的插件，它可以帮助您在短短两个点击的时间内启动您的忠诚度俱乐部。PurplePro通过游戏化和动态的积分规则增加用户参与度，并奖励他们。它还提供了强大的推荐、挑战、问卷和可变奖励功能，帮助您将首次用户转化为忠实的客户。

忠诚度俱乐部用户参与度奖励

LISUTO:株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。

LISUTO株式会社は、eコマースのセラーやマーケットプレイスが売上を増やし、時間を節約し、コアビジネスに集中できるスマートデータ構造化ソリューションのリーダーです。LISUTO AIは、AIタッガーやイメージタッガーなどのサービスを提供し、商品のタグ登録やナビゲーション改善などを自動化し、効率を向上させます。

中国团队开源大规模高质量图文数据集ShareGPT4V

今日大家都在搜的词：

热文

站长商机