研究：合成字幕对多模态模型训练有用吗？

2023-07-26 14:49 · 稿源：站长之家

站长之家（ChinaZ.com）7月26日消息:多模态模型是人工智能领域的重大进展之一。这些模型可以处理和理解来自多种模态的数据，包括视觉（如图像和视频）、文本(如自然语言)和音频(如语音和声音)。这些模型能够结合和分析来自这些不同模态的数据，执行需要在多种数据类型之间进行理解和推理的复杂任务。

由于大型多模态模型在视觉任务中被广泛使用，因此对这些模型进行图像 - 文本对的预训练已经证明可以在各种与视觉相关的任务上获得高性能。

数据分析数据监测互联网大数据 (2)

论文地址:https://arxiv.org/abs/2307.10350

研究人员一直在尝试改善用于视觉任务中的大型多模态模型的网络数据（如图像 - 文本对）的实用性，但由于诸多因素的影响，如图像和文本不匹配、数据源有问题和低质量内容，网络数据经常含有噪音或无信息性。

目前，现有的方法虽然可以降低数据中的噪音，但往往会导致数据多样性的损失。为了解决这个问题，一个研究团队提出了一种关注网页抓取数据中字幕质量的方法。

他们的主要目标是探索生成的字幕如何提高具有模糊或无信息性文本的图像 - 文本对的实用性。为此，研究团队测试了几种混合策略，将原始网站字幕与模型生成的字幕相结合。

这种方法在数据比较基准 DataComp 提供的最佳过滤策略上取得了显著的优势。在拥有1.28亿个图像 - 文本对的候选池中，ImageNet 的改进达到了2%，在38个任务中，平均改进为4%。他们的最佳方法在 Flickr 和 MS-COCO 的检索任务中超过了传统技术，证明了他们的策略在实际应用中的可行性。

研究团队通过测试多个图像字幕模型来探讨人工生成的字幕为文本监督提供了什么样的帮助。团队通过研究发现，模型生成的字幕对于多模态训练的实用性并不总是由其在已建立的图像字幕基准（如 NoCaps CIDEr）上的表现好坏来确定。这凸显了评估生成的字幕的必要性，特别是对于多模态活动，而不仅仅依赖传统的图像字幕基准。

研究使用了 DataComp 的12.8亿个图像 - 文本对的数据集，以研究生成的字幕在更广泛范围内的应用。这个实验揭示了合成文本的局限性，并强调了在扩大训练数据的情况下，图像筛选的重要性的增加。

团队分享的见解包括:

选择一个字幕模型时，对预训练网络进行微调可能不会产生对多模态训练有效的字幕;
多个来源的字幕的组合可以提高在小规模和中规模 DataComp 基准上的性能;
在个体级别上，合成字幕的噪音较少且包含更多视觉信息，但在群体水平上，与原始字幕相比，它们缺乏多样性;
合成字幕的效益的可扩展性因不同的数据规模而异，通过尝试不同的数量，可以突显合成字幕的局限性，图像质量控制和多样性差距在更大的数据范围内变得更加重要。

（举报）

相关推荐

关键词：

荣耀Magic 8系列上新，火山引擎助力“YOYO助理”多模态升级

10月15日，荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等年度旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力，结合火山引擎与豆包大模型技术，支持联网问答、识图、修图、闲陪伴、口语练习、出行规划等场景，提供图文、语音、视频等多种输入输出形式，实现秒级响应与沉浸式交互体验，成为用户“口袋里的万能管家”。

荣耀Magic8系列 MagicOS10操作系统 YOYO助理
Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App近日开源其播客语音合成模型SoulX-Podcast，专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言，可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外，在通用语音合成及克隆任务中表现优异，能灵活调节节奏与副语言元素（如笑声），提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

语音合成模型 SoulX-Podcast 多轮对话
【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

阿里云启动双十一“AI智慧季”大型优惠活动，聚焦企业多元AI场景落地需求，推出7000万tokens大模型免费体验、GPU新客特惠等政策，助力企业降低开发成本。同时提供标准化AI产品与解决方案，覆盖内容创作、智能客服等高频应用场景，并举办系列技术分享活动，携手企业拥抱AI新时代。

AI技术阿里云双十一优惠
腾讯云、腾讯研究院、Gartner联合发布《企业级智能体产业落地研究报告》，筑牢智能体应用安全基座

腾讯云与Gartner联合发布《企业级智能体产业落地研究报告》，提出智能体场景罗盘评估模型，覆盖金融、零售等14大行业100+应用场景。报告指出智能体正从辅助工具演进为关键业务引擎，同时企业面临安全、成本等落地挑战。腾讯云安全提供全生命周期技术保障，通过华住集团、绝味食品等案例展示智能体在提升效率、优化服务方面的显著成效，助力企业构建“高可靠、强防护”的智能体体系。

智能体落地腾讯云安全企业智能化转型
黑科技破圈！3i携F1 Pro成「无忧之夜」唯一家电合作伙伴

2025年10月30日，无忧传媒在海南三亚举办“无忧之夜”年度行业盛典，湖南卫视同步推出特别节目，实现线上线下联动。科技家电品牌3i作为唯一官方合作伙伴亮相，展示旗舰产品净地站F1Pro，其蒸汽热活水洗与净水循环系统突破传统扫地机形态，实现免换水、免上下水的自循环体验，引发行业关注。盛典汇聚张韶涵、吴克群等明星及行业领袖，共话消费趋势。3i与无忧传媒达成“内容共创×技术体验”合作，未来将探索智能家电与传媒内容的深度融合，共同推动中国智造在全球的传播影响力。

无忧之夜 3i净地站F1Pro 湖南卫视
YOUMAGIC舒立缇与北京清华长庚医院联合启动单极射频多适应症临床研究

10月27日，YOUMAGIC舒立绯与北京清华长庚医院联合启动射频技术临床研究计划。双方将开展单极射频设备在面部年轻化及痤疮治疗领域的有效性与安全性评估，聚焦轻中度皱纹合并痤疮的临床应用。通过前瞻性自身对照研究设计，结合标准化治疗方案，推动技术临床标准化与循证医学证据积累，为医企协同创新提供实践范本，助力行业高质量发展。

单极射频面部年轻化痤疮治疗
低空+发展研究报告（2025年）

上海财经大学数字经研院近日发布《低空+发展研究报告（2025年）》。报告梳理我国低空经济发展现状，提出六要素发展框架，涵盖工业、测绘、物流、文旅、应急救援及城市治理等多元应用场景。报告指出低空经济正与各领域深度融合，成为继“互联网+”“AI+”后的新经济形态，但也面临空域管理改革滞后、基础设施薄弱、核心技术依赖度高、政策协同不足及商业模式不成熟等五大瓶颈。针对人工智能时代发展需求，报告建议加快低空领域改革、建立AI调度体系、突破关键技术、完善产业生态，预计到2035年市场规模将达4万亿元。

低空经济低空+工业低空+物流运输
扎完你的扎你的男幼师成发型主理人：称要更加做好自己

近日，杭州市东城第三幼儿园的00后男幼师叶泽峰凭借一手出色的扎辫技艺，在园内迅速走红，成为备受孩子们欢迎的“发型主理人”。每天午睡起床后，小女孩们都会排起长队，等待叶老师为自己设计并梳理各种长发造型，这一温馨场景被网友们形象地形容为“长发小公主”们排队等他“扎完你的扎你的”。叶泽峰不仅展现出了超凡的动手能力和创意，能够熟练完成多种不�

男幼师扎辫技艺长发造型
Soul App联合上海市青少年研究中心发布《2025 Z世代双十一消费行为报告》：大促参与度再提升，超9成年轻人快乐买买买

《2025Z世代双十一消费行为报告》显示，双十一已从购物节演变为融合消费、文化与社交的年度盛事。超九成Z世代参与大促，消费信心增强，约四成年轻人增加预算。AI技术重塑购物体验，七成认可AI+电商应用。消费热点转向情绪价值，旅行类消费占比最高（36.9%），文化消费显著（21.4%）。线下渠道受关注，超七成年轻人参与实体活动。国货品牌持续受青睐，消费选择更理性，呈现“热情参与、理性决策”特征。

双十一 Z世代消费行为
陈天桥在AIAS上首提“发现式智能”，宣告AI研究新范式

2025年10月27-28日，AI驱动科学研讨会（AIAS 2025）在美国旧金山举行。陈天桥发表主题演讲，首次提出“发现式智能”概念，指出这是真正的通用人工智能，强调AI应帮助人类发现未知而非替代人类。他提出实现路径需结合规模路径与结构路径，并分析大脑时间结构包含神经动力学、长期记忆、因果推理、世界模型和元认知五大能力。会议宣布投入超十亿美元建设算力集群，支持年轻科学家探索智能本质。

AI驱动科学发现式智能通用人工智能

今日大家都在搜的词：

热文

3 天
7天

研究：合成字幕对多模态模型训练有用吗？

荣耀Magic 8系列上新，火山引擎助力“YOYO助理”多模态升级

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

腾讯云、腾讯研究院、Gartner联合发布《企业级智能体产业落地研究报告》，筑牢智能体应用安全基座

黑科技破圈！3i携F1 Pro成「无忧之夜」唯一家电合作伙伴

YOUMAGIC舒立缇与北京清华长庚医院联合启动单极射频多适应症临床研究

低空+发展研究报告（2025年）

扎完你的扎你的男幼师成发型主理人：称要更加做好自己

Soul App联合上海市青少年研究中心发布《2025 Z世代双十一消费行为报告》：大促参与度再提升，超9成年轻人快乐买买买

陈天桥在AIAS上首提“发现式智能”，宣告AI研究新范式

今日大家都在搜的词：

热文

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

华为Mate70 Air官宣今日开启预售

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

何小鹏回应机器人IRON里是真人质疑：感谢认可

站长商机