谷歌研究团队推新AI方法SynCLR:从合成图像和字幕中学习视觉表征

2024-01-05 17:28 · 稿源：站长之家

划重点:
- 💡 SynCLR是一种新颖的人工智能方法，通过合成图像和合成字幕，实现对视觉表征的学习，无需使用真实数据。
- 💡 该方法通过三个阶段实现，包括合成图片字幕、生成合成图像和字幕，以及训练视觉表征模型。
- 💡 研究结果表明，SynCLR在图像分类、细粒度分类和语义分割等任务上表现出色，显示了利用合成数据训练强大AI模型的潜力。

站长之家（ChinaZ.com）1月5日消息:近期，Google Research和MIT CSAIL共同推出了一项名为SynCLR的新型人工智能方法，该方法旨在通过使用合成图像和字幕，实现对视觉表征的学习，摆脱对真实数据的依赖。

SynCLR的工作原理

研究团队首先提出了一个三阶段的方法。首先，在“合成图片字幕”阶段，他们采用大型语言模型的上下文学习能力，通过单词到字幕的转换示例，生成了大量的图片字幕。接着，在“生成合成图像和字幕”阶段，利用文本到图像扩散模型，生成了包含6亿张合成图片的数据集。最后，在“训练视觉表征模型”阶段，研究团队使用了掩蔽图像建模和多正对比学习，训练模型从合成数据中学到有意义的表征。

实验结果

研究结果表明，SynCLR在多个任务上取得了令人瞩目的成绩。通过与现有模型如CLIP和DINO v2进行比较，SynCLR在ImageNet-1K上的线性探测准确率以及细粒度分类和ADE20k上的语义分割任务上都表现出色。特别值得一提的是，SynCLR在以字幕为级别的细粒度上的优越性，为模型的可扩展性和在线类别增强提供了便利。

尽管SynCLR在合成数据上展现出了强大的性能，研究团队也提出了一些改进方向。其中包括使用更复杂的大型语言模型、优化不同概念之间的样本比例、探索高分辨率训练阶段等。这些改进有望进一步提升合成数据在训练人工智能模型中的效果。

项目网址:https://github.com/google-research/syn-rep-learn

论文网址:https://arxiv.org/pdf/2312.17742.pdf

（举报）

相关推荐

关键词：

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

Soul App近日开源其播客语音合成模型SoulX-Podcast，专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言，可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外，在通用语音合成及克隆任务中表现优异，能灵活调节节奏与副语言元素（如笑声），提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

语音合成模型 SoulX-Podcast 多轮对话
TTi OS行业首发“四图融合”车道级导航

2025年10月30日，TTi+OS车道级导航正式量产，成为行业首个“四图融合”产品。它基于自研多模态融合引擎，实现高精度导航信息直观呈现与便捷交互，提升出行安全与个性化体验。系统集成SR渲染、环境重构等四大功能，实时识别车道位置，通过直觉式交互引导路径，帮助复杂路况操作。依托高算力平台，可视化呈现动态风险与辅助驾驶信息，增强行车安全。产品融入解压游戏、地标建筑等娱乐化设计，兼具趣味性。目前该导航已搭载于深蓝L06车型，标志量产落地，未来将持续优化AI座舱体验，引领智能汽车科技进化。

车道级导航四图融合 TTi
星环科技与国泰海通签署战略合作协议，共探AI重构数据应用新未来

10月24日，国泰海通金融科技文化节主题论坛暨上海苏河湾大会成功举办。星环科技创始人孙元浩受邀出席，与国泰海通签署战略合作协议。双方将围绕数据平台建设、AI应用创新、智能风控与投研等领域深度合作，推动金融行业数字化与智能化转型。星环科技作为企业AI基础设施服务商，提供全生命周期数据服务；国泰海通拥有完善金融服务体系。双方将发挥各自在AI、大数据及金融场景优势，共同探索AI大模型在金融服务中的创新应用，打造行业标杆案例。

金融科技数字化转型 AI应用
澳门建筑机械工程商会会长萧东文一行到访itc保伦股份，共话湾区合作新篇章

10月27日，澳门建筑机械工程商会会长萧东文率团27人考察广东保伦电子（ITC股份）。代表团参观了ITC智慧展厅、AI智慧体育等智能化场景，深入了解其发展历程、产品特色及企业规划。ITC营销总经理林哲鑫介绍了公司在自主研发、全场景解决方案及技术投入方面的成果。双方就区域产业合作、资源共享等议题深入交流，期待未来在技术研发、市场拓展等方面深化合作，共同推动音视频行业高质量发展。此次考察为两地企业搭建了沟通平台，标志着合作新篇章的开启。

创新科技建筑机械产业交流
健合旗下合生元引领渠道赴法溯源，夯实初乳营养天花板地位

10月14日，健合集团旗下合生元组织19家合作伙伴组成“初乳营养天花板见证官”，赴法国诺曼底开展溯源之旅。参与者实地探访奶源基地，深入了解优质奶源、生产工艺及科学配方，通过沉浸式体验直观验证了合生元派星3段“初乳营养天花板”的高端品质。诺曼底牧场环境优越，采用珍稀“熊猫牛”奶源，其乳脂和蛋白质含量高，并通过先进工艺保留原生营养。此次活动展现�

合生元初乳营养诺曼底奶源
打破跨境合作信息壁垒，邓白氏首款C端产品“龙易查™”于第八届进博会发布

2025年11月5日，邓白氏在进博会推出首款面向中国C端用户的企业信息查询平台“龙易查™”。该平台覆盖全球200多个国家、超8.5亿家企业数据，提供全球企业实时查询、境外股权穿透、企业付款洞察等功能，通过手机即可快速获取企业工商信息、风险数据等关键资料，助力用户跨境商业决策。产品还独家引入企业付款指数（PAYDEX®），直观评估合作方付款信用，帮助规避潜在坏账风险。邓白氏旨在通过数据透明提升商业韧性，重塑全球商业信任基础。

全球企业查询跨境商业决策企业数据资源
双十一期间最适合入手的外设组合来了，联想极光键鼠组队出击焕新你的桌搭主场

临近年底，联想在双11期间推出五大升级服务方案：提供极光GK10三模键盘与GM11鼠标组合，支持多设备切换与灯效联动；推出原厂内存与固态硬盘升级服务，提升设备性能；推出保值换新服务，笔记本、手机等设备可按比例折价换新；全国门店提供免费贴膜服务，覆盖多品类设备；推出清洁保养限时优惠，包括深度除尘与硅脂更换。旨在通过一站式服务解决用户设备卡顿、操作不顺等问题，提升使用体验。

设备维护电脑升级双11促销
高德宣布合作网约车平台接入鹰眼守护关键时候能保命

高德地图宣布其网约车平台与顺风车全面接入“鹰眼守护”预警系统。该系统基于海量匿名行车数据，通过AI实时分析前方车辆急刹、弯道会车等异常行为，及时向后方司机推送预警。试运行数据显示，接入后相关事故和客诉大幅下降，目前已覆盖17种出行场景并实现全国应用。

高德地图鹰眼守护网约车安全
九号公司联合海淀区多部门开展安全科普活动

11月6日，北京海淀区东升镇举办电动自行车新国标安全科普活动，主题为"践行新标准+乐享安心行"。活动由市场监管部门指导，九号公司承办，旨在普及2025年实施的GB17761-2024新国标。现场通过科普集市、趣味问答、免费检修等形式，将安全知识转化为实用技巧，提升市民安全意识。多部门协同参与，构建全链条科普体系，推动新国标顺利落地，筑牢出行安全防线。

电动自行车新国标安全科普
荐AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发布；中文图像编辑新王UniWorld-V2发布

今日AI领域动态：上海首例AI提示词著作权案宣判，法院认定提示词不具独创性；月之暗面发布Kimi K2思考模型，实现自主多轮工具调用；UniWorld-V2图像编辑模型支持中文框选即改，性能超越GPT-Image；谷歌推出AI文件检测工具Magika 1.0，支持超200种格式；Sora安卓版首日下载量达47万次；我国发布全球首个AI海洋大模型“瞰海”，可精准预测10天内海洋变化；宇树科技“Embodied Avatar”系统实现低延迟远程机器人操控；谷歌Gemini API推出文件搜索工具，简化私有RAG系统集成。

AI 著作权提示词

今日大家都在搜的词：

热文

3 天
7天

谷歌研究团队推新AI方法SynCLR:从合成图像和字幕中学习视觉表征

Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

TTi OS行业首发“四图融合”车道级导航

星环科技与国泰海通签署战略合作协议，共探AI重构数据应用新未来

澳门建筑机械工程商会会长萧东文一行到访itc保伦股份，共话湾区合作新篇章

健合旗下合生元引领渠道赴法溯源，夯实初乳营养天花板地位

打破跨境合作信息壁垒，邓白氏首款C端产品“龙易查™”于第八届进博会发布

双十一期间最适合入手的外设组合来了，联想极光键鼠组队出击焕新你的桌搭主场

高德宣布合作网约车平台接入鹰眼守护关键时候能保命

九号公司联合海淀区多部门开展安全科普活动

荐AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发布；中文图像编辑新王UniWorld-V2发布

今日大家都在搜的词：

热文

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

特斯拉股东批准马斯克万亿美元薪酬包

曝折叠屏iPhone配2400万屏下摄像头预计2026年秋亮相

华为鸿蒙智行新款享界S9开启预订：预售价31.8万起

OPPO Find X9 Pro卫星通信版开启预售：6999元

何小鹏再回应机器人里藏真人质疑：现场展示内部结构

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

阿里回应饿了么更名：正处于灰度测试阶段

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

华为Mate70 Air官宣今日开启预售

vivo Y500 Pro官宣11月10日发布：同档首发2亿HP5主摄

站长商机