首页 > 业界 > 关键词  > SynCLR最新资讯  > 正文

谷歌研究团队推新AI方法SynCLR:从合成图像和字幕中学习视觉表征

2024-01-05 17:28 · 稿源:站长之家

划重点:

- 💡 SynCLR是一种新颖的人工智能方法,通过合成图像和合成字幕,实现对视觉表征的学习,无需使用真实数据。

- 💡 该方法通过三个阶段实现,包括合成图片字幕、生成合成图像和字幕,以及训练视觉表征模型。

- 💡 研究结果表明,SynCLR在图像分类、细粒度分类和语义分割等任务上表现出色,显示了利用合成数据训练强大AI模型的潜力。

站长之家(ChinaZ.com)1月5日 消息:近期,Google Research和MIT CSAIL共同推出了一项名为SynCLR的新型人工智能方法,该方法旨在通过使用合成图像和字幕,实现对视觉表征的学习,摆脱对真实数据的依赖。

image.png

SynCLR的工作原理

研究团队首先提出了一个三阶段的方法。首先,在“合成图片字幕”阶段,他们采用大型语言模型的上下文学习能力,通过单词到字幕的转换示例,生成了大量的图片字幕。接着,在“生成合成图像和字幕”阶段,利用文本到图像扩散模型,生成了包含6亿张合成图片的数据集。最后,在“训练视觉表征模型”阶段,研究团队使用了掩蔽图像建模和多正对比学习,训练模型从合成数据中学到有意义的表征。

实验结果

研究结果表明,SynCLR在多个任务上取得了令人瞩目的成绩。通过与现有模型如CLIP和DINO v2进行比较,SynCLR在ImageNet-1K上的线性探测准确率以及细粒度分类和ADE20k上的语义分割任务上都表现出色。特别值得一提的是,SynCLR在以字幕为级别的细粒度上的优越性,为模型的可扩展性和在线类别增强提供了便利。

尽管SynCLR在合成数据上展现出了强大的性能,研究团队也提出了一些改进方向。其中包括使用更复杂的大型语言模型、优化不同概念之间的样本比例、探索高分辨率训练阶段等。这些改进有望进一步提升合成数据在训练人工智能模型中的效果。

项目网址:https://github.com/google-research/syn-rep-learn

论文网址:https://arxiv.org/pdf/2312.17742.pdf

举报

  • 相关推荐
  • Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

    Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

  • TTi OS行业首发“四图融合”车道级导航

    2025年10月30日,TTi+OS车道级导航正式量产,成为行业首个“四图融合”产品。它基于自研多模态融合引擎,实现高精度导航信息直观呈现与便捷交互,提升出行安全与个性化体验。系统集成SR渲染、环境重构等四大功能,实时识别车道位置,通过直觉式交互引导路径,帮助复杂路况操作。依托高算力平台,可视化呈现动态风险与辅助驾驶信息,增强行车安全。产品融入解压游戏、地标建筑等娱乐化设计,兼具趣味性。目前该导航已搭载于深蓝L06车型,标志量产落地,未来将持续优化AI座舱体验,引领智能汽车科技进化。

  • 星环科技与国泰海通签署战略合作协议,共探AI重构数据应用新未来

    10月24日,国泰海通金融科技文化节主题论坛暨上海苏河湾大会成功举办。星环科技创始人孙元浩受邀出席,与国泰海通签署战略合作协议。双方将围绕数据平台建设、AI应用创新、智能风控与投研等领域深度合作,推动金融行业数字化与智能化转型。星环科技作为企业AI基础设施服务商,提供全生命周期数据服务;国泰海通拥有完善金融服务体系。双方将发挥各自在AI、大数据及金融场景优势,共同探索AI大模型在金融服务中的创新应用,打造行业标杆案例。

  • 澳门建筑机械工程商会会长萧东文一行到访itc保伦股份,共话湾区合作新篇章

    10月27日,澳门建筑机械工程商会会长萧东文率团27人考察广东保伦电子(ITC股份)。代表团参观了ITC智慧展厅、AI智慧体育等智能化场景,深入了解其发展历程、产品特色及企业规划。ITC营销总经理林哲鑫介绍了公司在自主研发、全场景解决方案及技术投入方面的成果。双方就区域产业合作、资源共享等议题深入交流,期待未来在技术研发、市场拓展等方面深化合作,共同推动音视频行业高质量发展。此次考察为两地企业搭建了沟通平台,标志着合作新篇章的开启。

  • 健合旗下合生元引领渠道赴法溯源,夯实初乳营养天花板地位

    10月14日,健合集团旗下合生元组织19家合作伙伴组成“初乳营养天花板见证官”,赴法国诺曼底开展溯源之旅。参与者实地探访奶源基地,深入了解优质奶源、生产工艺及科学配方,通过沉浸式体验直观验证了合生元派星3段“初乳营养天花板”的高端品质。诺曼底牧场环境优越,采用珍稀“熊猫牛”奶源,其乳脂和蛋白质含量高,并通过先进工艺保留原生营养。此次活动展现�

  • 高德宣布合作网约车平台接入鹰眼守护 关键时候能保命

    高德地图宣布其网约车平台与顺风车全面接入“鹰眼守护”预警系统。该系统基于海量匿名行车数据,通过AI实时分析前方车辆急刹、弯道会车等异常行为,及时向后方司机推送预警。试运行数据显示,接入后相关事故和客诉大幅下降,目前已覆盖17种出行场景并实现全国应用。

  • 打破跨境合作信息壁垒,邓白氏首款C端产品“龙易查™”于第八届进博会发布

    2025年11月5日,邓白氏在进博会推出首款面向中国C端用户的企业信息查询平台“龙易查™”。该平台覆盖全球200多个国家、超8.5亿家企业数据,提供全球企业实时查询、境外股权穿透、企业付款洞察等功能,通过手机即可快速获取企业工商信息、风险数据等关键资料,助力用户跨境商业决策。产品还独家引入企业付款指数(PAYDEX®),直观评估合作方付款信用,帮助规避潜在坏账风险。邓白氏旨在通过数据透明提升商业韧性,重塑全球商业信任基础。

  • 双十一期间最适合入手的外设组合来了,联想极光键鼠组队出击焕新你的桌搭主场

    临近年底,联想在双11期间推出五大升级服务方案:提供极光GK10三模键盘与GM11鼠标组合,支持多设备切换与灯效联动;推出原厂内存与固态硬盘升级服务,提升设备性能;推出保值换新服务,笔记本、手机等设备可按比例折价换新;全国门店提供免费贴膜服务,覆盖多品类设备;推出清洁保养限时优惠,包括深度除尘与硅脂更换。旨在通过一站式服务解决用户设备卡顿、操作不顺等问题,提升使用体验。

  • 九号公司联合海淀区多部门开展安全科普活动

    11月6日,北京海淀区东升镇举办电动自行车新国标安全科普活动,主题为"践行新标准+乐享安心行"。活动由市场监管部门指导,九号公司承办,旨在普及2025年实施的GB17761-2024新国标。现场通过科普集市、趣味问答、免费检修等形式,将安全知识转化为实用技巧,提升市民安全意识。多部门协同参与,构建全链条科普体系,推动新国标顺利落地,筑牢出行安全防线。

  • AI日报:上海首例涉AI提示词著作权案宣判;Kimi K2 Thinking发布;中文图像编辑新王UniWorld-V2发布

    今日AI领域动态:上海首例AI提示词著作权案宣判,法院认定提示词不具独创性;月之暗面发布Kimi K2思考模型,实现自主多轮工具调用;UniWorld-V2图像编辑模型支持中文框选即改,性能超越GPT-Image;谷歌推出AI文件检测工具Magika 1.0,支持超200种格式;Sora安卓版首日下载量达47万次;我国发布全球首个AI海洋大模型“瞰海”,可精准预测10天内海洋变化;宇树科技“Embodied Avatar”系统实现低延迟远程机器人操控;谷歌Gemini API推出文件搜索工具,简化私有RAG系统集成。

今日大家都在搜的词: