首页 > 业界 > 关键词  > CaptioningAI最新资讯  > 正文

LG 推出 Captioning AI 的生成式 AI 服务:像人类一样为图像生成描述和关键字

2023-06-20 10:07 · 稿源:站长之家

站长之家(ChinaZ.com) 6月20日消息:LG 发布了一款名为 Captioning AI 的生成式 AI 服务,该服务可以识别图像中的元素并生成描述和关键词,引发了对这家韩国企业如何影响市场的期望,因为生成式 AI 服务(如 ChatGPT)正在推动变革。

LG

LG AI 研究部门在周日(当地时间)在加拿大温哥华举行的全球最大计算机视觉会议「计算机视觉与模式识别 2023」上发布了 Captioning AI 服务。

LG 表示,该服务基于 LG AI 研究部门的 Zero-shot Image Captioning 技术,这是一种使 AI 能够通过先前的经验和知识理解和描述它第一次看到的对象或场景的技术,就像人类一样。

该公司解释说,Captioning AI 与 Midjourney 等 AI 服务不同,后者需要用户输入文本或插入图像文件,然后 AI 绘制图片。

LG 公司的一位发言人表示:「字幕看起来很简单,因为这是一个古老的概念,但将生成式 AI 技术应用于字幕的想法是,AI 具有对其以前没有见过的图像进行推理的视觉智能。例如,它可以观察图像中的风景或人物,并推断出位置。

研究人员表示,Captioning AI 可以在不到两天的时间内为 1 万张图像生成文本描述和关键词,这可以提高需要管理大量图像的公司的工作效率和生产力。

该服务是通过与 Shutterstock 的合作实现的,Shutterstock 是包括图像和视频在内的全球最大的视觉内容平台。LG AI 研究与这家总部位于美国的公司合作,后者在图像捕捉方面拥有丰富的专业知识。

双方还在确保版权透明性和验证 AI 伦理方面进行了合作,例如 AI 在学习图像时是否以有偏见的方式收集数据等问题。

LG AI 研究的 Vision Lab 负责人 Kim Seung-hwan 表示:「为了在图像捕捉领域确立全球研究领导地位,我们计划通过与各种合作伙伴建立有机合作关系,持续开发新的度量标准并研究新技术。」

在会议期间,LG 集团旗下的子公司,如 LG AI 研究、LG 电子、LG Innotek、LG Energy Solution 和 LG UPlus,举办了 LG AI Day,这是一次针对研究生的招聘活动。

举报

  • 相关推荐
  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • 墨刀AI生成原型图,产品设计快人一步

    国内原型设计平台墨刀发布"AI生成原型图2.0"功能,30秒即可生成可编辑原型图,大幅提升产品设计效率。该功能通过AI技术解决传统原型设计周期长、效率低、修改繁琐等痛点,支持文字描述或图片上传自动生成高保真原型图,并可二次编辑优化。这一创新不仅标志着墨刀AI能力的全面升级,更代表产品设计方式的一次革新,显著加快产品迭代速度。未来,AI原型设计有望成为行业标配,助力企业更快响应市场需求,提升产品竞争力。

  • 神州数码 x 嘉岳数智:以生成式AI打造绿色低碳行业的“懂碳帝”

    在"双碳"战略推动下,绿色转型成为产业升级和企业发展的重要方向。神州数码与嘉岳数智科技合作,探索AI技术在碳评估智能化领域的应用,解决传统碳评估面临的数据分散、专业性强等痛点。通过构建EPAG专家流程增强生成框架、Agent场景分类机制和自动化评估学习流程,显著提升专业术语理解准确率至95%以上,大幅减少人工编辑工作量。双方打造的智能评估产品已进入预发布阶段,为生成式AI在垂直行业落地树立标杆,助力企业实现绿色低碳转型目标。

  • ppt自动生成工具最好用的3个

    文章介绍了当前AI生成PPT工具的发展现状,重点推荐了"秒出PPT"这一专业平台。该平台具有三大特色功能:1)智能对话式生成,支持中途修改需求;2)提供三种编辑模式(纯文本、纯设计和文本+设计);3)支持导入文档自动排版,提供"保持原文"和"AI智能修改"两种模式。平台还拥有丰富的模板库,支持在线更换颜色、字体等设计元素。虽然需要购买会员,但相比市面上质量参差不齐的同类产品,该工具在交互体验和功能完整性上表现突出。

  • 最好用的AI生成PPT工具全球横评:谁才是用户效率与专业的首选?

    文章对比评测了5款主流AI驱动的PPT生成工具,重点从生成速度、内容逻辑、模板质量、国际化体验等维度进行分析。PPT.AI综合表现最佳,其极速响应、强大逻辑架构、海量国际模板库和无缝全球化体验尤为突出,特别适合跨境专业人士;Gamma以交互体验和设计感见长;Presentations.AI生成速度最快;ChatPPT对中文用户最友好;iSlide则依托强大设计资源库更适合团队协作。总体而言,P

  • 技嘉科技 STEALTH Revolution 玩转简约装机美学 力邀创作者打造纯白梦幻桌机

    技嘉科技推出STEALTH Revolution活动,主打纯白美学装机概念。活动以X870AORUS STEALTH ICE主板为核心,邀请全球创作者打造个性化桌机。该系列采用背插式设计,简化装机流程,释放机箱空间,便于展示水冷设备和RGB灯效。新品涵盖X870/B850主板、RTX5090显卡及全景机箱等,联合10余家机箱品牌推出20余款兼容产品。活动提供限量主板供参赛者使用,并开放大众投票评选优秀作品,参与者有机会赢取丰厚奖品。技嘉旨在推动"背插主板×纯白机身"的装机新潮流,满足市场对简约风格的需求。

  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • 可灵AI推出可图2.1模型 多维能力跃升、会员限时7天免费

    可灵AI于7月10日上线可图2.1模型,图片生成能力全面升级:1)指令遵循能力显著提升,可精准捕捉复杂提示细节;2)新增180多种风格响应,支持特殊材质、数字艺术等创作需求;3)人像美感大幅优化,肌肤纹理与光影效果更自然;4)增强电影质感生成,能呈现大片级层次氛围;5)文字生成效果提升,支持中英文营销海报等设计。即日起面向会员免费开放7天,实测显示该模型在复杂场景还原和细节表现上达到新高度,累计已生成超3亿张图片。

  • 向“新”发力!itc保伦股份“分布式+AI边缘计算”赋能警务工作提升档升级

    ITC推出分布式综合管理平台V3.6,深度融合AI边缘计算技术,打造智慧警务指挥系统。该平台具备四大核心功能:1)支持50余种场景的实时监测与AI预警,准确率达95.3%;2)内置可视化编辑工具,实现数据快速分析呈现;3)采用深度学习技术,支持人脸识别、轨迹追踪等智能分析;4)创新拼墙信号管理,支持多业务协同。平台优势包括低延时(16ms)、超强FEC抗丢包(10%)、国密算法加密等,已成功应用于城市治安防控、应急指挥调度等场景,助力公安部门实现精准防控和快速响应。

  • 聚焦AI新赛道,elexcon深圳国际电子展暨嵌入式展设 AI 机器人专区

    2025年深圳国际电子展暨嵌入式展(ELEXCON)将于8月26-28日举办,聚焦"All for AI, All for GREEN"主题。展会特设AI机器人专区,汇聚越疆、大疆等400+产业链企业,展示从芯片到整机的全产业链技术。同期举办第七届中国嵌入式技术大会,探讨具身机器人嵌入式系统等前沿议题。预计吸引600+机器人领域决策者参与,覆盖AI芯片、汽车电子等热点领域。依托深圳电子产业集群优势,展会将成为行业技术交流与资源对接的重要平台。