麻省理工学院的计算机视觉算法可识别精确到像素的图像

2022-04-26 20:18 · 稿源： cnbeta

对于人类来说，识别一个场景中的物品是非常简单的一件事。但是对于人工智能和计算机视觉系统来说，发展对其周围环境的高保真理解需要更多的努力，如果我们说得具体一点，大约需要800小时的手工标记训练图像的努力。为了帮助机器更好地看到人的方式，麻省理工学院CSAIL的一个研究小组与康奈尔大学和微软合作，开发了STEGO，一种能够识别图像到单个像素的算法。

通常情况下，创建CV训练数据需要人类在图像中的特定对象周围画上方框--比如，在坐在一片草地上的狗周围画上方框--并给这些方框贴上里面的东西（"狗"），这样，在上面训练的AI就能把狗和草地区分开来。相反，STEGO（基于能量的图谱优化的自我监督转化器）使用一种被称为语义分割的技术，它将类别标签应用于图像中的每个像素，使人工智能对其周围的世界有一个更准确的看法。

一个有标签的盒子会把物体加上周围像素中的其他项目放在盒子的边界内，而语义分割给物体中的每个像素都贴上标签，但只有构成物体的像素--你只得到狗的像素，而不是狗的像素加上一些草。这是机器学习，相当于在Photoshop中使用智能套索与矩形划线工具。

这种技术的问题主要出现在范围上，传统的多镜头监督系统通常需要数千，甚至数十万的标记图像来训练算法。乘以组成256x256的单一图像的65536个单独的像素，所有这些像素现在也需要被单独标记，所需的工作量迅速上升到不可能完成。

相反，"STEGO寻找在整个数据集中出现的类似物体，"CSAIL团队在周四的一份新闻稿中写道。"然后它将这些类似的物体联系在一起，在它所学习的所有图像中构建一个一致的世界观。

"如果你在看肿瘤扫描、行星表面或高分辨率的生物图像，如果没有专家知识，你很难知道要寻找什么对象。在新兴领域，有时甚至人类专家也不知道正确的对象应该是什么，"麻省理工学院CSAIL博士生，微软软件工程师，以及论文的主要作者马克-汉密尔顿说。"在这些类型的情况下，需要设计一种方法在科学的边界上运作，尤其是不能依靠人类在机器之前弄清楚的情况下。"

研究人员在各种各样的图像领域--从家庭内部到高空航拍--上进行了训练，结果显示STEGO的性能是以前语义分割方案的两倍，并且与人类控制的图像评估密切相关。更重要的是，"当应用于无人驾驶汽车数据集时，STEGO成功地分割出了道路、人和街道标志，其分辨率和颗粒度比以前的系统高得多。"麻省理工学院CSAIL团队写道："在来自太空的图像上，该系统将地球表面的每一平方英尺都分解为道路、植被和建筑物。"

"在制作一个理解潜在的复杂数据集的通用工具时，我们希望这种类型的算法能够使从图像中发现物体的科学过程自动化，"汉密尔顿说。"有很多不同的领域，在这些领域中，人类的标签将是非常昂贵的，或者人类甚至根本不知道具体的结构，比如在某些生物和天体物理领域。我们希望未来的工作能够应用于非常广泛的数据集。由于你不需要任何人类标签，我们现在可以开始更广泛地应用ML工具。"

尽管其性能优于之前的系统，但STEGO也有其局限性。例如，它可以将意大利面和玉米糁都识别为"食品"，但不能很好地区分它们。它还会被一些无意义的图像所迷惑，比如说坐在电话听筒上的一根香蕉。这是一种食品还是生活用品？STEGO无法分辨。该团队希望在未来的迭代中建立更多的灵活性，使该系统能够识别多个类别的物体。

（举报）

相关推荐

关键词：

00后担大梁交大本科生在计算机安全顶级会议上实现突破，打造大模型全方位安全分析底座

上海交大本科生徐菲悦为第一作者的论文《大型语言模型鲁棒性与对齐的多维评估框架》被IEEE S&P 2026录用。该研究提出“安全魔方”评估体系，构建覆盖攻击、防御与判定三大维度的多指标框架，系统化刻画LLM安全性，新增攻击稳定性、跨模型迁移性等关键度量，弥补传统单一指标不足，为研究比较、安全基线制定及监管审查提供可操作的通用量表。

大型语言模型安全评估 IEEE
999元！小米发布REDMI投影仪4：360流明CVA亮度、1080P分辨率

小米今天上线了一款新品REDMI投影仪4，定位家用入门级，预约首发价999元。拥有360流明CVIA亮度，较前代提升38%，白天拉帘可正常观看；通过SGS低蓝光认证，有效过滤415nm-455nm短波蓝光，减少长时间观影对眼睛的伤害。 1080P物理分辨率、1.2:1投射比，可

REDMI投影仪4 家用投影仪低蓝光认证
微算法科技（NASDAQ MLGO）：以隐私计算区块链筑牢多方安全计算（MPC）安全防线

微算科技开发的隐私计算区块链将区块链技术融入多方安全计算（MPC），构建安全可信的分布式计算平台。通过区块链共识机制、加密算法和智能合约，对MPC参与方身份验证、数据加密存储、任务执行及结果验证等环节进行保护，确保数据“可用不可见”。该技术显著提升数据隐私保护和计算可靠性，在金融、医疗、政务等领域实现跨主体数据安全协作，释放数据价值。

数据流通多方安全计算隐私计算
荐AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发布；中文图像编辑新王UniWorld-V2发布

今日AI领域动态：上海首例AI提示词著作权案宣判，法院认定提示词不具独创性；月之暗面发布Kimi K2思考模型，实现自主多轮工具调用；UniWorld-V2图像编辑模型支持中文框选即改，性能超越GPT-Image；谷歌推出AI文件检测工具Magika 1.0，支持超200种格式；Sora安卓版首日下载量达47万次；我国发布全球首个AI海洋大模型“瞰海”，可精准预测10天内海洋变化；宇树科技“Embodied Avatar”系统实现低延迟远程机器人操控；谷歌Gemini API推出文件搜索工具，简化私有RAG系统集成。

AI 著作权提示词
全球计算机系统领域“奥运会”SOSP公布最佳论文 “星绽”OS入选

近日，被誉为计算机系统领域“奥运会”的顶级学术会议SOSP 2025公布奖项评选结果，“星绽”开源操作系统在高可扩展内存管理方面的研究论文斩获最佳论文奖。该论文提出创新技术CortenMM，摒弃传统软硬件两级抽象，采用“单层抽象”架构，显著提升性能，在真实场景下性能最高可达Linux的26倍。同时利用Rust语言安全特性及形式化验证工具，从根本上杜绝并发漏洞，兼顾性能与安全。这标志着星绽OS在破解操作系统“性能与安全兼顾”难题上获得国际学术界认可。

星绽开源操作系统 SOSP2025最佳论文高可扩展内存管理
小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

在第七届小鹏科技日上，小鹏汽车发布全新人形机器人IRON，其拟人化程度领先，拥有仿生脊柱、肌肉及柔性皮肤，配备3D曲面显示与灵巧双手，实现22个自由度。搭载3颗图灵AI芯片，算力达2250TOPS，支持对话、行走等智能交互，并采用全固态电池提升安全性。集成自研物理世界模型与VLT/VLA/VLM能力，实现环境感知与反馈。IRON将优先应用于商业场景，并与宝钢合作探索工业巡检。小鹏宣布开放SDK，邀请全球开发者共建机器人应用生态。

小鹏科技日人形机器人 IRON
GEO品牌提及率用什么查？GEO优化工具推荐一览

在数字化浪潮以排山倒海之势席卷全球的当下，AI技术已成为推动各行业变革的核心力量。品牌营销领域也不例外，众多企业纷纷将目光投向AI平台，期望借助其强大的能力提升品牌影响力、拓展市场份额。然而，在竞争激烈的AI平台生态中，品牌如何脱颖而出，成为众多企业亟待解决的关键问题。在此背景下，AIBase推出的GEO优化分析工具（https://app.aibase.com/zh/tools/geo）应运而生

AI技术品牌营销 AI平台
免费 “GEO品牌可见度查询”工具分享，让你精准监控 AI 提及率！

本文探讨AI时代品牌在AI助手回答中"看不见自己"的问题，指出关键在于"AI提及率"——品牌在AI生成内容中被引用的频率。文章强调监控AI提及率可提升品牌在ChatGPT等平台的可见度与信任度，并推荐免费工具AIBase的GEO排名查询工具进行监测。同时提出四大优化策略：强化品牌关键词匹配、提升内容权威性、扩大品牌语境覆盖、建立"监控-优化-迭代"闭环。建议内容创作者结合传统SEO与AI提及率监控，量化提升品牌在AI生态中的影响力。

AI提及率品牌内容 SEO优化
免费 GEO品牌可见度查询，帮你提升品牌在 AI 回答中的提及率!

本文探讨AI时代品牌在生成式引擎优化(GEO)中的提及率重要性。指出品牌被AI模型在回答中提及，等于获得"AI信任入口"，能显著提升可见度和用户印象。提出五大优化策略：优化AI友好内容、建设权威生态、采用结构化数据、持续监控迭代、坚守品牌信任。推荐使用AIBase平台的免费GEO查询工具实时追踪表现，形成"监控-优化-再监控"闭环，数据显示优化后品牌提及率平均提升260%。

品牌提及率 AI回答优化 GEO排名
REDMI官方：REDMI K90超级像素新国屏比2K屏更强

10月30日，Redmi官方回应K90系列屏幕配置问题，确认全系未采用2K屏，但搭载全新“超级像素新国屏”。该屏幕采用全RGB新一代显示技术，每个像素由独立红绿蓝子像素构成，实现OLED从有损到无损的重大突破。K90 Pro+Max子像素数量达938万，超越传统2K排列，显示文字、线条和图片边缘更清晰锐利。全RGB排列还具备减轻视觉疲劳优势，配合圆偏振2.0、DC调光等护眼技术。核心配置上，K90搭载骁龙8至尊版平台，Pro+Max升级为第五代骁龙8至尊版。起售价分别为2599元和3999元。

REDMI K90 超级像素新国屏

今日大家都在搜的词：

热文

3 天
7天

麻省理工学院的计算机视觉算法可识别精确到像素的图像

00后担大梁交大本科生在计算机安全顶级会议上实现突破，打造大模型全方位安全分析底座

999元！小米发布REDMI投影仪4：360流明CVA亮度、1080P分辨率

微算法科技（NASDAQ MLGO）：以隐私计算区块链筑牢多方安全计算（MPC）安全防线

荐AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发布；中文图像编辑新王UniWorld-V2发布

全球计算机系统领域“奥运会”SOSP公布最佳论文 “星绽”OS入选

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

GEO品牌提及率用什么查？GEO优化工具推荐一览

免费 “GEO品牌可见度查询”工具分享，让你精准监控 AI 提及率！

免费 GEO品牌可见度查询，帮你提升品牌在 AI 回答中的提及率!

REDMI官方：REDMI K90超级像素新国屏比2K屏更强

今日大家都在搜的词：

热文

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

特斯拉股东批准马斯克万亿美元薪酬包

华为鸿蒙智行新款享界S9开启预订：预售价31.8万起

曝折叠屏iPhone配2400万屏下摄像头预计2026年秋亮相

OPPO Find X9 Pro卫星通信版开启预售：6999元

何小鹏再回应机器人里藏真人质疑：现场展示内部结构

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

阿里回应饿了么更名：正处于灰度测试阶段

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

华为Mate70 Air官宣今日开启预售

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

站长商机