首页 > 业界 > 关键词  > 机器学习最新资讯  > 正文

麻省理工学院的计算机视觉算法可识别精确到像素的图像

2022-04-26 20:18 · 稿源: cnbeta

对于人类来说,识别一个场景中的物品是非常简单的一件事。但是对于人工智能和计算机视觉系统来说,发展对其周围环境的高保真理解需要更多的努力,如果我们说得具体一点,大约需要800小时的手工标记训练图像的努力。为了帮助机器更好地看到人的方式,麻省理工学院CSAIL的一个研究小组与康奈尔大学和微软合作,开发了STEGO,一种能够识别图像到单个像素的算法。

通常情况下,创建CV训练数据需要人类在图像中的特定对象周围画上方框--比如,在坐在一片草地上的狗周围画上方框--并给这些方框贴上里面的东西("狗"),这样,在上面训练的AI就能把狗和草地区分开来。相反,STEGO(基于能量的图谱优化的自我监督转化器)使用一种被称为语义分割的技术,它将类别标签应用于图像中的每个像素,使人工智能对其周围的世界有一个更准确的看法。

一个有标签的盒子会把物体加上周围像素中的其他项目放在盒子的边界内,而语义分割给物体中的每个像素都贴上标签,但只有构成物体的像素--你只得到狗的像素,而不是狗的像素加上一些草。这是机器学习,相当于在Photoshop中使用智能套索与矩形划线工具。

这种技术的问题主要出现在范围上,传统的多镜头监督系统通常需要数千,甚至数十万的标记图像来训练算法。乘以组成256x256的单一图像的65536个单独的像素,所有这些像素现在也需要被单独标记,所需的工作量迅速上升到不可能完成。

相反,"STEGO寻找在整个数据集中出现的类似物体,"CSAIL团队在周四的一份新闻稿中写道。"然后它将这些类似的物体联系在一起,在它所学习的所有图像中构建一个一致的世界观。

"如果你在看肿瘤扫描、行星表面或高分辨率的生物图像,如果没有专家知识,你很难知道要寻找什么对象。在新兴领域,有时甚至人类专家也不知道正确的对象应该是什么,"麻省理工学院CSAIL博士生,微软软件工程师,以及论文的主要作者马克-汉密尔顿说。"在这些类型的情况下,需要设计一种方法在科学的边界上运作,尤其是不能依靠人类在机器之前弄清楚的情况下。"

研究人员在各种各样的图像领域--从家庭内部到高空航拍--上进行了训练,结果显示STEGO的性能是以前语义分割方案的两倍,并且与人类控制的图像评估密切相关。更重要的是,"当应用于无人驾驶汽车数据集时,STEGO成功地分割出了道路、人和街道标志,其分辨率和颗粒度比以前的系统高得多。"麻省理工学院CSAIL团队写道:"在来自太空的图像上,该系统将地球表面的每一平方英尺都分解为道路、植被和建筑物。"

"在制作一个理解潜在的复杂数据集的通用工具时,我们希望这种类型的算法能够使从图像中发现物体的科学过程自动化,"汉密尔顿说。"有很多不同的领域,在这些领域中,人类的标签将是非常昂贵的,或者人类甚至根本不知道具体的结构,比如在某些生物和天体物理领域。我们希望未来的工作能够应用于非常广泛的数据集。由于你不需要任何人类标签,我们现在可以开始更广泛地应用ML工具。"

尽管其性能优于之前的系统,但STEGO也有其局限性。例如,它可以将意大利面和玉米糁都识别为"食品",但不能很好地区分它们。它还会被一些无意义的图像所迷惑,比如说坐在电话听筒上的一根香蕉。这是一种食品还是生活用品?STEGO无法分辨。该团队希望在未来的迭代中建立更多的灵活性,使该系统能够识别多个类别的物体。

举报

  • 相关推荐
  • 00后担大梁交大本科生在计算机安全顶级会议上实现突破,打造大模型全方位安全分析底座

    上海交大本科生徐菲悦为第一作者的论文《大型语言模型鲁棒性与对齐的多维评估框架》被IEEE S&P 2026录用。该研究提出“安全魔方”评估体系,构建覆盖攻击、防御与判定三大维度的多指标框架,系统化刻画LLM安全性,新增攻击稳定性、跨模型迁移性等关键度量,弥补传统单一指标不足,为研究比较、安全基线制定及监管审查提供可操作的通用量表。

  • 999元!小米发布REDMI投影仪4:360流明CVA亮度、1080P分辨率

    小米今天上线了一款新品REDMI投影仪4,定位家用入门级,预约首发价999元。 拥有360流明CVIA亮度,较前代提升38%,白天拉帘可正常观看;通过SGS低蓝光认证,有效过滤415nm-455nm短波蓝光,减少长时间观影对眼睛的伤害。 1080P物理分辨率、1.2:1投射比,可

  • 微算法科技(NASDAQ MLGO):以隐私计算区块链筑牢多方安全计算(MPC)安全防线

    微算科技开发的隐私计算区块链将区块链技术融入多方安全计算(MPC),构建安全可信的分布式计算平台。通过区块链共识机制、加密算法和智能合约,对MPC参与方身份验证、数据加密存储、任务执行及结果验证等环节进行保护,确保数据“可用不可见”。该技术显著提升数据隐私保护和计算可靠性,在金融、医疗、政务等领域实现跨主体数据安全协作,释放数据价值。

  • AI日报:上海首例涉AI提示词著作权案宣判;Kimi K2 Thinking发布;中文图像编辑新王UniWorld-V2发布

    今日AI领域动态:上海首例AI提示词著作权案宣判,法院认定提示词不具独创性;月之暗面发布Kimi K2思考模型,实现自主多轮工具调用;UniWorld-V2图像编辑模型支持中文框选即改,性能超越GPT-Image;谷歌推出AI文件检测工具Magika 1.0,支持超200种格式;Sora安卓版首日下载量达47万次;我国发布全球首个AI海洋大模型“瞰海”,可精准预测10天内海洋变化;宇树科技“Embodied Avatar”系统实现低延迟远程机器人操控;谷歌Gemini API推出文件搜索工具,简化私有RAG系统集成。

  • 小鹏机器人会走猫步太像人了!小鹏发布新一代人形机器人IRON

    在第七届小鹏科技日上,小鹏汽车发布全新人形机器人IRON,其拟人化程度领先,拥有仿生脊柱、肌肉及柔性皮肤,配备3D曲面显示与灵巧双手,实现22个自由度。搭载3颗图灵AI芯片,算力达2250TOPS,支持对话、行走等智能交互,并采用全固态电池提升安全性。集成自研物理世界模型与VLT/VLA/VLM能力,实现环境感知与反馈。IRON将优先应用于商业场景,并与宝钢合作探索工业巡检。小鹏宣布开放SDK,邀请全球开发者共建机器人应用生态。

  • 全球计算机系统领域“奥运会”SOSP公布最佳论文 “星绽”OS入选

    近日,被誉为计算机系统领域“奥运会”的顶级学术会议SOSP 2025公布奖项评选结果,“星绽”开源操作系统在高可扩展内存管理方面的研究论文斩获最佳论文奖。该论文提出创新技术CortenMM,摒弃传统软硬件两级抽象,采用“单层抽象”架构,显著提升性能,在真实场景下性能最高可达Linux的26倍。同时利用Rust语言安全特性及形式化验证工具,从根本上杜绝并发漏洞,兼顾性能与安全。这标志着星绽OS在破解操作系统“性能与安全兼顾”难题上获得国际学术界认可。

  • GEO品牌提及率用什么查?GEO优化工具推荐一览

    在数字化浪潮以排山倒海之势席卷全球的当下,AI技术已成为推动各行业变革的核心力量。品牌营销领域也不例外,众多企业纷纷将目光投向AI平台,期望借助其强大的能力提升品牌影响力、拓展市场份额。然而,在竞争激烈的AI平台生态中,品牌如何脱颖而出,成为众多企业亟待解决的关键问题。在此背景下,AIBase推出的GEO优化分析工具(https://app.aibase.com/zh/tools/geo)应运而生

  • 河南阿姨卖炒面 3元一份还加鸡蛋:只图问心无愧

    ​在商丘睢县,有一位胡姓阿姨在路边摆摊售卖炒面,她以一份份实惠与温暖,成为了当地人心中的一抹亮色。胡阿姨的炒面售价仅为3元一份,且每份都包含鸡蛋,更令人感动的是,她还免费为学生群体赠送豆浆和烤肠。在物价普遍上涨的当下,其他地区的炒面价格多在6至10元之间,而胡阿姨却坚持十几年不涨价,近期更是主动将价格从原本就亲民的10元降至3元,用实际行动�

  • 何小鹏回应机器人IRON里是真人质疑:感谢认可

    在第七届小鹏科技日上,小鹏汽车自主研发的人形机器人IRON首次亮相,其逼真步态引发网友惊叹“100%真人在里面”。面对质疑,董事长何小鹏以“感谢认可”巧妙回应,展现技术自信。IRON采用类人“骨骼-肌肉-皮肤”结构,搭载仿生肌肉驱动系统和22自由度拟态双手,能精准感知环境变化。团队历时7年研发,计划明年4月进入量产阶段。该机器人还融合物理世界模型体系,集成VLT/VLA/VLM三大核心能力,实现实时环境交互。此次展示既体现小鹏技术积累,也引发对科技真实性的思考。

  • 机器人“全能导航大脑”来了!银河通用发布NavFoM大模型

    银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM,实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用,通过统一“视频流+文本指令→动作轨迹”范式,融合800万条跨任务导航数据,在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施,为规模化商业落地奠定关键基础。

今日大家都在搜的词: