Meta发布AI基准测试工具FACET 用于评估 AI 模型的“公平性”

2023-09-01 14:09 · 稿源：站长之家

要点:
Meta发布了名为FACET的数据集，用于探测计算机视觉模型对某些“类别”人群的偏见。
FACET包含32000张图片，50000人的图像，标注了职业和活动“类别”，以及人口统计和身体特征。
FACET可用于测试模型在不同人口属性上的分类、检测、分割和定位任务的公平性。

站长之家(ChinaZ.com) 9月1日消息:Meta今天发布了一个新的AI基准测试，名为FACET，旨在评估在照片和视频中对人和物体进行分类和检测的AI模型的“公平性”。

FACET由32，000张包含50，000个人标签的图像组成，这些标签由人类注释者标注。除了与职业和活动相关的类别，如“篮球运动员”、“DJ”和“医生”，还包括人口统计和身体属性，使Meta能够对针对这些类别的偏见进行“深度”评估。

Meta在一篇与TechCrunch共享的博客文章中写道:“通过发布FACET，我们的目标是让研究人员和从业者能够进行类似的基准测试，以更好地理解他们自己的模型中存在的偏见，并监控所采取的缓解措施对这些偏见的影响。” “我们鼓励研究人员使用FACET来评估其他视觉和多模态任务的公平性。”

人工智能科幻

注:图片由midjourney生成

当然，探测计算机视觉算法偏见的基准测试并不是什么新鲜事。Meta自己几年前就发布过一个基准测试，用于揭示计算机视觉和音频机器学习模型中的年龄、性别和肤色歧视。许多研究已经对计算机视觉模型进行了评估，以确定它们是否存在针对某些人群的偏见。

此外，事实上，Meta 在负责任的人工智能方面并没有最好的记录。去年年底，Meta不得不撤下一款AI演示，因为它编写了种族主义和不准确的科学文献。有报道称，该公司的AI伦理团队基本没有作用，而它发布的反AI偏见工具被形容为“完全不足够”。同时，学术界指责Meta加剧了其广告服务算法中的社会经济不平等，并在其自动审查系统中表现出对黑人用户的偏见。

但Meta声称FACET比之前所有的计算机视觉偏见基准测试都要深入——能够回答这样的问题:“当被感知的性别表现具有更多传统男性特征时，模型是否在将人们分类为滑板运动员方面做得更好?”以及“当头发卷曲程度与直发相比时，任何偏见都会放大吗?”

为了创建FACET，Meta让上述注释者为32，000张图像中的每张人物图像标注人口统计属性（例如图片中人物的感知性别表现和年龄组）、额外的身体属性(例如肤色、光线、纹身、头饰和眼镜、发型和面部毛发等)以及类别。他们将这些标签与其他来自Segment Anything1Billion的关于人、头发和服装的标签结合。Segment Anything1Billion是Meta设计的用于训练计算机视觉模型从图像中“分割”或隔离物体和动物的数据集。

Meta告诉我，FACET图像的来源是Segment Anything1Billion，而这些图像则从“照片提供商”处购买。但目前还不清楚图片中所描绘的人是否知道他们的图片将被用于这个目的。此外——至少在博客文章中——还不清楚Meta是如何招募注释者团队的，以及他们得到了多少工资。

从历史上看，甚至在今天，许多为AI培训和基准测试标注数据集的注释者来自发展中国家，收入远低于美国的最低工资标准。就在本周，《华盛顿邮报》报道，规模最大、融资最充足的注释公司之一Scale AI向工人支付的工资极低，经常拖欠或扣发工资，并为工人提供寻求救济的渠道很少。

在描述FACET如何诞生的白皮书中，Meta表示注释者是“经过培训的专家”，他们来自包括北美（美国）、拉丁美洲(哥伦比亚)、中东(埃及)、非洲(肯尼亚)、东南亚(菲律宾)和东亚(台湾)等多个地理区域。Meta表示，它使用了来自第三方供应商的“专有注释平台”，并按照每个国家一小时的工资标准向注释者提供报酬。

撇开FACET可能存在问题的出处不谈，Meta表示该基准测试可用于探测不同人口统计属性下的分类、检测、“实例分割”和“视觉基础”模型。

作为测试用例，Meta将其自己的DINOv2计算机视觉算法应用于FACET，该算法已于本周开始商业使用。Meta表示，DINOv2发现了几种偏见，包括对某些性别表现的人的偏见以及对典型地将女性照片识别为“护士”的可能性的偏见。

在博客文章中，Meta写道:“DINOv2预训练数据集的准备过程可能无意中复制了为策展选择的参考数据集中的偏见。我们计划在未来的工作中解决这些潜在的不足之处，并相信基于图像的策展也可以帮助避免因使用搜索引擎或文本监督而产生的潜在偏见。”

没有完美的基准测试。值得称赞的是，Meta承认FACET可能无法充分捕捉现实世界的概念和人口群体。它还指出，由于自FACET创建以来，许多职业形象可能已经发生了变化。例如，在COVID-19大流行期间拍摄的FACET中的大多数医生和护士都佩戴了比大流行前更多的个人防护装备。

在白皮书中，Meta写道:“目前我们不打算更新此数据集。我们将允许用户标记任何可能令人反感的内容，并在发现时删除这些内容。”

除了数据集本身外，Meta还提供了一个基于网络的数据集浏览器工具。要使用该工具和数据集，开发人员必须同意不将其用于训练计算机视觉模型——而只用于评估、测试和基准测试。

（举报）

相关推荐

关键词：

Meta

重磅预告：全链路自主进化 AI 数据分析师 TabTab 将于10月24日上线

灵快科技推出的AI数据分析师TabTab将于10月24日上线。该产品通过Multi-Agent系统实现全链路自动化数据分析，覆盖数据获取、建模到可视化全流程。用户可用自然语言交互，系统自主规划任务并输出可维护结果，支持Excel、PPT等多种报告格式。核心定位为智能数据分析助手，旨在降低分析门槛，助力企业高效挖掘数据价值，适用于数据分析师、营销人员等各类用户。

AI数据分析 Multi-Agent系统数据可视化
VITA平台赋能AI办公，沸蛇AI语音鼠标提升办公效率

云决科技推出VITA一站式AI办公平台，结合自研AI语音鼠标，通过软硬件协同创新提升企业效率。该平台集成DeepSeek等大模型，用户无需切换工具，语音即可调用文字处理、数据分析、创意设计等多元功能，实现会议纪要生成、PPT自动制作、视频一键合成等操作，节省80%工作时间。针对教育、IT、行政等不同行业提供专属解决方案，整合100多个AI应用场景和200多种模板，持续优化产品功能，致力于成为职场人士提升效率的智能助手。

智能办公 AI办公平台办公效率
“全球Robotaxi第一股”文远知行：港股上市临近，商业化进程加速

文远知行通过港交所聆讯，正式进入港股上市冲刺阶段，将构建“美股+港股”双资本平台。作为全球自动驾驶标杆企业，其产品已在7个国家获自动驾驶牌照，在11国30城开展测试运营，安全运营超2200天。技术层面，预测算法误差控制在0.2米内，感知模型延迟小于10毫秒，系统检测精度达99%。成本大幅下降，单车成本降至几十万元，二季度营收同比增长60.8%，自动驾驶网约车业务猛增836.7%。近期获准在北京开展夜间道路测试，向全天候服务网络迈出关键一步。随着技术成熟与商业模式验证，万亿级自动驾驶市场正迎来规模化运营拐点。

文远知行自动驾驶 Robotaxi
荐OpenAI 推出浏览器：“让位吧，Chrome”

北京时间10月22日凌晨，没等来传闻中的Gemini3，等来了OpenAI正式发布首款AI浏览器ChatGPT Atlas。简单来说，这是一个把ChatGPT"塞进"浏览器的产品，你在任何网页上都能随时唤出ChatGPT侧边栏，让AI帮你总结内容、编辑文字、甚至代替你完成购物和预订任务。听起来有点像Chrome装了个ChatGPT插件?确实如此，但OpenAI的野心远不止于此。

OpenAI
第一！世纪华通旗下Century Games登顶全球Top50手游商

知名游戏媒体PocketGamer发布《2025年全球TOP50移动游戏商》榜单，世纪华通旗下Century Games从去年第7位跃居榜首，创下该榜单晋升速度新纪录。其成功源于持续创新与精准市场洞察：既实现《Whiteout Survival》等长线产品稳定运营，又凭借《Kingshot》等新作打造跨品类爆款，形成“双强驱动”格局。公司通过“微创新”策略结合AI技术提升研发效率，构建覆盖SLG、休闲、卡牌三大核心�

全球游戏公司排名 Century Games
iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开关

苹果公司10月21日向iPhone用户推送iOS 26.1开发者预览版Beta4更新，新增Liquid Glass液态玻璃透明度切换开关，用户可将界面调整为“色调”模式以增强通知可读性。此次更新延续iOS 26的液态玻璃设计语言，带来更沉浸的视觉体验。同时支持关闭锁屏滑动相机功能避免误触，并扩展Apple Intelligence对丹麦语、荷兰语、繁体中文等七种语言的支持，让更多地区用户享受智能服务。

iOS26.1 Liquid Glass
连续三年折桂！瓴羊Dataphin荣膺2025年度DAMA数据治理优秀产品奖！

2025全球数据管理峰会以“数据×人工智能”为主题，聚焦行业最佳实践，构建从理念探讨到技术落地的完整交流链。会上，瓴羊与DAMA联合发布数据治理实践证书体系，覆盖数据分析等认证，旨在提升全民数据素养。瓴羊副总裁王赛提出Data与AI双向赋能重构企业数字化生产力，强调未来系统需支持自主决策与自动化执行。以快消品牌为例，通过Quick BI智能分析工具实现业务效率提升。瓴羊Dataphin平台助力企业构建AI友好型数据模型，连续三年获“数据治理优秀产品”大奖，提供全链路数据服务，加速释放数据价值。

数据管理人工智能数据治理
澎湃OS 3 Beta版第三批截止招募：正式版11月15日前推送覆盖小米14/K70等

澎湃OS 3 Beta版内测招募将于10月23日结束，覆盖12款机型，包括小米14系列、MIX Fold 4/Flip及Redmi K70系列等。正式版不晚于11月15日陆续推送，用户可通过小米社区报名参与。新系统采用自研底层技术，任务执行效率提升19%，流畅度与稳定性显著增强，支持“三岛并存”显示快递提醒、导航等信息。超级小爱同学全面升级，实现智能场景化交互。

澎湃OS 小米14 内测招募
真我GT8 Pro首发！realme UI 7.0正式版升级计划公布

真我中国区总裁徐起公布realme UI 7.0正式版升级计划：即将发布的真我GT8 Pro将首发搭载该系统，并公布了老机型适配时间表。2025年11月起，真我GT7 Pro、GT7等机型开始升级；12月覆盖真我GT5 240W、14 Pro等；2026年1月扩展至真我GT Neo5系列、数字系列及V系列等多款机型。

realme UI 7.0
国行iPhone Air开通eSIM过程来了：运营商扫描IMEI号即可激活超简单

今日，国行iPhone Air正式上市发售，标志着中国智能手机市场正式迈入eSIM时代。数码博主科技新一”分享了国行iPhone Air开通eSIM的过程。

eSIM iPhone Air

今日大家都在搜的词：

热文

3 天
7天

Meta发布AI基准测试工具FACET 用于评估 AI 模型的“公平性”

重磅预告：全链路自主进化 AI 数据分析师 TabTab 将于10月24日上线

VITA平台赋能AI办公，沸蛇AI语音鼠标提升办公效率

“全球Robotaxi第一股”文远知行：港股上市临近，商业化进程加速

荐OpenAI 推出浏览器：“让位吧，Chrome”

第一！世纪华通旗下Century Games登顶全球Top50手游商

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开关

连续三年折桂！瓴羊Dataphin荣膺2025年度DAMA数据治理优秀产品奖！

澎湃OS 3 Beta版第三批截止招募：正式版11月15日前推送覆盖小米14/K70等

真我GT8 Pro首发！realme UI 7.0正式版升级计划公布

国行iPhone Air开通eSIM过程来了：运营商扫描IMEI号即可激活超简单

今日大家都在搜的词：

热文

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

微信三大更新放出上热搜涉及群聊消息处理、消息撤回等

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个

红米REDMI K90标准版亮相：质感、工艺脱胎换骨

华为鸿蒙HarmonyOS 6公测版开启推送

REDMI K90标准版外观公布：屏幕视觉四等边

华为余承东：鸿蒙5终端设备数量突破2300万

五大升级！红米REDMI K90标准版采用6.59英寸黄金中尺寸

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”

华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

iOS 26液态玻璃效果能关了苹果iOS 26.1 Beta 4新增液态玻璃开

余承东官宣华为路由X3 Pro 采用“日照金山”设计

AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停So

天猫双11今晚8点开卖品类券每人可领万元

微信三大更新放出上热搜涉及群聊消息处理、消息撤回等

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个

站长商机