Facebook数据集通过让人们自我识别年龄和性别来打击AI偏见

2021-04-09 08:02 · 稿源： cnbeta

Facebook今天开源了一个数据集，旨在体现计算机视觉和音频机器学习模型中的年龄、性别和肤色偏见。该公司声称，这个语料库Casual Conversations，是第一个以付费者为主角的语料库，他们明确提供了自己的年龄和性别，而不是由第三方来标注这些信息或使用模型来估计。

Casual Conversations包含3000名参与者的4100多段视频，其中一些来自Deepfake Detection Challenge，旨在通过加入 "明显 "肤色的标签来对抗这种偏见。Facebook表示，这些色调是用Fitzpatrick量表估算出来的，Fitzpatrick量表是美国皮肤科医生Thomas B. Fitzpatrick在1975年开发的一种肤色分类模式。菲茨帕特里克量表是一种对皮肤类型对紫外线的反应进行概括的方法，从I型（总是灼伤而从不晒黑的苍白皮肤）到VI型（从不灼伤的深色素皮肤）。

Facebook表示，它为Casual Conversations招募了训练有素的注释员，以确定每个参与者的皮肤类型。注释员还为视频标注了环境光照条件，这有助于衡量模特在低光照条件下如何对待不同肤色的人。Facebook的一位发言人通过电子邮件告诉VentureBeat，聘请了一家美国供应商从 "各种背景、种族和性别 "中挑选该项目的注释者。参与者来自亚特兰大、休斯敦、迈阿密、新奥尔良和里士满，并且都获得了报酬。

作为一个领域，工业界和学术专家在理解人工智能的公平性和偏见方面仍然处于早期阶段，人工智能研究界可以将Casual Conversations作为实现亚群体测量和公平性研究正常化的重要基石之一，Facebook表示，通过Casual Conversations，希望能够推动这一重要的新兴领域的进一步研究。为了支持Facebook的观点，有一系列证据表明，计算机视觉模型尤其容易受到有害的、普遍的偏见的影响。科罗拉多大学博尔德分校的研究人员去年秋天的一篇论文证明，亚马逊、Clarifai、微软和其他公司的人工智能对同性男性和女性的准确率保持在95%以上，但有38%的时间会将跨性别男性误认成女性。Gender Shades项目和美国国家标准与技术研究所（NIST）对主要厂商系统的独立基准测试表明，面部识别技术表现出种族和性别偏见，并表明目前的面部识别程序可能会出现疯狂的不准确，在96%以上的时间里误将人分类。

除了面部识别之外，Zoom的虚拟背景和Twitter的自动照片裁剪工具等功能，历来都对皮肤较黑的人不利。早在2015年，一位软件工程师就指出，谷歌照片中的图像识别算法给他的黑人朋友贴上了 "大猩猩 "的标签。而非营利组织AlgorithmWatch显示，谷歌的云视觉API一度自动将深色皮肤的人持有的温度计标注为 "枪"，而将浅色皮肤的人持有的温度计标注为 "电子设备"。专家们将这些错误中的许多错误归咎于用于训练模型的数据集的缺陷。

但Casual Conversations远不是一个完美的基准。Facebook表示，它并没有收集参与者的原籍信息。而且在询问他们的性别时，该公司只提供了 "男性"、"女性 "和 "其他 "的选择--没有包括像那些认定为非二元的性别。该发言人还澄清说，从今天起，Casual Conversations只对Facebook团队开放，不会要求员工将其用于评估目的。关于Facebook公平方法的曝光并没有在人工智能社区内产生多少信任。纽约大学在2020年7月发表的一项研究估计，Facebook的机器学习系统每天会犯大约30万个内容修改错误，而且有问题的帖子继续从Facebook的过滤器中溜走。

Facebook方面表示，虽然该公司认为Casual Conversations是 "好的、大胆的 "第一步，但在未来一年左右的时间里，该公司将继续推动开发能够捕捉更多样化的技术，并且希望探索扩大这一数据集的途径，使其更具包容性，其代表性包括更多的地理位置、活动以及更广泛的性别认同和年龄等等。

（举报）

相关推荐

关键词：

Google AI推出SANPO:多属性视频数据集助力高级视觉场景理解

GoogleAI最近推出了名为SANPO的数据集，旨在帮助AI模型更好地理解户外人类主观场景。这一数据集的重要性在于，它不仅包括真实世界的数据包括合成数据，以及丰富的注释和多属性特征。研究人员的隐私承诺使这一数据集能够支持其他研究人员开发面向视障人士的视觉导航系统，并推动先进的视觉场景理解领域的发展。

SANPO 数据集 GoogleAI
AI修改肖像模型DiffAE ：可随意改变性别、年龄、表情、妆发等

DiffAE是一款强大的人工智能模型，可以改变人们的性别、年龄、表情、配饰或头发，无需专业技能。要实现这样的图像编辑，需要具备高超的照片编辑技巧，但现在借助扩散自动编码器等AI模型，任何人都可以通过几行代码轻松地进行肖像编辑。随着不断的优化和整合，它将成为各种应用程序和工具的重要组成部分，为用户提供无限的创作机会。

AI肖像 DiffAE AI头条
智源开源中英文语义向量模型训练数据集MTP

智源研究院发布面向中英文语义向量模型训练的大规模文本对数据集MTP。这是全球最大的中、英文文本对训练数据集，数据规模达3亿对，希望推动解决中文模型训练数据集缺乏问题。作为中国大模型开源生态圈的代表机构，智源持续进行包括数据在内的大模型全栈技术开源，推动人工智能协同创新。
「字少信息量大」，Salesforce、MIT 研究者手把手教 GPT-4「改稿」，数据集已开源

自动摘要技术取得了长足的进步，这主要归功于范式的转变——从在标注数据集上进行有监督微调转变为使用大语言模型进行零样本prompt，例如GPT-4。不需要额外的训练，细致的prompt就能实现对摘要长度、主题、风格等方面特征的精细控制。更多论文细节，可参考原论文。

GPT-4 数据集
中国研究团队发布多视角数据集“FreeMan” 解决3D人体姿势估计局限性

从真实场景中估计人体的三维结构是一项具有挑战性的任务，对于人工智能、图形学和人机交互等领域具有重要意义。现有的3D人体姿态估计数据集通常在受控条件下收集，具有静态背景，无法代表真实世界场景的多样性，从限制了用于真实应用的准确模型的开发。FreeMan的可用性预计将推动人体建模、计算机视觉和人机交互领域的进步，弥合了受控实验室条件与真实场景之间的差距。

FreeMan
Vectara发布Boomerang技术,通过向量嵌入提升AI准确性

AI初创公司Vectara为了降低AI幻觉风险，推出了一项名为Boomerang的新技术。Vectara由Cloudera联合创始人之一创立，于2022年10月推出。这对企业AI的采用来说是一个重要进步。

AI
联手惠普！谷歌将在印度生产笔记本电脑Chromebook

谷歌母公司Alphabet的首席执行官SundarPichai最近表示，将与惠普合作，在印度生产笔记本电脑Chromebook。Chromebook将在印度南部钦奈附近的FlexLtd.工厂生产，惠普自2020年以来一直在那里生产笔记本电脑和台式电脑。该公司希望在寻求建设一家电动汽车生产厂的同时，建造一家电池储能生产工厂。
澳大利亚警方运用AI分析数据识别洗钱和诈骗活动

澳大利亚联邦警察最近宣布，他们正在运用人工智能技术分析监视许可数据，旨在帮助识别潜在的洗钱和欺诈活动。尽管他们的AI使用迄今有限，但AFP表示，他们希望这项技术将有助于改进警务工作。他们强调无论是内部工具还是商业产品，都会确保数据得到保护，不会进入公共数据集，以保护隐私和敏感信息。

AI数据 AI分析
众筹平台BackerKit禁止平台使用AI生成的内容

众筹平台BackerKit宣布，从即日起将不允许在其平台上使用人工智能生成的内容，包括众筹项目中的艺术作品。这一决定与其主要竞争对手Kickstarter形成了鲜明的对比，后者并没有类似的限制。BackerKit还表示，作为该政策的一部分，将自动阻止创作者上传到其平台的内容用于训练AI。

众筹平台 BackerKit AI生成
Riiid AI模型Sheep-duck-llama-2在HuggingFace排名第一

AI教育解决方案领导者Riiid宣布，其最新生成式AI模型在知名机器学习模型平台HuggingFace上获得第一名。HuggingFace开放式大语言模型排名中，Riiid10月提交的最新模型“Sheep-duck-llama-2”获得了74.07分的高分，在全球500多个开源生成式AI模型中位居榜首。Riiid研究人员将继续开发新的模型架构，提升AI模型性能，并以实际数据验证学习影响，在国际AI会议上发表论文。

Riiid HuggingFace

今日大家都在搜的词：

热文

3 天
7天

Facebook数据集通过让人们自我识别年龄和性别来打击AI偏见

Google AI推出SANPO:多属性视频数据集助力高级视觉场景理解

AI修改肖像模型DiffAE ：可随意改变性别、年龄、表情、妆发等

智源开源中英文语义向量模型训练数据集MTP

「字少信息量大」，Salesforce、MIT 研究者手把手教 GPT-4「改稿」，数据集已开源

中国研究团队发布多视角数据集“FreeMan” 解决3D人体姿势估计局限性

Vectara发布Boomerang技术,通过向量嵌入提升AI准确性

联手惠普！谷歌将在印度生产笔记本电脑Chromebook

澳大利亚警方运用AI分析数据识别洗钱和诈骗活动

众筹平台BackerKit禁止平台使用AI生成的内容

Riiid AI模型Sheep-duck-llama-2在HuggingFace排名第一

今日大家都在搜的词：

热文

雷军凌晨3点就奔赴阅兵观礼台佩戴小米AI眼镜前往

华为MatePad Mini外观公布支持蜂窝网络通话功能

AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃

AI日报：腾讯开源3D世界模型HunyuanWorld-Voyager；即梦AI系列

人去世了朋友圈会消失？微信客服回应：建议保持账号活跃

苹果新增三款过时产品 iPhone 8 Plus被列为复古产品

腾讯回应被米哈游起诉：没正式程序不能违规提供QQ用户资料

抖音升级AI内容标识功能上线两项核心功能

小米汽车8月交付量超3万台全年交付量有望冲击42万

特斯拉Model 3长续航后轮驱动版降价1万元售价25.95万起

雷军凌晨3点就奔赴阅兵观礼台佩戴小米AI眼镜前往

华为MatePad Mini官宣9月4日发布

今日七夕节微信 520 元大额红包限时上线

首发iPhone 17系列！苹果Apple Store官方旗舰店入驻抖音商城

史上最大Mate！华为智慧屏MateTV将于9月4日发布

AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发

华为MatePad Mini外观公布支持蜂窝网络通话功能

AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃

华为上半年营收4270亿元同比增长3.95%：净利润371.95亿元

AI日报：腾讯开源3D世界模型HunyuanWorld-Voyager；即梦AI系列

站长商机