首页 > 业界 > 关键词  > 算法最新资讯  > 正文

分析称用于建立检测皮肤病的算法的数据集并不包括足够的肤色信息

2021-11-10 09:51 · 稿源: cnbeta

据The Verge报道,根据一项新分析,用于训练检测皮肤问题的算法的公共皮肤图像数据集并不包括足够的肤色信息。而在有肤色信息的数据集中,只有很少的图像是深色皮肤的--因此使用这些数据集建立的算法对非白人来说可能不那么准确。

周二发表在《柳叶刀-数字医疗》上的这项研究检查了21个可自由访问的皮肤状况图像数据集。这些数据集共包含10万多张图片。这些图像中只有1400多张附有关于患者种族的信息,只有2236张有关于肤色的信息。这种数据的缺乏限制了研究人员在图像上训练的算法中发现偏差的能力。而这种算法很可能是有偏见的。在有肤色信息的图像中,只有11张是来自菲茨帕特里克皮肤量表中最深的两个类别的病人,该量表对肤色进行分类。没有来自非洲、非洲-加勒比或南亚背景的病人的图像。

这些结论与9月份发表的一项研究相似,该研究还发现,用于训练皮肤学算法的大多数数据集都没有关于种族或肤色的信息。该研究检查了70项开发或测试算法的研究背后的数据,发现只有7项描述了所用图像中的皮肤类型。

斯坦福大学皮肤病学临床学者、9月份发表的一篇论文的作者Roxana Daneshjou说:“我们从少数报告出肤色分布的论文中看到的是,那些论文确实显示出深肤色的代表不足。”她的论文分析了许多与《柳叶刀》新研究相同的数据集,得出了类似的结论。

当数据集中的图像是公开的,研究人员可以去查看哪些肤色似乎是存在的。但这可能很困难,因为照片可能与现实生活中的肤色不完全一致。“最理想的情况是,在临床就诊时注意到肤色,”Daneshjou说。然后,该患者的皮肤问题的图像可以在进入数据库之前被贴上标签。

如果图像上没有标签,研究人员就不能检查算法,看看它们是否使用了有足够多不同皮肤类型的人的例子的数据集。

仔细检查这些图像集很重要,因为它们经常被用来建立算法,帮助医生诊断病人的皮肤状况,其中一些--如皮肤癌--如果不及早发现就会更危险。如果算法只在浅色皮肤上进行了训练或测试,它们对其他人来说就不会那么准确。"研究表明,只对浅色皮肤类型的人的图像进行训练的程序对深色皮肤的人来说可能不那么准确,反之亦然,"新论文的共同作者、牛津大学的一名研究员David Wen说。

新的图像总是可以被添加到公共数据集中,研究人员希望看到更多关于深色皮肤状况的例子。而提高数据集的透明度和清晰度,将有助于研究人员跟踪更多样化的图像集的进展,这可能导致更公平的AI工具。Daneshjou说:“我希望看到更多的开放数据和更多精心标记的数据。”

举报

  • 相关推荐
  • 天翼云TeleDB通过信通院“可信数据库”安全专项测试

    中国信通院公布2025上半年“可信数据库”评估结果,天翼云TeleDB高可用关系型数据库通过安全专项测试,产品性能与安全能力达行业领先水平。TeleDB具备高性能、高可用、高可靠、高安全、易扩展、易管理等优势,已在政务、物联网、新能源、医疗等行业广泛应用,助力企业数字化转型。此次评测进一步验证了国产数据库的技术实力,推动我国数据库产业快速发展。

  • AI与数据库双向赋能,达梦靠自主创新把握弯道超车机遇

    AI时代下,数据库行业正经历深刻变革。达梦数据副总经理李庄庄指出,AI与数据库双向赋能、深度融合,带来多模态数据处理、高并发低延迟等新需求。数据库需提升智能化自治能力,通过架构升级、AI技术集成及生态开放应对挑战。达梦通过AI4DB和DB4DB双路径布局,已在智能参数调优、多引擎数据库等领域取得进展。未来,数据库将更智能、普惠,技术硬实力与落地价值是关键竞争力。

  • 金仓数据库亮相2025数博会,以AI融合创新赋能产业升级

    2025中国国际大数据产业博览会8月28日在贵阳开幕,聚焦"数聚产业动能+智启发展新篇"主题,展示数据要素与人工智能融合创新成果。重点呈现金仓数据库系列产品,包括KXData一体机,通过软硬一体设计实现成本降低40%以上,并搭载智能运维系统。产品覆盖政务、医疗、金融等多个领域,助力产业升级与高质量发展,推动数字经济新篇章。

  • 金仓数据库守护中国铁路安全运行

    中国铁路集团开展"守底线、补缺陷、除隐患、防风险"安全专项行动,建设多功能线路巡防平台,采用金仓数据库技术实现云边端协同工作。该平台具有实时监控、智能分析等功能,2025年4月将在全国18个铁路局全面上线运行。系统采用读写分离高可用集群架构,支持自动容灾切换和负载均衡,确保铁路运输安全畅通。平台通过自主研发的加密技术保障数据安全,性能损�

  • 金仓数据库支撑海南自贸港“单一窗口”稳定运行

    国家发改委宣布海南自贸港将于2025年12月18日启动全岛封关运作。为提升通关效率,海南国际贸易"单一窗口"(口岸监管服务信息系统)项目正加快建设,由金仓数据库(KES)提供技术支持。该系统整合政府部门与联检单位需求,支持"一线放开、二线管住"监管模式,具备高兼容性、强性能、全方位安全防护等特点,已平稳运行8个月。项目采用国产化环境建设,通过多节点高可用集群架构,实现7×24小时不间断服务,满足秒级通关等严苛要求。未来将持续赋能智慧海南建设,为打造国际化自贸港提供数字化支撑。

  • 百川开源最新医疗大模型,中国力量领跑医疗AI赛道

    专注医疗后,百川智能交出第一份答卷! 8月11日,百川智能发布第二款开源医疗增强推理大模型Baichuan-M2,其以32B的参数量,在OpenAI的Healthbench评测集上,超越其刚刚发布5天的开源模型gpt-oss-120b。

  • 李想:理想i8销量目标是6000辆/月 理想i6要冲击万台

    理想汽车CEO李想发文称,2025年是理想汽车正式进入纯电SUV的第一年,我内心的目标是:到今年年底,我们在高端纯电赛道能保五争三”。 李想表示,理想i8的目标是稳定后6000辆/月,理想i6的目标是稳定后9000-10000辆/月,算上理想MEGA,理想纯电车型整体稳定在18000-20000辆/月。 纯电赛道高手很多,想达到这个目标肯定很不容易,但我充满信心!”

  • 微算法科技(NASDAQ:MLGO)突破性FPGA仿真算法技术助力Grover搜索,显著提升量子计算仿真效率

    量子计算迅猛发展,量子算法在搜索和加密领域潜力巨大。然而,量子计算机实现复杂,当前研究重点是在经典平台上高效仿真量子算法。微算科技提出基于FPGA的高效仿真技术,通过硬件仿真而非传统软件方法,显著提升Grover搜索算法仿真速度,实现百倍提速。该技术结合软硬件仿真,优化架构与数据路径,提高效率与资源利用率,为量子算法实际应用提供支持,推动量子计算发展。

  • 微算法科技(NASDAQ: MLGO)研发区块链可逆图像隐藏算法,提高信息隐藏完整性

    数字时代的信息安全需求催生了图像隐藏技术的持续演进。传统算法在密钥管理、抗攻击能力和认证机制方面存在固有缺陷,难以满足医疗、金融等领域的严苛安全要求。区块链技术的分布式账本特性与智能合约机制,为构建可信认证体系提供了新路径。微算法科技(NASDAQ: MLGO)研发区块链可逆图像隐藏算法(Blockchain-based Reversible Image Steganography Algorithm,BRISA),通过融合混沌加�

  • 数据库就要选华为云!

    文章讲述了作者10年前创业失败的经历,反思当时过度投入高端服务器和技术架构,却忽视了业务实际需求。如今随着云计算、大数据等技术发展,数据库架构设计更强调弹性、可靠性和智能化。游戏行业作为典型高并发场景,对数据库提出实时响应、高可用等严苛要求。华为云TaurusDB作为新一代云原生数据库,具备高性能(QPS达百万级)、弹性扩展(1写15读节点)、高可靠性(跨区部署、RPO为0)等优势,完美适配游戏行业需求。其核心技术包括计算存储分离、并行执行和NDP近数据处理,解决了传统MySQL架构的复制延迟等问题。文章建议企业选择与业务协同成长的数据库平台,而非从零搭建架构。

今日大家都在搜的词: