近日,根据一项新的研究,在一个公共皮肤图像数据集(用于训练算法以检测皮肤问题)中,没有包含足够多肤色的信息。在提供肤色信息的数据集中,只有极少数图像的肤色较深。因此使用这些数据集构建的算法,对于非白人来说可能不那么准确。
研究检查了21个可免费访问的皮肤状况图像数据集。结合起来,它们包括了超过100000张图像。这些图像中只有1400多张附加了有关患者种族的信息,只有2236张附加了有关肤色的信息。
利用这些数据训练算法很可能存在偏差:在具有肤色信息的图像中,只有11个属于“最暗肤色”类别。没有来自具有非洲、非洲裔加勒比或南亚背景的患者图像。
斯坦福大学皮肤病学临床学者表示,从少数报告肤色分布的论文中看到,这些论文确实显示出较深肤色的代表性不足。
当数据集中的图像公开可用时,研究人员可以查看相关肤色。但这可能也很困难,因为照片可能与现实生活中的肤色不完全匹配。最理想的情况是在临床访问时注意患者肤色,然后可以在该患者皮肤问题的图像进入数据库之前对其进行标记。
仔细检查这些图像集很重要,因为它们经常被用来构建算法来帮助医生诊断患有皮肤病的患者,其中一些皮肤病(如皮肤癌),如果不及早发现就会更加危险。
如果算法只在浅色皮肤上进行过训练或测试,那么它们对其他人来说就不会那么准确。研究也表明,仅对肤色较浅的人拍摄图像,进行训练的程序可能对肤色较深的人来说不那么准确,反之亦然。
研究人员希望看到更多深色皮肤状况的例子。提高数据集的透明度和清晰度,将帮助研究人员跟踪更多样化的图像集进展,有望出现更公平的人工智能工具。
题为Characteristics of publicly available skin cancer image datasets: a systematic review的相关研究论文发表在《柳叶刀-数字医疗》上。
前瞻经济学人APP资讯组
论文原文:
https://www.thelancet.com/journals/landig/article/PIIS2589-7500(21)00252-1/fulltext
品牌、内容合作请点这里:寻求合作 ››
想看更多前瞻的文章?扫描右侧二维码,还可以获得以下福利:
下载APP
关注微信号
扫一扫下载APP
与资深行业研究员/经济学家互动交流让您成为更懂趋势的人
违法和不良信息举报电话:400-068-7188 举报邮箱:service@qianzhan.com 在线反馈/投诉 中国互联网联合辟谣平台
Copyright © 1998-2024 深圳前瞻资讯股份有限公司 All rights reserved. 粤ICP备11021828号-2 增值电信业务经营许可证:粤B2-20130734