您现在的位置是:首页 >人工智能 > 2022-01-20 15:26:52 来源:

机器学习模型的解释方法效果如何

导读 想象一个医生团队使用神经网络在乳房 X 光照片中检测癌症。即使这种机器学习模型似乎表现良好,它也可能专注于与肿瘤意外相关的图像特征

想象一个医生团队使用神经网络在乳房 X 光照片中检测癌症。即使这种机器学习模型似乎表现良好,它也可能专注于与肿瘤意外相关的图像特征,如水印或时间戳,而不是肿瘤的实际迹象。

为了测试这些模型,研究人员使用“特征归因方法”,这种技术应该告诉他们图像的哪些部分对神经网络的预测最重要。但是,如果归因方法遗漏了对模型很重要的特征怎么办?由于研究人员不知道从哪些特征开始是重要的,因此他们无法知道他们的评估方法是无效的。

为了帮助解决这个问题,麻省理工学院的研究人员设计了一个修改原始数据的过程,以便他们确定哪些特征对模型实际上很重要。然后他们使用这个修改后的数据集来评估特征归因方法是否可以正确识别这些重要特征。

他们发现,即使是最流行的方法也经常会遗漏图像中的重要特征,并且有些方法几乎无法像随机基线那样执行。这可能会产生重大影响,特别是如果将神经网络应用于医疗诊断等高风险情况。主要作者、电气工程和计算机科学研究生 Yilun Zhou 解释说,如果网络不能正常工作,并且试图捕捉此类异常也不能正常工作,人类专家可能不知道他们被错误模型误导了在计算机科学和人工智能实验室(CSAIL)。

“所有这些方法都被广泛使用,特别是在一些真正高风险的场景中,比如通过 X 射线或 CT 扫描检测癌症。但这些特征归因方法一开始可能是错误的。它们可能会突出一些不存在的东西” t 对应于模型用来进行预测的真实特征,我们发现这种情况经常发生。如果你想使用这些特征归因方法来证明模型工作正常,你最好确保特征归因方法本身首先是正常工作的,”他说。

Zhou 与 EECS 研究生 Serena Booth、微软研究院研究员 Marco Tulio Ribeiro 和资深作者 Julie Shah 共同撰写了这篇论文,后者是麻省理工学院航空航天学教授和 CSAIL 交互式机器人组主任。

专注于功能

在图像分类中,图像中的每个像素都是神经网络可以用来进行预测的特征,因此它可以关注数百万个可能的特征。例如,如果研究人员想设计一种算法来帮助有抱负的摄影师改进,他们可以训练一个模型来区分专业摄影师拍摄的照片和休闲游客拍摄的照片。该模型可用于评估业余照片与专业照片的相似程度,甚至提供改进的具体反馈。研究人员希望该模型专注于在训练期间识别专业照片中的艺术元素,例如色彩空间、构图和后期处理。但碰巧一张专业拍摄的照片可能包含摄影师姓名的水印,

“显然,我们不想告诉有抱负的摄影师,水印是成功事业所需要的一切,因此我们希望确保我们的模型专注于艺术特征而不是水印的存在。使用特征很诱人归因方法来分析我们的模型,但归根结底,不能保证它们能正常工作,因为模型可以使用艺术特征、水印或任何其他特征,”周说。

“我们不知道数据集中那些虚假的相关性是什么。可能有很多不同的东西可能对一个人来说是完全察觉不到的,比如图像的分辨率,”布斯补充道。“即使我们无法感知,神经网络也可能会提取这些特征并使用它们进行分类。这是根本问题。我们不太了解我们的数据集,但也无法理解我们的数据集那好吧。”

研究人员修改了数据集以削弱原始图像和数据标签之间的所有相关性,从而保证原始特征不再重要。

然后,他们为图像添加一个新特征,该特征非常明显,神经网络必须专注于它才能进行预测,例如不同图像类别的不同颜色的明亮矩形。

“我们可以自信地断言,任何获得真正高置信度的模型都必须关注我们放入的那个彩色矩形。然后我们可以看看所有这些特征归因方法是否急于突出该位置而不是其他一切,”周说。

“特别令人震惊”的结果

他们将这种技术应用于许多不同的特征归因方法。对于图像分类,这些方法会产生所谓的显着图,它显示了分布在整个图像中的重要特征的集中度。例如,如果神经网络正在对鸟类的图像进行分类,则显着性图可能会显示 80% 的重要特征集中在鸟喙周围。

在去除图像数据中的所有相关性后,他们以多种方式处理照片,例如模糊图像的某些部分、调整亮度或添加水印。如果特征归因方法正常工作,那么几乎 100% 的重要特征应该位于研究人员操作的区域周围。

结果并不令人鼓舞。没有一个特征归因方法接近 100% 的目标,大多数几乎没有达到 50% 的随机基线水平,有些甚至在某些情况下表现比基线差。因此,即使新特征是模型可以用来进行预测的唯一特征,特征归因方法有时也无法识别。

“对于所有不同类型的虚假相关,这些方法似乎都不是非常可靠。这尤其令人担忧,因为在自然数据集中,我们不知道哪些虚假相关可能适用,”周说。“这可能是各种因素。我们认为我们可以相信这些方法告诉我们,但在我们的实验中,似乎真的很难相信它们。”

他们研究的所有特征归因方法都比不存在异常更能检测异常。换句话说,这些方法可以比识别图像不包含水印更容易找到水印。因此,在这种情况下,人类更难以信任给出负面预测的模型。

该团队的工作表明,在将特征归因方法应用于现实世界模型之前对其进行测试至关重要,尤其是在高风险的情况下。

“研究人员和从业者可能会使用特征归因方法等解释技术来建立一个人对模型的信任,但除非首先对解释技术进行严格评估,否则这种信任是无法建立的,”Shah 说。“一种解释技术可以用来帮助校准一个人对模型的信任,但校准一个人对模型解释的信任同样重要。”

展望未来,研究人员希望使用他们的评估程序来研究可能导致虚假相关性的更微妙或现实的特征。他们想要探索的另一个工作领域是帮助人类理解显着性图,以便他们可以根据神经网络的预测做出更好的决策。