iMTE

Grad-CAM: Why did you say that? 내용 정리 [XAI-14] 본문

Deep learning study/Explainable AI, 설명가능한 AI

Grad-CAM: Why did you say that? 내용 정리 [XAI-14]

Wonju Seo 2021. 6. 24. 15:39

논문 제목 : Grad-CAM: Why did you say that?

논문 주소 : https://arxiv.org/abs/1611.07450

 

Grad-CAM: Why did you say that?

We propose a technique for making Convolutional Neural Network (CNN)-based models more transparent by visualizing input regions that are 'important' for predictions -- or visual explanations. Our approach, called Gradient-weighted Class Activation Mapping

arxiv.org

주요 내용 정리:

1) Grad-CAM 은 CAM의 일반적인 형태로, class discriminative한 특징을 가진다. 하지만 coarse heatmap을 생성해내기 때문에, high resolution을 위해서, Guided backpropagation과 element-wise multiplication을 하여, Guided Grad-CAM을 생성한다. 저자는 good explanation이란 다음 두 요소를 만족하는 것이다.

(1) Class discriminative (이미지 내에서 카테고리를 지역화할 수 있는 것)

(2) High resolution (fine-grained etail을 잡아낼 수 있는 것)

Grad-CAM, Guided Grad-CAM과 관련된 schematic은 밑의 그림에 표현되어 있다.

2) Grad-CAM은 target class $c$의 feature map $k$의 importance를 계산하고, 이를 통해서 각 feature map에 곱하고 ReLU를 취해줌으로써 CAM을 형성해낸다.

$$\alpha_k^c=\frac{1}{Z}\sum_i \sum_j \frac{\partial y^c}{\partial A_{ij}^k}$$

$$L_{Grad-CAM}^c = ReLU(\sum_k \alpha_k^c A^k)$$

3) Experiments 에서, 저자는 Guided backpropagation과 Guided Grad-CAM에 3개의 test를 했다.

(1) PASCAL VOC 2007 val set에서 두개의 카테고리를 포함하는 이미지를 사용하여, 이 이미지에 각 class에 해당하는 visualizations을 만들어내고, 이 이미지에 두개의 카테고리에 대해서 사람들에게 물어봤을 때 정확하게 인지 하는지에 대한 성능 평가를 하였다.

(2) VGG16는 AlexNet보다 더 reliable한 모델임으로, 두 모델을 갖고 만들어진 visualizations 중 어느 것이 더 reliable한 지를 판단하도록 하였다. (positive score는 VGG가 더 reliable 하다는 것을 의미한다.)

(3) Faithfulness를 평가하기 위해서, 는 이미지의 patch를 제거할 때의 CNN score의 차이를 평가하였다. 해당 제거된 patch가 Guided Grad-CAM이 보다 주요하게 본 부분이라면 Guided Grad-CAM은 faithfulness가 높다고 할 수 있다.

위의 표에서, 모든 성능면에서 Guided Grad-CAM이 Guided backpropagation보다 더 좋은 성능을 보였음을 알 수 있다.

Visualization performance에서, VGG16에서 예측이 실패한 경우 (top 1 prediciton)의 결과를 Guided Grad-CAM으로 확인해본 결과, 그럴듯 한 이유로 예측에 실패하였음을 보였다. (class ambiguity) 이와 같이 Guided Grad-CAM은 classification mistakes에 대해서 분석하고 설명할 수 있는 장점을 지닌다.

다음으로 Image captioning에서, 밑의 그림 (a)와 같이 Grad-CAM은 image captioning 문제에서도 잘 설명하고 있음을 보여주며, 밑의 그림 (b)와 같이 captioning에 대해서 잘 localize를 하여, bounding box와 연관된 부분에 heatmap을 생성해내는 것을 알 수 있다.

마지막으로, Visual question answering에서, CNN은 질문에 답한 답변에 대해서도 어느 부분을 보고 결정을 했는 지를 highlight 할 수 있음을 보여준다.

+

이 논문에서 주요하게 보야아 할 부분은 good visual explanation이란 무엇이고, 이를 증명해내기 위해서 어떤 방법들이 사용되었는지이다.

Comments