Combinational Class Activation Maps for Weakly Supervised Object Localization 내용 정리 [XAI-18]

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

iMTE

Combinational Class Activation Maps for Weakly Supervised Object Localization 내용 정리 [XAI-18] 본문

Deep learning study/Explainable AI, 설명가능한 AI

Combinational Class Activation Maps for Weakly Supervised Object Localization 내용 정리 [XAI-18]

Wonju Seo 2021. 8. 25. 17:58

논문 제목 : Combinational Class Activation Maps for Weakly Supervised Object Localization

논문 주소 : https://openaccess.thecvf.com/content_WACV_2020/html/Yang_Combinational_Class_Activation_Maps_for_Weakly_Supervised_Object_Localization_WACV_2020_paper.html

WACV 2020 Open Access Repository

Seunghan Yang, Yoonhyung Kim, Youngeun Kim, Changick Kim; Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2020, pp. 2941-2949 Weakly supervised object localization has recently attracted attention since it aims to i

openaccess.thecvf.com

주요 내용 정리

1) 기존에 weakly supervised object localization (WSOL) 연구에서 class activaiton map (CAM)을 사용 할 때, highest probability class로 부터 획득된 CAM을 사용하여 localization을 하여 semi label을 생성한 방법 대신, 저자는 highest probability class부터 lowest probability class로 부터 획득된 CAM들을 사용하여 좀 더 object를 더 잘 highlight 하는 CAM을 생성해내고, 이를 통해서 localizaiton 성능을 향상시키는 것에 포커싱 하였다. 또한, Non-local modules을 추가하여, 기존에 high-level feature maps만 사용하는 것 대신, low 부터 high level feature map을 사용하는 방법을 제안하였다.

주요 아이디어는 밑의 그림을 보면 알 수 있다.

위의 그림처럼 기존 CAM은 highest probability class로부터 생성된 하나의 heatmap을 고려하는데, 저자가 제안하는 NL-CCAM 방법은 여러 class의 heatmap으로 부터 좀 더 localized가 된 CAM을 생성해내는 것이다. 위 그림에서 보면 제안된 NL-CCAM이 CAM보다 더 ground truth bounding box에 가까운 bounding box를 만들어 낼 수 있으며, 덜 background region에 highlight 된 모습을 볼 수 있다.

이 논문의 아이디어중 하나는 lowest probability class로 생성된 heatmaps으로 부터 이 background region에 highlight 된 부분을 제거하는 것이다. 이는 lowest probability class는 discriminative object에 대해 큰 activation 값을 갖기 보다는 background region에 포커싱이 되어야하기 때문이다.

2) 먼저, CAM 관련된 식은 다음과 같다.

$c 1 = a r g m a x c (\sum n w n, c F n) <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><msub><mi>c</mi><mn>1</mn></msub><mo>=</mo><mi>a</mi><mi>r</mi><mi>g</mi><mi>m</mi><mi>a</mi><msub><mi>x</mi><mi>c</mi></msub><mo stretchy="false">(</mo><munder><mo data-mjx-texclass="OP">\sum</mo><mi>n</mi></munder><msub><mi>w</mi><mrow data-mjx-texclass="ORD"><mi>n</mi><mo>,</mo><mi>c</mi></mrow></msub><msup><mi>F</mi><mi>n</mi></msup><mo stretchy="false">)</mo></math>$

위 식에서 $c_1$ 은 highest probability를 갖는 class label, $w_{n,c}$ 는 n 번째 feature map의 GAP 이후의 값에 대한 class $c$ 에 대한 weight, $F^n$ 은 n 번째 feature map $f^n$ 의 GAP 결과 값이다.

여기서, 1st map $M^{c_1}$ 과 kth map $M^{c_k}$ 는 다음과 같다.

$M c 1 = \sum n w n, c 1 f n <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><msup><mi>M</mi><mrow data-mjx-texclass="ORD"><msub><mi>c</mi><mn>1</mn></msub></mrow></msup><mo>=</mo><munder><mo data-mjx-texclass="OP">\sum</mo><mi>n</mi></munder><msub><mi>w</mi><mrow data-mjx-texclass="ORD"><mi>n</mi><mo>,</mo><msub><mi>c</mi><mn>1</mn></msub></mrow></msub><msup><mi>f</mi><mi>n</mi></msup></math>$

$M c k = \sum n w n, c k f n <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><msup><mi>M</mi><mrow data-mjx-texclass="ORD"><msub><mi>c</mi><mi>k</mi></msub></mrow></msup><mo>=</mo><munder><mo data-mjx-texclass="OP">\sum</mo><mi>n</mi></munder><msub><mi>w</mi><mrow data-mjx-texclass="ORD"><mi>n</mi><mo>,</mo><msub><mi>c</mi><mi>k</mi></msub></mrow></msub><msup><mi>f</mi><mi>n</mi></msup></math>$

그리고, 최종 localization map은 다음과 같다.

$M c c a m = \sum k g (k) M c k <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><msup><mi>M</mi><mrow data-mjx-texclass="ORD"><mi>c</mi><mi>c</mi><mi>a</mi><mi>m</mi></mrow></msup><mo>=</mo><munder><mo data-mjx-texclass="OP">\sum</mo><mi>k</mi></munder><mi>g</mi><mo stretchy="false">(</mo><mi>k</mi><mo stretchy="false">)</mo><msup><mi>M</mi><mrow data-mjx-texclass="ORD"><msup><mi>c</mi><mi>k</mi></msup></mrow></msup></math>$

저자는 여러개의 CAM을 조합하기 위해서 두가지 방법을 제안하였다.

(1) polynomial funciton

위 식은 polynomial function을 사용하여 $k$ class에 해당하는 CAM에 서로 다른 weight을 주고 최종 localization map을 만드는 것을 의미한다. ( $\eta$ 는 함수의 차수, $p$ 는 총 foreground activation map의 갯수를 의미한다. 이 논문에서 $p$ 는 middle point로 정해졌다.)

(2) Top-i & bottom-j function

위 식은 $i$ 개의 high probability classes와 $j$ 개의 low probablity classes를 고려하여 최종 localization map을 만드는 것을 의미한다.

마지막으로, 이 논문에서 제안하는 non-local module 이다. 먼저, 전체적인 overview는 밑의 그림과 같다.

위 그림에서 저자는 낮은 수준의 convolutional layer 부터 높은 수준의 convolution layer를 사용하여 low level feature (edge, textures)와 high level feature (objects)를 고려하도록 하였다.

특정 layer에서 획득된 feature maps $x\in \mathbb{R}^{C\times H \times W}$ 에 세 개의 feature spaces로 1 x 1 convolution layer를 사용하여 projection을 한다. ( $f(x)$ , $g(x)\in \mathbb{R}^{C'\times H \times W}$ , $h(x)\in \mathbb{R}^{C\times H\times W}$ )

다음으로, $f(x)$ 와 $g(x)$ 를 $\mathbb{R}^{C'\times HW}$ 로 reshape하고, $h(x)$ 를 $\mathbb{R}^{C\times HW}$ 로 reshape 한다.

다음으로 attention matrix를 다음과 같이 정의하고, final attention을 1 x 1 convolution layer와 batch normalization layer를 통과시켜 획득한다.

$α = S o f t m a x (f (x) T g (x)) <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mi>α</mi><mo>=</mo><mi>S</mi><mi>o</mi><mi>f</mi><mi>t</mi><mi>m</mi><mi>a</mi><mi>x</mi><mo stretchy="false">(</mo><mi>f</mi><mo stretchy="false">(</mo><mi>x</mi><msup><mo stretchy="false">)</mo><mi>T</mi></msup><mi>g</mi><mo stretchy="false">(</mo><mi>x</mi><mo stretchy="false">)</mo><mo stretchy="false">)</mo></math>$

$z = B N (k (h (X) \otimes α)) <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mi>z</mi><mo>=</mo><mi>B</mi><mi>N</mi><mo stretchy="false">(</mo><mi>k</mi><mo stretchy="false">(</mo><mi>h</mi><mo stretchy="false">(</mo><mi>X</mi><mo stretchy="false">)</mo><mo>\otimes</mo><mi>α</mi><mo stretchy="false">)</mo><mo stretchy="false">)</mo></math>$

그리고 final output y를 획득한다. (skip connection을 사용한 것이다.)

$y = z + x <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mi>y</mi><mo>=</mo><mi>z</mi><mo>+</mo><mi>x</mi></math>$

저자는 attention을 사용함으로써 spatial relationships을 추출하고, 여러 level의 feature maps을 사용하여 low 부터 high에 해당하는 정보를 얻도록 설계하였다.

3) 실험 결과를 확인해보자. 제안된 NL-CCAM은 기존의 방법 보다 더 나은 Top-1 error를 보여주었음을 알 수 있다.

또한, localization errors에서도 기존 방법 대비 더 나은 성능을 보여주었다.

Ground truth를 알았을 때의 localization error도 제안된 방법이 낮다는 것을 보여주었으며, combination 방법에 따른 성능에서 ILSVRC datasets에서는 top-1 & bottom-10이, CUB-200-2011 datasets에서는 Quadratic( $\eta$ =2)가 가장 좋은 성능을 보여주었다.

다음으로, abalation test에서는 CUB-200-2011에서 가장 좋은 성능을 보여준 모델을 사용 했을 때, 모든 방법을 사용 할 때 성능이 가장 좋았음을 보여주었다.

시각적인 결과를 확인해보면, CAM에 비해서 background region이 덜 highlight 되어있다는 것을 확인 할 수 있으며, high probability는 object에 low probabilty는 background에 highlight가 된다는 것을 알 수 있다. 또한, bounding box도 ground truth에 매우 근사해지는 것을 알 수 있다.

저자는 두가지 방법 (Combinational CAM 과 non-local module)을 사용하여 기존 CAM 방법대비 더 좋은 성능을 보였다. 개인적으로는 더 많은 연산이 필요하게 될 텐데, 이에 대한 inference time에 대한 계산과, CAM 이외 (CAM 방법은 구조 자체를 GAP을 사용해야하기 때문에, 성능 저하를 초래할 수 있으며, 다양한 task에서 사용되기 어렵다.)의 Grad-CAM과 같은 최근 방법에 대한 검증을 하는게 필요하다고 생각한다.

저작자표시

'Deep learning study > Explainable AI, 설명가능한 AI' 카테고리의 다른 글

Informative Class Activation Maps 내용 정리 [XAI-20] (0)	2021.09.06
Eigen-CAM: Class Activation Map Using Principal Components 내용 정리 [XAI-19] (0)	2021.09.01
How to Manipulate CNNs to Make Them Lie: the GradCAM Case 내용 정리 [XAI-16] (0)	2021.08.18
Axiom-based Grad-CAM: Towards Accurate Visualization and Explanation of CNNs 내용 정리 [XAI-15] (0)	2021.08.12
Grad-CAM: Why did you say that? 내용 정리 [XAI-14] (0)	2021.06.24

'Deep learning study/Explainable AI, 설명가능한 AI' Related Articles

Comments

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

iMTE

iMTE

Combinational Class Activation Maps for Weakly Supervised Object Localization 내용 정리 [XAI-18] 본문

Combinational Class Activation Maps for Weakly Supervised Object Localization 내용 정리 [XAI-18]

논문 제목 : Combinational Class Activation Maps for Weakly Supervised Object Localization

논문 주소 : https://openaccess.thecvf.com/content_WACV_2020/html/Yang_Combinational_Class_Activation_Maps_for_Weakly_Supervised_Object_Localization_WACV_2020_paper.html

'Deep learning study > Explainable AI, 설명가능한 AI' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역