๐[๋
ผ๋ฌธ ๋ณด๋ฌ๊ฐ๊ธฐ](https://arxiv.org/abs/1807.06521)
# Abstract
- **CNN**์ ์ฑ๋ฅ์ ํฅ์ ์ํค๊ธฐ ์ํ **์ฃผ์(attentional) ๋ฉ์ปค๋์ฆ ๋ชจ๋**์ ์ ์ํ ์ฐ๊ตฌ์ด๋ค.
- **CNN**์ ์ค๊ฐ **feature map**์ ๋ํด ๋ ๊ฐ์ง ์ฐจ์์์ **attention**์ ๊ณ์ฐํ๋ค.
1. Channel Attention : ๋ฌด์์ ๋ณผ ๊ฒ ์ธ๊ฐ
2. Spatial Attention : ์ด๋๋ฅผ ๋ณผ ๊ฒ ์ธ๊ฐ
- ํด๋น ๋ attention์ **์์ฐจ์ **์ผ๋ก ์ ์ฉํ์ฌ **feature map**์ ๋ ์๋ฏธ ์๋ *ํน์ง*์ผ๋ก ๋ณํํ๋ค.
- ํด๋น attention module์ **๊ฐ๋ณ๊ณ **, **์ผ๋ฐ์ ์ธ ๊ตฌ์กฐ**๋ฅผ ๊ฐ์ง๋ค.
- ์ด๋ค CNN์๋ **์ฝ๊ฒ ๋ถ์ฌ** ์ฌ์ฉ ๊ฐ๋ฅํ๋ค.
- **์ถ๊ฐ ํ๋ผ๋ฏธํฐ๋ ๊ณ์ฐ ๋น์ฉ**์ด ๊ฑฐ์ ์๋ค.
- ์ ์ฒด ๋คํธ์ํฌ์ ํจ๊ป **end-to-end ํ์ต**์ด ๊ฐ๋ฅํ๋ค.
# 1. Introduction
- ๊ธฐ์กด์ ๋
ผ๋ฌธ๋ค์ **3๊ฐ์ง ์ธก๋ฉด**์์ ์ฑ๋ฅ์ ๊ฐ์ ํ๋ค.
| ๊ฐ์ ์์ | ์ค๋ช
| ๋ํ ์ฐ๊ตฌ |
| ----------------- | --------------------- | --------------------- |
| Depth | ๋ ๋ง์ ์ธต์ ์์ ๋ณต์กํ ํน์ง ํํ | LeNet โ VGG โ ResNet |
| Width | ๋ณ๋ ฌ ๊ตฌ์กฐ ํ์ฅ์ผ๋ก ํํ, ๋ค์์ฑ ์ฆ๊ฐ | GoogLeNet, WideResNet |
| Cardinality (์กํฉ์ฑ) | ์ฌ๋ฌ ๊ทธ๋ฃน์ ํน์ง์ ๋ณ๋ ฅ ํ์ต | ResNext, Xception |
- **CBAM**์ ์ด๋ฌํ **๊ธฐํํ์ ๊ตฌ์กฐ**๊ฐ ์๋๋ผ, ์ธ์ง์ ๋ฉ์ปค๋์ฆ์ธ **Attention**์ foucs ํ์๋ค.
- ์ฌ๋์ด ์ ์ฒด ์ฅ๋ฉด์ด ์๋ ์ค์ํ ๋ถ๋ถ์ ๋ณด๊ณ ์ฒ๋ฆฌํ๋ ๊ฒ์ฒ๋ผ CNN๋ **์ค์ํ ๋ถ๋ถ(feature)์ ๊ฐ์กฐ**ํ๊ณ **๋ ์ค์ํ feature์ ์ต์ **ํ๋๋ก ๋ง๋ค์ด ํ์ต์ ์งํํ์๋ค.
![[Convolutional Block Attention Module.png]]
- CBAM์ CNN์ feature map์ ๋ฐ์์ **Channel ๋ฐฉํฅ('๋ฌด์์ ๋ณผ ์ง')๊ณผ Spatial ๋ฐฉํฅ(์ด๋๋ฅผ ๋ณผ์ง)๋ก** ๊ฐ๊ฐ attention์ ๊ณ์ฐํ๊ณ ์ด๋ฅผ **์์ฐจ์ ์ผ๋ก ์ ์ฉ**ํ๋ค.
- CBAM๋ ์ฌ๋ฌ ๋ฐ์ดํฐ ์
์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์๋ค.
- ImageNet-1K์์ ๋ถ๋ฅ ์ ํ๋ ํฅ์
- MS COCO / VOC 2007์์ ๊ฐ์ฒด ํ์ง ์ฑ๋ฅ ํฅ์
- Grad_CAM ์๊ฐํ์์ ๋ชจ๋ธ์ด ๋ ์ ํํ ๋ชฉํ ๊ฐ์ฒด์ ์ง์คํจ
- User Study(์ฌ๋ ํ๊ฐ)์์ CBAM ๋ชจ๋ธ์ด ๋ **์ฌ๋์ฒ๋ผ ๋ณธ๋ค๊ณ ํ๊ฐ**ํ๋ค
- ํด๋น ์ฐ๊ตฌ์์๋ **3๊ฐ์ ๊ธฐ์ฌ์ **์ ๋ช
์ํ๋ค.
- ๊ฐ๋จํ์ง๋ง ํจ๊ณผ์ ์ธ(simple yet effective) **CBAM attetion ์ ์**
- ๊ด๋ฒ์ํ ablation ์คํ์ ํตํด **์ค๊ณ ์ ํ์ ํ๋น์ฑ ์ ์ฆ** -> ์ฌ๋ฌ ๊ฐ์ง ์กฐํฉ์ผ๋ก ์คํํ๋ฉด์ **ํน์ ์์**๊ฐ **์ฑ๋ฅ ํฅ์**์ ์ค์ ๋ก ๊ธฐ์ฌํ๋์ง ๋ถ์
- ์ฌ๋ฌ ๋ฐด์น๋งํฌ(ImageNet, MS COCO, VOC etc.)์์ **์ผ๊ด๋ ์ฑ๋ฅ ํฅ์**
# 2. Related Work
## Network engineering
- well-designed networks๋ Model์ performance ํฅ์์ ๋ณด์ฅํ๋ค.
- ๊ธฐ์กด์ CNN ๋ชจ๋ธ๋ค์ **Depth, Width, Cardinality**์ ์กฐ์ ํ๋ฉด์ ์ฑ๋ฅ ํฅ์์ ์ด๋์ด๋๋ค.
- [[Deep Residual Learning for Image Recognition|Resnet]]์ **skip connection**์ ํตํด ๊น์ด๋ฅผ ์ฆ๊ฐ ์์ผ ํํ๋ ฅ์ ๊ฐํํ๋ค.
- **WideResNet**์ ๊น์ด ๋์ ๋๋น๋ฅผ ์ฆ๊ฐ ์์ผ ๋ณ๋ ฌ ๊ตฌ์กฐ๋ก ๋ ๋ง์ feature ์กฐํฉ์ ๋ง๋ค์ด ์ฑ๋ฅ์ ํฅ์ ์์ผฐ๋ค.
- **ResNeXt**๋ **grouped convolution**์ ์ฌ์ฉํด **cardinality**๋ผ๋ ์ธ ๋ฒ์งธ ์ถ์ ํ๋ฆฝํ๋ค.
- ํ์ง๋ง **CBAM**์ human visual ststem ์์๋ฅผ ์ฐฉ์ํด **attention**์ด๋ผ๋ ์๋ก์ด ๊ด์ ์ ์ ์ํ๋ค.
## Attention mechanism
- ์ฌ๋์ ๋ฌผ์ฒด๋ฅผ ๋์ฑ ํจ๊ณผ์ ์ผ๋ก ํฌ์ฐฉํ๊ธฐ ์ํด ์ด๋ฏธ์ง๋ฅผ ํ ๋ฒ์ ์ ์ฒด์ ์ผ๋ก ์ธ์ํ๋ ๊ฒ์ด ์๋๋ผ, ์ ํ์ ์ผ๋ก **์ค์ํ ๋ถ๋ถ(salient part)์** ์ง์คํ๋ค.
- Attention ๊ธฐ๋ฐ CNN ์ฐ๊ตฌ๋ ์ด์ ์๋ ์ฌ๋ฌ ๊ฐ ์กด์ฌํ์ง๋ง ํ๊ณ์ ๋ํ ์ด ์กด์ฌํ๋ค..
- Wang et al. (2017) : Encoder-Decoder ํ์์ Attention / ๊ณ์ฐ ๋ณต์ก๋๊ฐ ์ฌ๋ผ๊ฐ๊ณ ๊ตฌ์กฐ๊ฐ ๋ณต์กํด์ก๋ค.
- Hu et al. (2017) : Channel-wise Attention(SE-Net) / separate attention์ ๋ฌด์ํ๋ค.
- SE-Net์ **global average pooling**์ ๊ตฌํด **chanel attetion**์ ํ์ตํ์ง๋ง CBAM๋ ์ฌ๊ธฐ์ **Max Pooling**์ ๋ํ์ฌ ๋ ํ๋ถํ ์ฑ๋ ์ ๋ณด๋ฅผ ํ์ตํ ํ **Spatial attetion**์ ์ถ๊ฐํ๋ค.
- **BAM(Bottleneck Attention Module)์** attention์ channel๊ณผ spatial์ ๋ถ๋ฆฌํ์ฌ ํ์ตํ๋ค๋ ์ ์์๋ ์ ์ฌํ์ง๋ง CBAM์ ๋นํด ๊ตฌ์กฐ ๋ณต์ก๋๊ฐ ํฌ๊ณ ๋คํธ์ํฌ์ bottleneck ๋ถ๋ถ์์๋ง ์ฝ์
ํ์ฌ **CBAM์ด ๋ ๊ฐ๋ณ๊ณ , ์ผ๋ฐ์ ์ธ Module๋ก ์ค๊ณ**๋์๋ค.
- ๊ฒฐ๋ก ์ ์ผ๋ก CBAM์ **๋ชจ๋ Convolutoin block์ ์ฝ์
**์ด ๊ฐ๋ฅํ๊ณ **์์ฐจํ(channel โ spatial)๋ก** ์ ์ฉ๋๊ธฐ ๋๋ฌธ์ CNN ๋ชจ๋ธ์ **plug-and-playํ**์ผ๋ก ์ ์ฉํ ์ ์๋ค.
# 3. Convolutionhal Block Attention Module
- CBAM์ CNN์ ์ค๊ฐ feature map FโR<sup>CรHรW</sup>์ ์
๋ ฅ์ผ๋ก ๋ฐ์ ๋ ๋จ๊ณ์ attention์ ์์ฐจ์ ์ผ๋ก ์ ์ฉํ๋ค.
- ![[CBAM Formula.png]]
- M<sub>cโ</sub>(F): Channel attention map (ํฌ๊ธฐ Cร1ร1)
- M<sub>s</sub>(Fโฒ): Spatial attention map (ํฌ๊ธฐ 1รHรW)
- โ: element-wise ๊ณฑ (attention์ ๊ณฑํด์ค)
- Channel attention์ ๊ฑฐ์น ๊ฐ์ด F'์ด๊ณ ํด๋น F'์ ํตํด Spatial attention์ ๊ฑฐ์น ์ต์ข
๊ฐ์ด F''์ด๋ค.
## Channel attention module
- Channel attention์ ๋ฌด์์ ๋ณผ์ง, ์ฆ **์ด๋ค ์ฑ๋์ด ๋ ์ค์ํ์ง ํ์ต**ํ๋ module์ด๋ค.
![[Channel Attention Module.png]]
- ์
๋ ฅ feature map์ **F**์ ๋ํด **average pooling**๊ณผ **max pooling**์ ๊ฐ๊ฐ ์ํํด ๊ณต๊ฐ ์ ๋ณด๋ฅผ ์์ฝํ๋ค.
- ๋ pooling ๊ฒฐ๊ณผ๋ฅผ **๊ณต์ ๋(shared) MLP**์ ํต๊ณผ์์ผ ์ฑ๋๋ณ ์ค์๋๋ฅผ ๊ณ์ฐํ๋ค.
- **MLP**๋ 2์ธต์ผ๋ก ์ด๋ฃจ์ด์ง fully-connected ๋คํธ์ํฌ์ด๋ค.
- **MLP**๊ฐ 2์ธต์ผ๋ก ์ด๋ฃจ์ด์ง ์ด์ ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ค์ด๊ธฐ ์ํด ์ฒ์ Layer๋ R<sup>C/rx1x1</sup>๋ก ์ฐจ์์ r๋น์จ๋ก **์ค์ด๊ณ (squeeze)** ๊ทธ ์ดํ์ ์ฐจ์์ ๋ณต์ํ๋ **excitation**์ ์งํํ๋ค.
- ![[Channel Attention Formula.png]]
- ฯ : **sigmod ํจ์**
- F<sup>c</sup>avg, F<sup>c</sup>max : ๊ฐ๊ฐ Feature map์ ๋ํด์ average pooling๊ณผ max pooling์ ๊ฑฐ์ณ ๋์จ ๊ฐ
- W<sub>0</sub>, W<sub>1</sub> : ๊ฐ๊ฐ MLP์ **squeeze**์ **excitation**
## Spatial attention module
- Spatial attention์ ์ด๋๋ฅผ ๋ณผ์ง, ์ฆ **feature map ๋ด ์ค์ํ ์์น(์ขํ)๋ฅผ** ํ์ตํ๋ module์ด๋ค.
![[Spatial Attention Module.png]]
- ์ฑ๋ ๋ฐฉํฅ์ผ๋ก average pooling๊ณผ max pooling์ ๊ฐ๊ฐ ์ํํ์ฌ ์ฑ๋์ ์ถ์ํ๋ค.
- ๋ pooling ๊ฒฐ๊ณผ๋ฅผ ํ๋์ ๋งต์ผ๋ก ์ฐ๊ฒฐ(Concatenate)ํ๋ค. F<sup>s</sup>avg, F<sup>s</sup>maxโR<sup>2รHรW</sup>
- **7x7 convolution Filter**๋ก Spatial attention์ ์ต์ข
์ ์ผ๋ก ๊ตฌํ๋ค. 7x7 ์ปค๋์ ์ฌ์ฉํ๋ ์ด์ ๋ **๋์ ์์ฉ ์์ญ(receptive field)๋ฅผ** ํ๋ณดํด ๋ ์ ํํ ์์น๋ฅผ ํฌ์ฐฉํ๊ธฐ ์ํจ
- ![[Spatial Attention Formula.png]]
- ฯ : **sigmod ํจ์**
- F<sup>s</sup>avg, F<sup>s</sup>max : ๊ฐ๊ฐ Feature map์ ๋ํด์ average pooling๊ณผ max pooling์ ๊ฑฐ์ณ ๋์จ ๊ฐ
- f<sup>7x7</sup> : 7x7 **convolution Filter**
## Arrangement of attention modules
- ๋ modules์ ๋ณ๋ ฌ์ ์ผ๋ก ์ํ ํ ์ง์ ์์ฐจ์ ์ผ๋ก ์ํ ํ ์ง๊ฐ ์ค์ํ๋ค.
- ์ด๋ ์ฌ๋ฌ ์คํ์ ํตํด **๋ณ๋ ฌ์ ๋ณด๋ค ์์ฐจ์ **์ผ๋ก **Spatial๋ณด๋ค Channel๋ฅผ ๋จผ์ ์ํ**ํ๋ ๊ฒ์ด ๊ฒฐ๊ณผ๊ฐ ๊ฐ์ฅ ์ข๊ฒ ๋์์์ ์ ์ ์๋ค.
# 4. Experiments
- ์คํ์ ์ด 3๋จ๊ณ๋ก 4.1 Ablation Studies, 4.2 Image Classification(ImageNet-1K), 4.3~4.6 Object Detection + Visualization ์ด๋ฃจ์ด์ ธ ์๋ค.
- 4.1 Ablation Studies : ๊ฐ์ฅ ํจ๊ณผ์ ์ธ CBAM ๊ตฌ์กฐ ์ฐพ๊ธฐ
- 4.2 Image Classification(ImageNet-1K) : CBAM๊ฐ ๋ถ๋ฅ ์ ํ๋๋ฅผ ์ผ๋ง๋ ๋์ด๋์ง
- 4.3~4.6 Object Detection + Visualization : CBAM๊ฐ ์ผ๋ง๋ ์ผ๋ฐํ๊ฐ ๋๋๊ฐ
## 4.1 Ablation Studies
- Ablation Studies์ ์ํด **ImageNet-1K** ๋ฐ์ดํฐ ์
๊ณผ **ResNet-50** Base Model์ ์ฌ์ฉํ์๋ค.
- data ์ด๋ฏธ์ง ํฌ๊ธฐ๋ 224x224๋ก ์๋ผ ์ฌ์ฉํ์๋ค.
- **learning rate๋ 0.1**๋ก ์ฌ์ฉํ์๊ณ epoch 30๋ฒ๋ง๋ค dropํ์๋ค.
- **epoch๋ ์ด 90**์ผ๋ก train ํ์๋ค.
### Channel attention
![[Comparison of different channel attention methods.png]]
- ResNet50์ **Avg Pool๋ง** ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ(SE-Net ๋ฐฉ์)์ ์ด๋ฏธ์ง ์ ์ฒด์ **ํ๊ท ์ ์ค์๋**๋ง ๋ฐ์ํด์ ๋ถ๋๋ฝ์ง๋ง ์ธ๋ฐํ ๊ตฌ๋ถ์ ์ด๋ ต๋ค.
- ResNet50์ **MaxPool๋ง** ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ๊ฐ์ฅ **๊ฐํ ํน์ง(peak activatoin)์**๋ง ์ง์คํ์ฌ ๋ถ๋ถ์ ์ผ๋ก๋ ๊ฐํ์ง๋ง ์ ์ฒด ๋งฅ๋ฝ์ ์ฝํ๋ค.
- ResNet50์ **Avg Pool + Max Pool**์ ๊ฒฐํฉํ ๋ฐฉ์์ **์ ์ญ**๊ณผ **์ง์ญ** ํน์ง์ ๋ชจ๋ ๋ฐ์ํ์ฌ Channel attention์ ํ์ตํ ์ ์๋ค.
### Spatial attention
![[Comparison of different spatial attention methods.png]]
- ResNet์ **Avg Pool + Max Pool**์ ๊ฒฐํฉํ ๋ฐฉ์์ Channel attention ๊ฒฐ๋ก ๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ ๋ง์ ๊ณต๊ฐ ์ ๋ณด๋ฅผ ๋ฐ์ํ์ฌ ์ ๋ฐ์ ์ธ ์ฑ๋ฅ์ด ํฅ์๋๋ค.
- ๋ํ sptial์ kernel size๊ฐ ํด ์๋ก **receptive field(์์ฉ ์์ญ)์ด** ๋์ด์ ธ ๋ ๋์ **context(๋ฌธ๋งฅ)์** ๋ณผ ์ ์๋ค.
- ๊ฒฐ๋ก ์ ์ผ๋ก Spatial attention์ **Avg Pool +Max Pool**์ **7x7 conv**์ด ์ผ๊ด๋ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์๋ค.
### Arrangement of the channel and spatial attention
![[Combining methods of channel and spatial attention.png]]
- ResNet์ ๋ณ๋ ฌ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ๊ฒ๋ณด๋ค **์์ฐจ์ ์ผ๋ก ์งํํ๋ ๊ฒ**์ด ์์ ์๊ด์์ด ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์ด์๋ค.
- ๊ทธ๋ฆฌ๊ณ ํนํ **spatial**๋ณด๋ค **channel์ ๋จผ์ ์ํ**ํ๋ ๊ฒ์ด ๊ทธ ๋ฐ๋๋ณด๋ค ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์๋ค.
- Channel์ด Spatial attention ๋ณด๋ค ๋จผ์ ์ํ๋๋ ์ด์ ๋ **์ ๋ณด์ ์ถ์๋์ ํ๋ฆ** ๋๋ฌธ์ด๋ค.
- CNN feature map์ ๊ฐ ์ฑ๋์ **ํน์ ํจํด์ ํ์งํ๋ ํํฐ**์ด๋ค.
- ์ฑ๋ 1 -> ๊ณ ์์ด ๊ท ํ์ง
- ์ฑ๋ 2 -> ์์ง ์์ง ํ์ง
- ์ฑ๋ 3 -> ํ๋ฐญ ์ง๊ฐ ํ์ง
- ์ด feature map์์ ์ ์ฒด๊ฐ ์ด๋๋ฆฌ **์ค์ํ ์ฑ๋**๋ง ๋จ๊ธฐ๊ฒ ๋๋ฉด **semanticํ๊ฒ ๊นจ๋**ํด์ง๋ค. ์ด๊ฒ ๋ฐ๋ก Channel attetion์ด๋ค.
- ์ด๋ ๊ฒ ์ป์ด์ง featrue map์์ ์ฐ๋ฆฌ๋ ์ด์ **'์ด๋์ ์ค์ํ ํน์ง์ด ์๋๊ฐ'๋ฅผ** ํ์ตํ๋ ๊ฒ์ด ํจ์จ์ ์ด๋ค. ์ด๊ฒ ๋ฐ๋ก Spatial attetion์ด๋ค.
- ์ฝ๊ฒ ๋งํด์ **๋์์ ๋ฌด์์ ์ฐพ์์ง ์ธ์ง**ํ๊ณ **๋์ผ๋ก ํด๋น Object๋ฅผ ์ฐพ๋** ๊ณผ์ ์ด ์ด ๊ณผ์ ์ ํด๋น ํ๋ค๊ณ ๋ถ ์์๋ค.
## 4.2 Image Classification(ImageNet-1K)
- CBAM์ ๋ค์ํ CNN ์ํคํ
์ฒ์ ๋ถ์์ ๋ ๋ ์ข์ ์ฑ๋ฅ์ ๋ผ ์ ์์๊น?
- ์ด 4๊ฐ์ง ์ํคํ
์ฒ์ **SE**๊ณผ **CBAM**์ ๋ถ์ฌ ์ฑ๋ฅ์ ๋น๊ตํ๋ค.
| ์ํคํ
์ฒ | ๋ชฉ์ | ์ค๋ช
|
| --------------------- | -------------------- | ------------------------ |
| **ResNet-50 / 101** | ๊ณ ์ฑ๋ฅ ํ์ค ๋ชจ๋ธ | Residual ๊ตฌ์กฐ ๊ธฐ๋ฐ์ deep CNN |
| **ResNeXt-50 / 101** | ์งํฉ์ฑ(cardinality) ์คํ์ฉ | Grouped convolution ๊ตฌ์กฐ |
| **WideResNet-50-2** | ๋๋น(width) ํ์ฅ ๊ตฌ์กฐ | ๊ฐ block์ ์ฑ๋ ํญ์ ๋๋ฆฐ ๋ฒ์ |
| **MobileNet (ฮฑ=0.7)** | ๊ฒฝ๋ ๋ชจ๋ธ | ํจ์จ์ฑ ์คํ์ฉ, ์ค์๊ฐ ์ ์ฉ ๊ฐ๋ฅ์ฑ ํ๊ฐ |
- ๊ฒฐ๋ก ์ ์ผ๋ก **SE**์ ๋ถ์ธ ์ํคํ
์ณ๊ฐ ์ผ๋ฐ์ ์ธ ์ํคํ
์ฒ๋ณด๋ค ์ฑ๋ฅ์ด ์ข๊ณ **CBAM**์ ๋ถ์ธ ์ํคํ
์ฒ๊ฐ **SM**์ ๋ถ์ธ ์ํคํ
์ฒ๋ณด๋ค ์ฑ๋ฅ์ด ์ข๊ฒ ๋ํ๋ฌ๋ค.
## 4.3~4.6 Object Detection + Visualization
### 4.3 Network Visualization with Grad-CAM
- **Grad-CAM**์ ํตํด ๊ฐ ๋ชจ๋ธ์ด ๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ๋ณผ ๋ **ํ์ฑํ(heatmap)๊ฐ** ์ด๋์ ์ง์ค๋๋์ง ์๊ฐ์ ์ผ๋ก ๋น๊ต๋ฅผ ํด๋ดค๋ค.
![[Grad-CAM visualization results.png]]
- ํด๋น ๊ฒฐ๊ณผ CBAM์ด ๋จ์ํ ์ฑ๋ฅ์ ํฅ์ ์ํฌ ๋ฟ ์๋๋ผ ์ง์ง **์ฃผ์(attention)์** ๋ ์ ํ์ตํ๊ณ ์๋์ง **์๊ฐ์ ์ผ๋ก ํ์ธ**ํ์๋ค.
### 4.5~4.6 Object Detection
- CBAM์ด classification ๋ง๊ณ ๋ ๋ค๋ฅธ ๋น์ ๊ณผ์ , ํนํ Object Detection์๋ **์ผ๊ด๋ ์ฑ๋ฅ ํฅ์**์ ๋ณด์๋ค.
- ๋ํ ๊ฒฝ๋ ๋ชจ๋ธ ๊ธฐ๋ฐ์ **์ค์๊ฐ ํ์ง๊ธฐ(SSD, StariNet)์์๋** CBAM์ด ํจ๊ณผ์ ์ด์๋ค.
- ์ด๋ฅผ ํตํด CBAM์ ์ ์์ญ์์ ์ผ๊ด๋ ์ฑ๋ฅ ํฅ์๊ณผ ํด์๋ ฅ ํฅ์์ ๋ณด์ฌ์คฌ๋ค.
- ์ฆ, ์ด๋ ํ CNN์์๋ ์ฝ๊ฒ ๋ถ์ผ ์ ์๋ **plug-and-play ๋ชจ๋**์ ์
์ฆํ๋ค.
# 5. Conclusion
- **CBAM**์ ๊ธฐ์กด์ ๊ตฌ์กฐ ๋ณ๊ฒฝ ์์ด๋ ๊ฐ๋จํ ์ถ๊ฐํ ์ ์๋ **plug-and-playํ** ๋ชจ๋์ด๋ค.
- **CBAM**์ ๋ ๋จ๊ณ์ **attention(Channel Attention, Spatial Attention)** ์ผ๋ก ๊ตฌ์ฑ๋๊ณ ์ด๋ฅผ ์ด์ฉํด feature map์ *์ ์ง์ ์ผ๋ก ์ ์ (refine)* ํ๋ค.
- ๊ธฐ์กด [[Squeeze-and-Excitation|SE(Squeeze-and-Excitation)]] Module์ *average pooling*๋ง ์ฌ์ฉํ์ผ๋ CBAM๋ **max pooling**์ ์ถ๊ฐ์ ์ผ๋ก ์ฌ์ฉํ์ฌ, ๋ ์ ๊ตํ attetion์ ํ์ตํ์๋ค.
- ํนํ **Spatial attentional** ์ฆ **'์ด๋์ ์ง์คํ๋์ง'๋ฅผ** ํ์ตํ์ฌ CNN์ด **๊ฐ์ฒด์ ํต์ฌ ์์น์ ์ง์คํ๋๋ก ์ ๋ํ์๋ค.
- ๋ค์ํ ๋ชจ๋ธ(ResNetm ResNeXt, MobileNet ๋ฑ)๊ณผ ๋ฐ์ดํฐ ์
์ ์ ์ฉํ์ ๋ **๋ ๋์ ์ ํ๋**๋ฅผ ๋ฌ์ฑํ ์ ์์๋ค.
- ImageNet์์ **Top-1/Top-5 error ๊ฐ์**
- MS COCO/VOC์์ **๊ฐ์ฒด ํ์ง ์ ํ๋(mAP)** ํฅ์
# Code review
๐[์ฝ๋ ๋ณด๋ฌ๊ฐ๊ธฐ](https://github.com/kuangliu/pytorch-cifar/blob/master/models/resnet.py)
- ResNet + CBAM์ ๊ตฌํํด๋ณด๊ณ SE-ResNet-50, ResNet-50 Model๊ณผ ์ฑ๋ฅ์ ๋น๊ตํด๋ณด์๋ค.
- DateSet์ **CIFAR10**์ ์ฌ์ฉํ๋ค.
## ํ์ต ๋ฐ์ดํฐ ๋ฐ ์ฆ๊ฐ
1. Random-size cropping : padding์ 4๋ก ํ์ฌ ํฌ๊ธฐ๋ฅผ ํค์ฐ๊ณ ๋๋ค์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ์๋๋ค.
2. Random horizontal flipping ์ฌ์ฉ
3. Input normalization : ํ๊ท ์ฑ๋๊ฐ์ ๋นผ์ ์ ๊ทํ
4. Train Data๋ฅผ 8:2๋ก ๋๋ ์ ํ์ตํ ๋๋ Train set์ ์ฌ์ฉํ๊ณ ํ์ต ์ค๊ฐ์ค๊ฐ Valldation set์ ์ฌ์ฉํ์ฌ top-1 error๋ฅผ ์ธก์ ํ์๋ค.
## ํ์ต ์ธํ๋ผ
- ๊ทธ๋ํฝ ์นด๋ : 4080 Super
- Mixed Percision ์ฌ์ฉ
## ์ต์ ํ ์ค์
- Optimizer : SGD ์ฌ์ฉ, Momentum 0.9
- Batch size : 512
- ํฌ๋ก์ค ์ํธ๋กํผ ์์ค ํจ์ ์ฌ์ฉ
- ์ด๊ธฐ ํ์ต๋ฅ : 0.001
- Learning rate schedule : 5 epochs๋ง๋ค ์ฑ๋ฅ ํฅ์์ด ์์ผ๋ฉด x0.2, ์ต์ 1e-6
| | Loss | Error | ์ด ํ์ต ์๊ฐ |
| ------------- | ------ | ------ | ---------- |
| ResNet-50 | 0.3488 | 20.20% | 108m 57.1s |
| SE-ResNet-50 | 0.2512 | 17.53% | 128m 38.5s |
| ResNet + CBAM | 0.2599 | 17.81% | 172m 25.6s |
![[Pasted image 20251031154000.png]]