๐Ÿ“š[๋…ผ๋ฌธ ๋ณด๋Ÿฌ๊ฐ€๊ธฐ](https://arxiv.org/abs/1512.03385) ๐Ÿ“š[์ฝ”๋“œ ๋ณด๋Ÿฌ๊ฐ€๊ธฐ](https://github.com/kuangliu/pytorch-cifar/blob/master/models/resnet.py) # ์‚ฌ์ „ ์กฐ์‚ฌ ## Deep Residual Learning - **Deep Residual Learning** ๋˜๋Š” **Residual Networks(ResNets)** ์€ ๊นŠ์€ ์‹ ๊ฒฝ๋ง์„ ํ›ˆ๋ จํ•˜๊ธฐ ์œ„ํ•œ ํ˜์‹ ์ ์ธ ๋ฐฉ๋ฒ•๋ก ์„ ๋งํ•œ๋‹ค. - ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” **์ž”์ฐจ(residual) ์—ฐ๊ฒฐ**์„ ๋„์ž…ํ•˜์—ฌ ์ธต์„ ๊นŠ๊ฒŒ ์Œ“์„ ๋•Œ ๋ฐœ์ƒํ•˜๋Š” **๊ธฐ์šธ๊ธฐ ์†Œ์‹ค(vanishing gradients)** ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ## ์™œ ํ•„์š”ํ•œ ๊ฐ€ - ์‹ ๊ฒฝ๋ง์˜ ์„ฑ๋Šฅ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด ์ธต์„ ๊นŠ๊ฒŒ ์Œ“๋Š” ๊ฒƒ์ด ์ผ๋ฐ˜์ ์ด์ง€๋งŒ, ์ธต์ด ๊นŠ์–ด์งˆ์ˆ˜๋ก ํ•™์Šต์ด ์–ด๋ ค์›Œ์ง„๋‹ค. - **๊ธฐ์šธ๊ธฐ ์†Œ์‹ค (Vanishing Gradients)** : ์—ญ์ „ํŒŒ ๊ณผ์ •์—์„œ ๊ธฐ์šธ๊ธฐ๊ฐ€ 0์— ์ˆ˜๋ ดํ•˜์—ฌ ์•ž์ชฝ ์ธต์˜ ๊ฐ€์ค‘์น˜๊ฐ€ ๊ฑฐ์˜ ์—…๋ฐ์ดํŠธ ๋˜์ง€ ์•Š๋Š” ํ˜„์ƒ. - **์„ฑ๋Šฅ ์ €ํ•˜ (Degradation)** : ์ธต์ด ๊นŠ๊ฒŒ ์Œ“์„์ˆ˜๋ก ์˜คํžˆ๋ ค ํ›ˆ๋ จ ์ •ํ™•๋„๊ฐ€ ๋‚ฎ์•„์ง€๋Š” ํ˜„์ƒ. ์ด๋Š” ๊ณผ์ ํ•ฉ ๋•Œ๋ฌธ์ด ์•„๋‹ˆ๋ผ, ์ตœ์ ํ™”๊ฐ€ ๋” ์–ด๋ ค์›Œ์ ธ ๋ฐœ์ƒํ•œ๋‹ค. ### ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค์€ ์™œ ์ผ์–ด๋‚˜๋Š”๊ฐ€ - ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ํ˜„์ƒ์€ ์ฃผ๋กœ **Sigmoid**๋‚˜ **tanh** ๊ณ„์—ด์˜ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์“ธ ๋•Œ ๋‚˜ํƒ€๋‚˜๋Š” ํ˜„์ƒ์ด๋‹ค. - **Sigmoid** ํŠน์„ฑ์˜ ํ•จ์ˆ˜๋Š” ๋„คํŠธ์›Œํฌ ์ธต์ด ๊นŠ์–ด์งˆ ์ˆ˜๋ก ์ถœ๋ ฅ๊ฐ’์ด ์–‘๊ทน๋‹จ (0 ๋˜๋Š” 1)์œผ๋กœ ๊ฐ€๊ฒŒ ๋˜๋Š” ์„ฑํ–ฅ์ด ์žˆ๊ณ  ์ด๋Ÿฌํ•œ ์„ฑํ–ฅ ๋•Œ๋ฌธ์— ์ž…๋ ฅ๊ฐ’์˜ ์ฐจ์ด๊ฐ€ ๋ฏธ๋ฏธํ•ด์ง€๋Š” ๊ฒฝํ–ฅ์ด ์žˆ๋‹ค.![[sigmoid.jpg]] - ๋˜ํ•œ ์˜ค์ฐจ๋กœ๋ถ€ํ„ฐ ์‹œ์ž‘๋œ ์—ญ์ „ํŒŒ์˜ **gradient**๊ฐ€ ์ดˆ๊ธฐ์ธต์œผ๋กœ ๋‚ด๋ ค๊ฐˆ ์ˆ˜๋ก ์ฒด์ธ๋ฃฐ์— ์˜ํ•ด ๊ณฑํ•ด์ ธ์•ผ ํ•  ํ•ญ๋“ค์ด ๋งŽ์ด์ง€๊ฒŒ ๋˜์–ด ์ดˆ๊ธฐ์ธต์— ๊ฐ€๊นŒ์šด ๊ฐ€์ค‘์น˜๋“ค์˜ **๊ธฐ์šธ๊ธฐ๊ฐ€ ๊ฑฐ์˜ 0์— ๊ฐ€๊นŒ์›Œ์ง€๋Š” ํ˜„์ƒ**์ด ๋ฐœ์ƒํ•˜๊ฒŒ ๋œ๋‹ค. ## ์ž”์ฐจ ์—ฐ๊ฒฐ (Residual Connection) - ResNet์€ ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด **์ž”์ฐจ ๋ธ”๋ก(residual block)** ์ด๋ผ๋Š” ๊ตฌ์กฐ๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ์ž”์ฐจ ๋ธ”๋ก์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํŠน์ง•์„ ๊ฐ€์ง„๋‹ค. 1. **Skip Connection (์ง€๋ฆ„๊ธธ ์—ฐ๊ฒฐ)** : ์ž…๋ ฅ(x)์„ ๋ธ”๋ก์˜ ์ถœ๋ ฅ์— ์ง์ ‘ ๋”ํ•ด์ฃผ๋Š” **์ง€๋ฆ„๊ธธ ์—ฐ๊ฒฐ**์„ ๋งŒ๋“ญ๋‹ˆ๋‹ค. 2. **์ž”์ฐจ ํ•จ์ˆ˜ (Residual Function)** : ๋ธ”๋ก ๋‚ด์˜ ์—ฌ๋Ÿฌ ์ธต์„ ํ†ต๊ณผํ•œ ์ถœ๋ ฅ F(x)๋Š” **์ž”์ฐจ ํ•จ์ˆ˜**๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค. 3. **์ตœ์ข… ์ถœ๋ ฅ** : ๋ธ”๋ก์˜ ์ตœ์ข… ์ถœ๋ ฅ์€ $H(x) = F(x) + x$์ด๋‹ค. - ์—ฌ๊ธฐ์„œ **F(x)** ๋Š” `์ž…๋ ฅ x์™€ ์ถœ๋ ฅ H(x)์˜ ์ฐจ์ด`์ธ **์ž”์ฐจ**๋ฅผ ํ•™์Šตํ•œ๋‹ค. ์ฆ‰, ๋„คํŠธ์›Œํฌ๋Š” H(x)๋ฅผ ์ง์ ‘ ํ•™์Šตํ•˜๋Š” ๋Œ€์‹ , $F(x) = H(x) - x$๋ฅผ ํ•™์Šตํ•œ๋‹ค. - ๋งŒ์•ฝ ๊นŠ์€ ์ธต์ด ํ•„์š” ์—†๋Š” ๊ฒฝ์šฐ, ๋„คํŠธ์›Œํฌ๋Š” $F(x) = 0$์„ ์‰ฝ๊ฒŒ ํ•™์Šตํ•˜์—ฌ **ํ•ญ๋“ฑ ํ•จ์ˆ˜**๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค. ์ฆ‰, $H(x) = x$๊ฐ€ ๋˜์–ด ์ž…๋ ฅ์ด ๊ทธ๋Œ€๋กœ ์ „๋‹ฌ๋œ๋‹ค. ์ด๋Š” ์ธต์„ ์ถ”๊ฐ€ํ•˜๋”๋ผ๋„ **์„ฑ๋Šฅ์ด ์ตœ์†Œํ•œ ์ €ํ•˜๋˜์ง€ ์•Š๋„๋ก ๋ณด์žฅํ•˜๋Š” ํšจ๊ณผ๋ฅผ ๊ฐ€์ ธ์˜จ๋‹ค.** ## ์ž”์ฐจ ๋„คํŠธ์›Œํฌ ํ•™์Šต ๋ฐฉ๋ฒ• - **ํ•˜๋‚˜์˜ ๋ธ”๋ก**์„ ์„ค์ •ํ•œ๋‹ค. ์ด ๋ธ”๋ก ์•ˆ์—๋Š” ์—ฌ๋Ÿฌ ์ธต์˜ ๋…ธ๋“œ๋“ค์ด ์กด์žฌํ•œ๋‹ค. - ์ด ๋ธ”๋ก ์ „์ฒด๊ฐ€ $F(x)$๋ฅผ ์ถœ๋ ฅํ•˜๋„๋ก ํ›ˆ๋ จ ์‹œํ‚จ๋‹ค. ๋ธ”๋ก ๋‚ด์˜ ๋ชจ๋“  ๋…ธ๋“œ๋“ค์€ ์„œ๋กœ ํ˜‘๋ ฅํ•˜์—ฌ(๊ฐ€์ค‘์น˜์™€ ํŽธํ–ฅ์„ ์กฐ์ •ํ•˜์—ฌ) ๋ชฉํ‘œํ•˜๋Š” $F(x)$๋ฅผ ๋งŒ๋“ค์–ด๋ƒ…๋‹ˆ๋‹ค. - ์ด๋Š” ๋ธ”๋ก์˜ ์ž…๋ ฅ์ธ x์™€ ๋”ํ•ด์ ธ ์ตœ์ข… ์ถœ๋ ฅ(H(x))์ด ๋ฉ๋‹ˆ๋‹ค. ## ResNet์˜ ์˜์˜ - ResNet์€ ์ด๋ฏธ์ง€ ์ธ์‹ ๋ถ„์•ผ์—์„œ ํš๊ธฐ์ ์ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๊ฐ€์ ธ์™”์œผ๋ฉฐ, 2015๋…„ ImageNet ๋Œ€ํšŒ์—์„œ ์šฐ์Šน์„ ์ฐจ์ง€ํ–ˆ๊ณ  ์ดํ›„ ๋‹ค์•™ํ•œ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์˜ ๊ธฐ๋ณธ ๊ตฌ์กฐ๋กœ ํ™œ์šฉ๋˜๊ณ  ์žˆ๋‹ค. ## ๋‚ด๊ฐ€ ์ดํ•ดํ•œ ๋‚ด์šฉ (๋‚˜์˜ ๋ฌธ์žฅ) - ๋ณดํ†ต ์ด์ „์˜ ์‹ ๊ฒฝ๋ง ํ•™์Šต ๋ฐฉ๋ฒ•์€ $x$์„ ๋„ฃ์–ด $H(x)$๋ฅผ ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ ๊ฐ€์ค‘์น˜๋ฅผ ๋ณ€๊ฒฝํ•˜์—ฌ ์˜ค์ฐจ๋ฅผ ์ค„์ด๋Š” ๋ฐฉ์‹์ด๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์€ ์ธต์ด ๊นŠ์–ด์งˆ ์ˆ˜๋ก **๊ธฐ์šธ๊ธฐ ์†Œ์‹ค**, **์„ฑ๋Šฅ ์ €ํ•˜ (Degradation)** ๊ฐ€ ์ผ์–ด๋‚œ๋‹ค. - **ResNet**์€ ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ •๋‹ต $H(x)$ ๋Œ€์‹  ์ž”์ฐจ $F(x)$๋ฅผ ํ•™์Šตํ•˜์—ฌ ์ •๋‹ต์— ๋‹ค๊ฐ€๊ฐˆ ์ˆ˜ ์žˆ๋„๋ก ๋งŒ๋“œ๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ๋‹ค์‹œ ๋งํ•ด, $H(x)$์™€ $F(x) + x$ ์‚ฌ์ด์˜ **error**๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ  error ์ตœ์†Œํ™” ํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ€์ค‘์น˜๋ฅผ ์กฐ์ •ํ•œ๋‹ค. - **ResNet**์€ $F(x) = 0$ ์ฆ‰, 0์„ ํ•™์Šตํ•˜๋Š” ๋‚œ์ด๋„๊ฐ€ ์‰ฝ๋‹ค. ์ง€๊ธˆ๊นŒ์ง€ ๊ณ„์†ํ•ด์„œ **๊ธฐ์กด์˜ Plain Network**๋Š” *์•„๋ฌด๊ฒƒ๋„ ํ•˜์ง€ ์•Š๋Š” ์–•์€ ์ธต* ์„ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ๋„ˆ๋ฌด ์–ด๋ ค์› ๋‹ค. ์™œ๋ƒํ•˜๋ฉด ์ˆ˜ ๋งŽ์€ ๊ฐ€์ค‘์น˜๋ฅผ ๊ณ„์† ๋ฐ”๊พธ๋ฉด์„œ 0์„ ๋งŒ๋“ค์–ด์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ํ•˜์ง€๋งŒ **ResNet**์€ *F(x) = 0*์„ ๋„ฃ์œผ๋ฉด ๋˜๊ธฐ ๋•Œ๋ฌธ์— ๊ธฐ์กด ๋ฐฉ์‹์— ๋น„ํ•ด ๋งค์šฐ ์‰ฝ๋‹ค. - *์•„๋ฌด๊ฒƒ๋„ ํ•˜์ง€ ์•Š๋Š” ์–•์€ ์ธต*์„ ์ถ”๊ฐ€ํ•œ๋‹ค๊ณ  ๋‹น์—ฐํžˆ ์„ฑ๋Šฅ์ด ์ข‹์•„์ง€์ง€๋Š” ์•Š๋Š”๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Ÿฌํ•œ ์ด ์ธต์€ **์„ฑ๋Šฅ์ €ํ•˜**๋ฅผ ๋ง‰์„ ์ˆ˜ ์žˆ๋‹ค. ์›๋ž˜ ๊นŠ์ด๊ฐ€ ๊นŠ์–ด์งˆ ์ˆ˜๋ก ๊ฐ€์ค‘์น˜๊ฐ€ ๋‹ค์–‘ํ•ด์ง์— ๋”ฐ๋ผ ์„ฑ๋Šฅ์ด ๋‹น์—ฐํžˆ ์ฆ๊ฐ€๋˜๋Š”๋ฐ, ๊ธฐ์กด์˜ ์„ฑ๋Šฅ์ €ํ•˜๋ฅผ ํ•ด๊ฒฐํ–ˆ๊ธฐ ๋•Œ๋ฌธ์— ๊ฒฐ๊ณผ์ ์œผ๋กœ ๋‹น์—ฐํžˆ ์„ฑ๋Šฅ์ด ์ฆ๊ฐ€ํ•  ์ˆ˜ ๋ฐ–์— ์—†๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ### ๊ธฐ์กด ์‹ ๊ฒฝ๋ง์˜ ํ•™์Šต vs. ์ž”์ฐจ ๋„คํŠธ์›Œํฌ์˜ ํ•™์Šต | ๊ตฌ๋ถ„ | ๊ธฐ์กด ์‹ ๊ฒฝ๋ง (Plain Network) | ์ž”์ฐจ ๋„คํŠธ์›Œํฌ (Residual Network) | | ---------- | ---------------------------------------- | -------------------------------------------------------------------- | | **๋ชฉํ‘œ ํ•จ์ˆ˜** | **H(x)** ๋ฅผ ํ•™์Šต | **F(x)** ๋ฅผ ํ•™์Šต | | **ํ•™์Šต ๊ณผ์ •** | ์ž…๋ ฅ $x$๋ฅผ ์ตœ์ข… ์ถœ๋ ฅ $H(x)$๋กœ ์ง์ ‘ ๋ณ€ํ™˜ํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ€์ค‘์น˜๋ฅผ ์กฐ์ ˆ | **์ด๋ฏธ ์กด์žฌํ•˜๋Š” ์ž…๋ ฅ๊ฐ’($x$)์— 'ํ•„์š”ํ•œ ์ˆ˜์ •'($F(x)$)๋งŒ์„ ํ•™์Šต**ํ•˜์—ฌ ๊นŠ์€ ์‹ ๊ฒฝ๋ง์„ ํšจ์œจ์ ์ด๊ณ  ์•ˆ์ •์ ์œผ๋กœ ํ›ˆ๋ จ | | **๊ฐ€์ค‘์น˜ ์กฐ์ •** | $H(x)$๊ฐ€ ์ •๋‹ต($x$)๊ณผ ์ผ์น˜ํ•˜๋„๋ก ๊ฐ€์ค‘์น˜๋ฅผ ์กฐ์ ˆ | $H(x)=F(x)+x$ ์— **๊ฐ€๊น๋„๋ก** ๊ฐ€์ค‘์น˜๋ฅผ ์กฐ์ ˆ | # Abstract - ์ด์ „์˜ Deep neural networks๋Š” ํ•™์Šตํ•˜๋Š”๊ฒŒ ์–ด๋ ค์› ์ง€๋งŒ, **residual learning framework**์„ ์‚ฌ์šฉํ•˜๋ฉด ๋ณด๋‹ค ์‰ฝ๊ฒŒ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค. - **ImageNet dataset**์—์„œ **VGG nets**๋ณด๋‹ค 8๋ฐฐ ๋” ๊นŠ์€ **152 Layer Depth**๋กœ ๋งŒ๋“ค์–ด์ง„ residual nets์„ ์ด์šฉํ•ด `3.57%`์˜ error์„ ์–ป์–ด๋‚ผ ์ˆ˜ ์žˆ์—ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด **ILSVRC 2015 classfication task**์—์„œ 1๋“ฑ์„ ์ฐจ์ง€ํ–ˆ๋‹ค. - **๊นŠ์ด์— ๋Œ€ํ•œ ํ‘œํ˜„**์€ **visual recognition tasks**์— ๋งค์šฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ๋งก๋Š”๋ฐ **Deep Residual Nets**์€ ๋„คํŠธ์›Œํฌ๊ฐ€ ๊นŠ์–ด์ง์— ์žˆ์–ด ์ผ์–ด๋‚˜๋Š” ๋ฌธ์ œ๋“ค์„ ํšจ๊ณผ์ ์œผ๋กœ ํ•ด๊ฒฐํ–ˆ๋‹ค. # 1. Introduction - ์ตœ๊ทผ(2015๋…„ ๊ธฐ์ค€) ์‹œ๊ฐ ์ธ์‹ ์ž‘์—… ๋ฐ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ฃผ์š” ๊ฒฐ๊ณผ๋ฅผ ๋ดค์„ ๋•Œ **๋„คํŠธ์›Œํฌ ๊นŠ์ด๊ฐ€ ๊นŠ์„ ์ˆ˜๋ก** ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์คฌ๋‹ค. ํ•˜์ง€๋งŒ ๊นŠ์ด๊ฐ€ ๊นŠ์–ด์งˆ ์ˆ˜๋ก ํ•™์Šตํ•˜๊ธฐ ๋” ์–ด๋ ค์›Œ์ง€๋Š” ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค. - Network๊ฐ€ ๊นŠ์–ด์งˆ ์ˆ˜๋ก **vansihing/exploding gradients** ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋Š” ๋‘ ๊ฐ€์ง€ ๊ธฐ์ˆ ๋กœ ํ•ด๊ฒฐ๋˜์—ˆ๋‹ค. - **Normalized Initialization(์ดˆ๊ธฐ๊ฐ’์„ ์ž˜ ์„ค์ •ํ•˜๊ธฐ)** : ์‹ ๊ฒฝ๋ง ๊ฐ€์ค‘์น˜๋ฅผ ๋ฌด์ž‘์œ„๊ฐ€ ์•„๋‹Œ **์ข‹์€ ์ดˆ๊ธฐ๊ฐ’**์„ ์ž˜ ์ฐพ์•„์ฃผ๋Š” ๋ฐฉ์‹ - **Intermediate Normalization Layers(์ค‘๊ฐ„์ค‘๊ฐ„ ๋ฐ์ดํ„ฐ๋ฅผ ์ •๊ทœํ™”ํ•˜๊ธฐ)** : ์‹ ๊ฒฝ๋ง์˜ ์ธต ์‚ฌ์ด์— **์ •๊ทœํ™” ์ธต(Normalization Layer)** ์„ ์ถ”๊ฐ€ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ์ด๋Š” ๋ฐ์ดํ„ฐ์˜ ํฌ๊ธฐ๋‚˜ ๋ถ„ํฌ๊ฐ€ ๋„ˆ๋ฌด ์ปค์ง€๊ฑฐ๋‚˜ ์ž‘์•„์ง€์ง€ ์•Š๋„๋ก ์ค‘๊ฐ„์— ์•ˆ์ •์ ์œผ๋กœ ๋งž์ถฐ์ฃผ๋Š” ์—ญํ• ์„ ํ•œ๋‹ค. ๋Œ€ํ‘œ์ ์ธ ์˜ˆ์‹œ๊ฐ€ (`Batch Normalization`) - ์ด ๋‘ ๊ฐ€์ง€ ๊ธฐ์ˆ ๋กœ ํ™•๋ฅ ์  ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(**Stochastic gradient descent(SGD)**)์ด๋ผ๋Š” ํ•™์Šต ๋ฐฉ๋ฒ•์œผ๋กœ ์˜ค์ฐจ๋ฅผ ์ค„์—ฌ๊ฐ€๋ฉฐ ํ•™์Šต(**converge**)์„ ์‹œ์ž‘ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๋‹ค. / (converge : **์˜ค์ฐจ(loss)๊ฐ€ ์ ์  ์ค„์–ด๋“ค๊ณ  ์•ˆ์ •๋˜๋Š” ์ƒํƒœ**๋ฅผ ์˜๋ฏธ) - ํ•˜์ง€๋งŒ ์ด๋Ÿฌํ•œ ๋ฐฉ์‹๋“ค์€ ๊นŠ์ด๊ฐ€ ๊ธธ์–ด์งˆ ๋•Œ ์ƒ๊ธฐ๋Š” **๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ**๋Š” ํ•ด๊ฒฐํ–ˆ์ง€๋งŒ **์„ฑ๋Šฅ ์ €ํ•˜ ๋ฌธ์ œ**๋Š” ํ•ด๊ฒฐํ•˜์ง€ ๋ชปํ–ˆ๋‹ค. ์„ฑ๋Šฅ ์ €ํ•˜ ๋ฌธ์ œ๋Š” **๊ณผ์ ํ•ฉ** ๋•Œ๋ฌธ์— ๋ฐœ์ƒํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ **์ตœ์ ํ™”๋ฅผ ํ•˜์ง€ ๋ชปํ•ด** ๋ฐœ์ƒํ•˜๋Š” ๊ฒƒ์ด๋‹ค. CIFAR-10์—์„œ Layer๊ฐ€ 20์ธต์ธ model๊ณผ 56์ธต์ธ model์„ ๋น„๊ตํ–ˆ์„ ๋•Œ, **Training Error**์™€ **Test Error** ๋ชจ๋‘ Layer๊ฐ€ 20์ธต ๋ณด๋‹ค 56์ธต์ธ Model์—์„œ ๋” ๋†’๊ฒŒ ๋‚˜์™”๋‹ค. ![[Error with 20-layer and 56-layer.png]] - ์ด๋ก ์ ์œผ๋กœ๋Š” ๊นŠ์€ ๋ชจ๋ธ์ด ์–•์€ ๋ชจ๋ธ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋‚˜์  ์ด์œ ๊ฐ€ ์—†๋‹ค. ์™œ๋ƒํ•˜๋ฉด ๊นŠ์€ ๋ชจ๋ธ์— ์•„๋ฌด ๊ธฐ๋Šฅ๋„ ํ•˜์ง€ ์•Š๋Š” ์–•์€ ์ธต์„ ์ถ”๊ฐ€ํ•œ๋‹ค๊ณ  ์„ฑ๋Šฅ์ด ๋‚˜๋น ์ง„๋‹ค๋Š” ๋…ผ๋ฆฌ์™€ ๊ฐ™๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ํ•˜์ง€๋งŒ ์‹คํ—˜์  ๊ฒฐ๊ณผ์—์„œ ๋ดค๋“ฏ์ด ์•„๋ฌด๊ฒƒ๋„ ํ•˜์ง€ ์•Š๋Š” ์‹ ๊ฒฝ๋ง์„ ๋งŒ๋“ค์–ด๋‚ด์ง€ ๋ชปํ•˜๊ณ  ์˜คํžˆ๋ ค ๊ธฐ์กด **์„ฑ๋Šฅ์„ ์ €ํ•˜(Degradation)** ์‹œํ‚ค๋Š” ํ˜„์ƒ์ด ๋‚˜ํƒ€๋‚ฌ๋‹ค. - ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด **deep residual learning framework**๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. deep residual learning framework์€ **Underly mapping** ๋Œ€์‹  **Residual Mapping**์„ ๊ตฌํ•œ๋‹ค. - **Underly mapping** : ๊ธฐ์กด ์‹ ๊ฒฝ๋ง์ด ํ•™์Šตํ•˜๋ ค๋Š” ์ตœ์ข…์ ์ธ ํ•จ์ˆ˜ $H(x)$ - **Residual Mapping** : ์ž”์ฐจ ๋„คํŠธ์›Œํฌ๊ฐ€ ํ•™์Šตํ•˜๋ ค๋Š” ๋ณ€ํ™”๋Ÿ‰ ํ•จ์ˆ˜ $F(x)$, ์ตœ์ข… ์ถœ๋ ฅ์€ $H(x) = F(x) + x$ - *Residual Mapping*์„ ์‚ฌ์šฉํ•˜๋ฉด ์•„๊นŒ ์ „์— ๋งํ–ˆ๋˜ '์•„๋ฌด ๊ธฐ๋Šฅ๋„ ํ•˜์ง€ ์•Š๋Š” ์–•์€ ์ธต'์„ $F(x) = 0$์„ ํ†ตํ•ด ์‰ฝ๊ฒŒ ๋งŒ๋“ค ์ˆ˜๋„ ์žˆ๋‹ค. (์ •ํ™•ํžˆ๋Š” ์ด๋ฅผ ํ•˜๋„๋ก ์œ ๋„ํ•˜๋Š” ๊ฑฐ์ž„, ๊ธฐ์กด *Underly mapping* ๋ณด๋‹ค ์‰ฌ์›€) - **deep residual learning framework**์—์„œ๋Š” **shortcut connections**์ด ์กด์žฌํ•œ๋‹ค. ์ด์ „ ๊ฐ’์„ ๋‹ค๋ฅธ ์ธต๋“ค์„ ๊ฑฐ์น˜์ง€ ์•Š๊ณ  ๊ทธ ๋‹ค์Œ ์ธต ๋˜๋Š” ๋” ๋งŽ์€ ์ธต๋“ค์„ ๋›ฐ์–ด ๋„˜์–ด ํ•ด๋‹น ๊ฐ’์„ ์ „๋‹ฌํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์—ฌ๋Ÿฌ Layer๋“ค์„ ๊ฑฐ์ณ ์–ป์–ด๊ฐ„ $F(x)$์™€ *shortcut connections*์„ ํ†ตํ•ด ๋„˜์–ด๊ฐ„ $x$๊ฐ’์„ ๋” ํ•ด $H(x) = F(x) + x$์ด ์™„์„ฑ๋œ๋‹ค. ์ด๋Ÿฌํ•œ *shortcut connections*์„ **Identity mapping**์ด๋ผ๊ณ ๋„ ๋ถˆ๋ฆฐ๋‹ค. ![[Residual Learning ShortCut.png]] - ์ด๋Ÿฌํ•œ **ResNets**์€ ๊ธฐ์กด ๋ฐฉ์‹(**plain nets**)๋ณด๋‹ค ๋” ์ตœ์ ํ™” ํ•˜๊ธฐ ์‰ฝ๊ณ  ์ •ํ™•๋„๊ฐ€ ๋†’์•˜๋‹ค. ๋˜ํ•œ ์ด ๋ฐฉ์‹์€ *vision* ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ *non-vision problem*๋„ ํ•ด๊ฒฐ ๊ฐ€๋Šฅํ•œ **์ผ๋ฐ˜์ ์œผ๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•œ ๋ฐฉ์‹**์ด๋‹ค. # 2. Related Work ## Residual Representations - **๊ธฐ์กด ๋ฐฉ์‹**(์›๋ณธ ๋ฐ์ดํ„ฐ ์‚ฌ์šฉ)์€ **์ด๋ฏธ์ง€ ์ „์ฒด(๋ชจ๋“  ํ”ฝ์…€ ๊ฐ’)๋ฅผ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉํ•˜์—ฌ ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ์‹**์ด๋ผ ๋ฐ์ดํ„ฐ๊ฐ€ ๋„ˆ๋ฌด ๋ฐฉ๋Œ€ํ•˜๊ณ  ๋น„ํšจ์œจ์ ์ด๋‹ค. - **์ž”์ฐจ ๋ฐฉ์‹(์ž”์ฐจ ํ‘œํ˜„)** ์€ **์‚ฌ์ „(dictionary)** ์ด๋ผ๋Š” ๊ฒƒ์„ ๋งŒ๋“ ๋‹ค. ์—ฌ๊ธฐ์„œ ์‚ฌ์ „์€ ํŠน์ • ์ด๋ฏธ์ง€์— ๋Œ€ํ•œ ๋ช‡ ๊ฐ€์ง€ ๋Œ€ํ‘œ์ ์ธ ํ˜•ํƒœ๋ฅผ ๋ฏธ๋ฆฌ ์ €์žฅํ•ด๋‘” ์ผ์ข…์˜ **ํƒฌํ”Œ๋ฆฟ ๋ชจ์Œ**์ด๋‹ค. ์ด๋Ÿฌํ•œ ์‚ฌ์ „์„ ์ด์šฉํ•ด ํŠน์ • ์ด๋ฏธ์ง€๊ฐ€ ๋“ค์–ด์˜ค๋ฉด ํ•ด๋‹น ์ด๋ฏธ์ง€๋ž‘ ์‚ฌ์ „์ด๋ž‘ ์–ผ๋งˆ๋‚˜ ๋‹ค๋ฅธ์ง€๋งŒ ๊ธฐ๋กํ•œ๋‹ค. ์ฆ‰, **์›๋ณธ๊ณผ ํƒฌํ”Œ๋ฆฟ์˜ ์ฐจ์ด(์ „์ฐจ(residual))๋งŒ ๊ธฐ๋กํ•œ๋‹ค.** - **VLAD**์™€ **Fisher Vector**๋Š” ํ•ด๋‹น **์ž”์ฐจ**๋ฅผ ์ด์šฉํ•ด ์ด๋ฏธ์ง€๋ฅผ ํ‘œํ˜„ํ•˜๋Š” ๋Œ€ํ‘œ์ ์ธ ๊ธฐ์ˆ ์ด๋‹ค. ํ•ด๋‹น ๊ธฐ์ˆ ๋“ค์€ ๋”ฅ๋Ÿฌ๋‹ ๋“ฑ์žฅ ์ „, ์ด๋ฏธ์ง€ ๊ฒ€์ƒ‰์ด๋‚˜ ๋ถ„๋ฅ˜ ๋ถ„์•ผ์—์„œ ๋งค์šฐ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค€ **์–•์€ ํ‘œํ˜„(Shallow representations)** ๋ฐฉ์‹์ด๋‹ค. - **VLAD** : ์ฃผ์–ด์ง„ ์ด๋ฏธ์ง€์˜ ํŠน์ง•๋“ค์„ ์‚ฌ์ „์˜ ํ…œํ”Œ๋ฆฟ๊ณผ ๋น„๊ตํ•˜์—ฌ ๊ทธ **์ž”์ฐจ ๋ฒกํ„ฐ**๋“ค์„ ๋ชจ์•„์„œ ํ•˜๋‚˜์˜ ๋ฒกํ„ฐ๋กœ ๋งŒ๋“œ๋Š” ๋ฐฉ์‹์ด๋‹ค. - **Fisher Vector** : VLAD๋ฅผ ํ™•๋ฅ ์ ์œผ๋กœ ๋” ์ •๊ตํ•˜๊ฒŒ ๋ฐœ์ „์‹œํ‚จ ๋ฐฉ์‹์ด๋‹ค. - ์ปดํ“จํ„ฐ ๋น„์ „๊ณผ ๊ทธ๋ž˜ํ”ฝ์Šค ๋ถ„์•ผ์—๋„ *์ „์ฐจ*๋ฅผ ํ™œ์šฉํ•ด ๋ฌธ์ œํ•ด๊ฒฐ ํ•˜๋Š” ๋ฐฉ๋ฒ•๋“ค์ด ์˜ค๋ž˜์ „๋ถ€ํ„ฐ ์กด์žฌํ–ˆ๋‹ค. ์ฆ‰ **๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ํ’€ ๋•Œ, ๋ฌธ์ œ ์ „์ฒด๋ฅผ ํ•œ ๋ฒˆ์— ํ•ด๊ฒฐํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค '์—ฌ๋Ÿฌ ๋‹จ๊ณ„์— ๊ฑธ์ณ ํ•„์š”ํ•œ ๋ณ€ํ™”๋Ÿ‰(์ž”์ฐจ)'๋งŒ ํ•ด๊ฒฐํ•˜๋Š” ๊ฒƒ์ด ํ›จ์”ฌ ๋” ํšจ์œจ์ ์ธ ๊ฒƒ**์ด๋‹ค. - ์ž”์ฐจ ๋ฐฉ์‹(Multigrid / ๊ณ„์ธต์  ๊ธฐ์ € ๋ฐฉ๋ฒ•)์€ ๊ฑฐ์นœ ๋‹จ๊ณ„์™€ ์„ธ๋ฐ€ํ•œ ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์ณ ๊ทธ๋ฆผ์„ ๊ทธ๋ฆฐ๋‹ค. - **1๋‹จ๊ณ„ (Coarser scale, ๊ฑฐ์นœ ๋‹จ๊ณ„)**: ๋จผ์ € ์•„์ฃผ ๊ฑฐ์น ๊ณ  ๊ฐ„๋‹จํ•œ ์Šค์ผ€์น˜๋ฅผ ๋น ๋ฅด๊ฒŒ ๊ทธ๋ฆฐ๋‹ค. - **2๋‹จ๊ณ„ (Finer scale, ์„ธ๋ฐ€ํ•œ ๋‹จ๊ณ„)**: ์ด์ œ ์ด ๊ฑฐ์นœ ์Šค์ผ€์น˜ ์œ„์— ์„ธ๋ฐ€ํ•œ ๋ถ€๋ถ„๋“ค์„ ์ถ”๊ฐ€ํ•œ๋‹ค. ์ด๋•Œ, **'๊ฑฐ์นœ ์Šค์ผ€์น˜์™€ ์ตœ์ข… ์™„์„ฑ๋ณธ ์‚ฌ์ด์˜ ์ฐจ์ด', ์ฆ‰ '์ž”์ฐจ'** ๋งŒ์„ ์ฑ„์›Œ ๋„ฃ๋Š” ์ž‘์—…์— ์ง‘์ค‘ํ•œ๋‹ค. ## Shortcut Connections - **Shortcut Connection**๋„ *ResNet*์˜ ๋…์ฐฝ์ ์ธ ์•„์ด๋””์–ด๊ฐ€ ์•„๋‹ˆ๋ผ ์ˆ˜์‹ญ ๋…„๋ถ€ํ„ฐ ์žˆ์—ˆ๋˜ ์•„์ด๋””์–ด๋‹ค. - **์ดˆ๊ธฐ MLP (๋‹ค์ธต ํผ์…‰ํŠธ๋ก )** : ๋„คํŠธ์›Œํฌ์˜ ์ž…๋ ฅ๊ฐ’๊ณผ ์ถœ๋ ฅ๊ฐ’์„ ์„ ํ˜•์ ์œผ๋กœ ์—ฐ๊ฒฐํ•˜์—ฌ, ํ•™์Šต์„ ๋” ์•ˆ์ •์ ์œผ๋กœ ๋งŒ๋“ค์—ˆ๋‹ค. - **๋ณด์กฐ ๋ถ„๋ฅ˜๊ธฐ (Auxiliary Classifiers)**: ์ค‘๊ฐ„ ์ธต์— ์ถ”๊ฐ€์ ์ธ ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ์—ฐ๊ฒฐํ•ด, ๊นŠ์€ ๋„คํŠธ์›Œํฌ์˜ ํ•™์Šต์„ ๋ฐฉํ•ดํ•˜๋Š” **๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ**๋ฅผ ํ•ด๊ฒฐํ•˜๋ ค ํ–ˆ๋‹ค. - **์ธ์…‰์…˜ ๋ ˆ์ด์–ด (Inception Layer)**: ์ธ์…‰์…˜ ๊ตฌ์กฐ์—๋„ ์ง€๋ฆ„๊ธธ ์—ญํ• ์„ ํ•˜๋Š” ๋ธŒ๋žœ์น˜๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค - ํ•˜์ง€๋งŒ ์ด๋Ÿฌํ•œ ๊ธฐ์ˆ ๋“ค์€ ์•„์ฃผ ๊นŠ์€ ๋„คํŠธ์›Œํฌ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ›ˆ๋ จํ•˜๋Š”๋ฐ์—๋Š” **ํ•œ๊ณ„**๊ฐ€ ์žˆ์—ˆ๋‹ค. - **ํ•˜์ด์›จ์ด ๋„คํŠธ์›Œํฌ** ๋˜ํ•œ **๊ฒŒ์ดํŠธ**๋ผ๋Š” ์žฅ์น˜๋ฅผ ํ†ตํ•ด **์ •๋ณด์˜ ํ๋ฆ„์„ ์กฐ์ ˆ**ํ•˜๋Š”๋ฐ ์ด ๊ธฐ๋Šฅ์€ 100์ธต ์ด์ƒ ๊นŠ์–ด์ง€๋ฉด ์˜คํžˆ๋ ค ํ•™์Šต์ด ์ œ๋Œ€๋กœ ๋˜์ง€ ์•Š๋Š” ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ–ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋ฐ˜๋Œ€๋กœ **ResNet**์€ ๊ฒŒ์ดํŠธ ์—†์ด **'ํ•ญ์ƒ ์—ด๋ ค ์žˆ๋Š” Identity Mapping'** ์„ ํ†ตํ•ด ์•„๋ฌด๋ฆฌ ์ธต์„ ๊นŠ๊ฒŒ ์Œ“์•„๋„ ํ•™์Šต์ด ์›ํ™œํ•˜๊ฒŒ ์ง„ํ–‰๋˜์—ˆ๋‹ค. # 3. Deep Residual Learning ## 3.1 Residual Learning - ๊ธฐ์กด์˜ ์‹ ๊ฒฝ๋ง์—์„œ ์ตœ์ข…์ ์œผ๋กœ ๊ตฌํ•˜๋ ค๋Š” ๊ฐ’์„ $H(x)$๋ผ ํ•˜๊ณ  Resnet์—์„œ ๊ตฌํ•˜๋ ค๋Š” ๊ฐ’์„ $H(x) -x$๋ผ ๊ฐ€์ •ํ•˜์ž. ์ด ๊ณผ์ •์—์„œ ์ž”์ฐจํ•จ์ˆ˜๋ฅผ $F(x) = H(x) - x$๋ผ๊ณ  ์ •์˜ํ•˜๋ฉด **Original Function(์ตœ์ข…์ ์ธ ๊ฐ’)** ์€ $H(x) = F(x) + x$๋ผ ํ•  ์ˆ˜ ์žˆ๋‹ค. - ์ด๋Ÿฌํ•œ ๋ณ€ํ™”๋Š” ํ•™์Šต์„ฑ ์šฉ์ด์„ฑ(ease of learning)์ด ๋‹ค๋ฅด๋‹ค. ๋‹ค์‹œ ๋งํ•ด, **'ํ•„์š”ํ•œ ๋ณ€ํ™”๋Ÿ‰'์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด '๋ณต์žกํ•œ ํ•จ์ˆ˜ ์ „์ฒด๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ฒƒ'๋ณด๋‹ค ํ›จ์”ฌ ์‰ฌ์šด ๋ฌธ์ œ**๋กœ ๋ฐ”๋€๋‹ค. - *Introduction*์—์„œ ๋งํ–ˆ๋“ฏ์ด ๊นŠ์ด๊ฐ€ ๋” ๊นŠ์€ ์‹ ๊ฒฝ๋ง์ด ์–•์€ ์‹ ๊ฒฝ๋ง๋ณด๋‹ค error๊ฐ€ ๋” ๋†’์€ ๊ฒƒ์€ ๋ง์ด ์•ˆ๋œ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๊ฐ€ ์ผ์–ด๋‚˜๋Š” ์ด์œ ๋Š” ๊ธฐ์กด ์‹ ๊ฒฝ๋ง ๋ฐฉ์‹์€ ์ด **Identtiy mapping**์„ ๋งŒ๋“œ๋Š”๋ฐ, ์–ด๋ ค์›€์„ ๋А๋‚€๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. - ์—ฌ๊ธฐ์„œ **ResNet**์˜ ํ•ต์‹ฌ์ ์ธ ์›๋ž˜๊ฐ€ ์ฒ˜์Œ $x$ ๊ฐ’์„ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต ๋ชฉํ‘œ๋ฅผ $F(x) = H(x) - x$๋กœ ๋ฐ”๊พธ๋Š” ๊ฒƒ์ด๋‹ค.(๋งŒ์•ฝ ๊ฒฐ๊ณผ๊ฐ€ ํ•ญ๋“ฑ๊ฐ’์ด์—ฌ์•ผ ํ•œ๋‹ค๋ฉด $H(x) = x$์ด๊ธฐ ๋•Œ๋ฌธ์— $F(x) = 0$์ด๋‹ค.) ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์ •๋‹ต๊ณผ ๋งค์šฐ ์œ ์‚ฌํ•œ ๊ฐ’(ํ•ญ๋“ฑ ํ•จ์ˆ˜)์—์„œ ์‹œ์ž‘ํ•ด์„œ **์ž‘์€ ๋ณ€ํ™”๋Ÿ‰(์ „์ฐจ)** ๋งŒ ์ฐพ์œผ๋ฉด ๋˜๊ธฐ ๋•Œ๋ฌธ์— ์••๋„์ ์œผ๋กœ ์‰ฌ์šด ๋ฌธ์ œ๊ฐ€ ๋œ๋‹ค. ## 3.2 Identity Mapping by Shortcuts - ์ž”์ฐจ ๋ธ”๋Ÿญ์˜ ํ•ต์‹ฌ ๊ณต์‹์€ $y = F(x, {W_i}) + x$์ด๋‹ค. - *F* ์•ˆ์˜ $x$ : ๋ธ”๋ก์— ๋“ค์–ด๊ฐ€๋Š” ์ž…๋ ฅ ๊ฐ’ - $y$ : ๋ธ”๋ก์—์„œ ๋‚˜์˜ค๋Š” ์ตœ์ข… ์ถœ๋ ฅ ๊ฐ’ - $F(x, {W_i})$ : ๋ธ”๋ก ๋‚ด์— ์žˆ๋Š” ์—ฌ๋Ÿฌ ์ธต์ด ํ•™์Šตํ•˜๋Š” **๋ณ€ํ™”๋Ÿ‰**์ด๋‹ค. ${W_i}$๋Š” ์ด ์ธต๋“ค์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์˜๋ฏธํ•œ๋‹ค. - $+x$ : **shortcut connection**์„ ํ†ตํ•ด ์ž…๋ ฅํ•œ $x$๊ฐ’ ๊ทธ๋Œ€๋กœ ๋”ํ•ด์ง€๋Š” ๋ถ€๋ถ„์ด๋‹ค. - **์ด ๊ณต์‹์€ ์ถœ๋ ฅ์€ ์ž…๋ ฅ๊ฐ’์— 'ํ•™์Šต๋œ ๋ณ€ํ™”๋Ÿ‰'์„ ๋”ํ•œ ๊ฒƒ๊ณผ ๊ฐ™๋‹ค.** ๋ผ๋Š” ๋œป์ด๋‹ค. - ์‹ค์šฉ์ ์ธ ์„ค๊ณ„ ์›์น™ 1. *shortcut connection*์˜ ๋น„์šฉ์€ ๊ฑฐ์˜ ๋“ค์ง€ ์•Š๋Š”๋‹ค. - ๋‹จ์ˆœํ•œ ๋”ํ•˜๊ธฐ ์—ฐ์‚ฐ๋งŒ ์ถ”๊ฐ€๋œ ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์— ๋ณต์žกํ•œ ์—ฐ์‚ฐ์ด ํ•„์š”์—†๋‹ค. 2. ์ž…๋ ฅ ๊ฐ’๊ณผ ์ถœ๋ ฅ ๊ฐ’์˜ ์ฐจ์›์„ ๋งž์ถฐ์•ผ ํ•œ๋‹ค. - ์ž…๋ ฅ($x$)๊ณผ ์ถœ๋ ฅ($F$)์ด ๋‹ค๋ฅผ ๊ฒฝ์šฐ ์ด ๋‘˜์„ ๋”ํ•  ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ์— **ํฌ๊ธฐ ์กฐ์ ˆ ๋ฉ”ํŠธ๋ฆญ์Šค($W_s$)** ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ $x$์˜ ํฌ๊ธฐ๋ฅผ ๋งž์ถฐ์ฃผ์–ด์•ผ ํ•œ๋‹ค. 3. $F(x)$๋Š” ์—ฌ๋Ÿฌ ์ธต์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด์•ผ ํ•œ๋‹ค. - $F(x)$๊ฐ€ ๋‹จ ํ•œ ๊ฐœ์˜ ์ธต์œผ๋กœ๋งŒ ๊ตฌ์„ฑ๋  ๊ฒฝ์šฐ **ResNet**์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ์ œ๋Œ€๋กœ ๋‚˜ํƒ€๋‚˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— $F(x)$/์ž”์ฐจ ๋ธ”๋ก์€ ๋ณดํ†ต ๋‘์„ธ ๊ฐœ์˜ ์ธต์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. 4. **CNN**์—๋„ ์ ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค. - CNN์—๋„ ๊ทธ๋Œ€๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ•˜๊ณ  ํ”ฝ์…€ ๋Œ€์‹  **ํŠน์ง• ๋งต(feature map)** ๋‹จ์œ„๋กœ *shortcut connection*์„ ์—ฐ๊ฒฐํ•˜๊ณ  ๋”ํ•˜๋Š” ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. ## 3.3 Network Architectures - **์ผ๋ฐ˜ ์‹ ๊ฒฝ๋ง(Plain Network)์™€ ์ž”์ฐจ ์‹ ๊ฒฝ๋ง(Residual Network)** ์˜ ์ฐจ์ด๋ฅผ ๋ณด๊ธฐ ์œ„ํ•ด ์ „์ฒด์ ์ธ ๊ตฌ์กฐ์™€ ์ธต์˜ ๊นŠ์ด ๊ณ„์‚ฐ๋Ÿ‰์€ ๊ฑฐ์˜ ๋™์ผํ•˜๊ฒŒ ๋งŒ๋“ค๊ณ  **shortcut connections** ์œ ๋ฌด ๋งŒ์„ ์ฐจ์ด๋กœ ๋‘๊ณ  ๊ณต์ •ํ•˜๊ฒŒ ์„ฑ๋Šฅ์„ ๋น„๊ตํ•˜๋„๋ก ์„ค๊ณ„ํ•ด๋ณด์ž. - **Plain Network**์€ ์œ ๋ช… ๋ชจ๋ธ **VGG ๋ชจ๋ธ**์˜ ์ฒ ํ•™์„ ๋”ฐ๋ผ ๋‹จ์ˆœํ•œ ๊ทœ์น™์œผ๋กœ ์„ค๊ณ„ํ•˜์˜€๋‹ค. (34์ธต์˜ Layer) - ๊ทœ์น™ 1 : ๊ฐ™์€ ํฌ๊ธฐ์˜ ์ด๋ฏธ์ง€ ํŠน์ง•๋งต(feature map)์—์„œ๋Š” **Filter์˜ ์ˆ˜๋ฅผ ๋™์ผํ•˜๊ฒŒ ์œ ์ง€**ํ•œ๋‹ค. - ๊ทœ์น™ 2 : ํŠน์ง•๋งต ํฌ๊ธฐ๊ฐ€ ์ ˆ๋ฐ˜์œผ๋กœ ์ค„์–ด๋“ค ๋•Œ, **Filter ์ˆ˜๋Š” ๋‘ ๋ฐฐ**๋กœ ๋Š˜๋ ค ์—ฐ์‚ฐ๋Ÿ‰์„ ์ผ์ •ํ•˜๊ฒŒ ์œ ์ง€ํ•œ๋‹ค. - **Residual Network**์€ *Plain Network*์„ ๊ธฐ๋ฐ˜์œผ๋กœ, ๊ทธ ์œ„์— **shortcut connections**๋งŒ ์ถ”๊ฐ€ํ•˜์—ฌ ๋งŒ๋“ค์—ˆ๋‹ค. - ๊ทœ์น™ 1 : ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ ํฌ๊ธฐ๊ฐ€ ๊ฐ™์„ ๋•Œ, ์ž…๋ ฅ ๊ฐ’์„ ๊ทธ๋Œ€๋กœ ์ถœ๋ ฅํ•ด ๋”ํ•ด์ฃผ๋Š” **identity mapping**์„ ์‚ฌ์šฉํ–ˆ๋‹ค. - ๊ทœ์น™ 2 : ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ ํฌ๊ธฐ๊ฐ€ ๋‹ค๋ฅผ ๋•Œ, ์ด๋Ÿด ๋•Œ๋Š” ์ „์— ๋งํ•œ ๊ฑฐ์ฒ˜๋Ÿผ ๊ทธ๋ƒฅ ๋”ํ•  ์ˆ˜๋Š” ์—†๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด 2๊ฐ€์ง€ ์˜ต์…˜์„ ์‚ฌ์šฉํ–ˆ๋‹ค. - ์˜ต์…˜ A (๋งค๊ฐœ๋ณ€์ˆ˜ ์—†์Œ) : **zero-padding**์„ ํ†ตํ•ด ํฌ๊ธฐ๋ฅผ ๋งž์ถ˜๋‹ค. ์ด ๋ฐฉ์‹์€ ์ถ”๊ฐ€์ ์ธ ํ•™์Šต ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ํ•„์š” ์—†๋‹ค. - ์˜ต์…˜ B (๋งค๊ฐœ๋ณ€์ˆ˜ ์žˆ์Œ) : **1x1 ํ•ฉ์„ฑ๊ณฑ(convolution)** ์„ ์‚ฌ์šฉํ•ด ์ž…๋ ฅ ๊ฐ’์˜ ํฌ๊ธฐ๋ฅผ ์ถœ๋ ฅ์— ๋งž๊ฒŒ ๋ณ€ํ™˜ํ•œ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ์ถ”๊ฐ€ ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ํ•„์š”ํ•˜์ง€๋งŒ ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ผ ์ˆ˜๋„ ์žˆ๋‹ค. ## 3.4 Implementation - ResNet ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ํ›ˆ๋ จ ๋ฐฉ๋ฒ• - **์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ** - **ํฌ๊ธฐ ์กฐ์ ˆ** : ์ด๋ฏธ์ง€์˜ ์งง์€ ์ชฝ์„ 256์—์„œ 480 pexel ์‚ฌ์ด์˜ ๊ฐ’์„ ๋ฌด์ž‘์œ„๋กœ ์กฐ์ ˆ - **์ž๋ฅด๊ธฐ** : 224 x 224 ํฌ๊ธฐ์˜ ์˜์—ญ์„ ์ด๋ฏธ์ง€์—์„œ ๋ฌด์ž‘์œ„๋กœ ์ž˜๋ผ๋‚ด๊ณ  ์ขŒ์šฐ๋กœ ๋’ค์ง‘์Œ - **ํ‰๊ท ๊ฐ’ ์ œ๊ฑฐ** : ๊ฐ ํ”ฝ์…€ ๊ฐ’์—์„œ ์ „์ฒด ์ด๋ฏธ์ง€์˜ ํ‰๊ท ๊ฐ’์„ ๋นผ๋Š” ์ž‘์—…์„ ์ง„ํ–‰ ( ๋ฐ์ดํ„ฐ๊ฐ€ 0์„ ์ค‘์‹ฌ์œผ๋กœ ์œ„์น˜ํ•˜๋ฉด ๊ฐ€์ค‘์น˜ ๋ฐฉํ–ฅ์ด ๋” ์•ˆ์ •์ ์œผ๋กœ ๋ณ€ํ•˜๊ฒŒ ๋” ํ•œ๋‹ค.) - **์ƒ‰์ƒ ์ฆ๊ฐ•** : ์ƒ‰์ƒ์„ ๋ฌด์ž‘์œ„๋กœ ๋ณ€๊ฒฝํ•˜์—ฌ ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์— ๊ฐ•ํ•ด์ง€๋„๋ก ํ•จ. - **๋ชจ๋ธ ์„ค์ •** - **๋ฐฐ์น˜ ์ •๊ทœํ™”(BN)** : ๊ฐ ํ•ฉ์„ฑ๊ณฑ ์—ฐ์‚ฐ ์งํ›„, ํ™œ์„ฑํ™” ํ•จ์ˆ˜ ์ด์ „์— ๋ฐฐ์น˜ ์ •๊ทœํ™” ์ธต์„ ๋ฐฐ์น˜ํ•จ - **๊ฐ€์ค‘์น˜ ์ดˆ๊ธฐํ™”** : ํŠน๋ณ„ํ•œ ์ดˆ๊ธฐํ™” ๋ฐฉ๋ฒ•(**He Initialization**) ์‚ฌ์šฉ - **์ตœ์ ํ™”** : *SGD*๋ฅผ ์‚ฌ์šฉํ•ด ํ•œ ๋ฒˆ์— 256๊ฐœ์˜ ์ด๋ฏธ์ง€๋ฅผ ์ฒ˜๋ฆฌํ•จ - **ํ•™์Šต ๊ทœ์น™** - **ํ•™์Šต๋ฅ ** : 0.1์—์„œ ์‹œ์ž‘ํ•ด, ๋ชจ๋ธ์˜ ์˜ค์ฐจ๊ฐ€ ๋” ์ด์ƒ ์ค„์–ด๋“ค์ง€ ์•Š์„ ๋•Œ๋งˆ๋‹ค 10์œผ๋กœ ๋‚˜๋ˆ„์–ด ๊ฐ’์„ ์ค„์—ˆ๋‹ค. - **ํ›ˆ๋ จ ํšŸ์ˆ˜** : ์ด 60๋งŒ ๋ฒˆ์˜ ๋ฐ˜๋ณต์„ ์ˆ˜ํ–‰ํ•จ. - **๊ทœ์ œ** : ๊ณผ์ ํ•ฉ์„ ๋ง‰๊ธฐ ์œ„ํ•ด **๊ฐ€์ค‘์น˜ ๊ฐ์‡ (weight decay)**์™€ **๋ชจ๋ฉ˜ํ…€(momentum)** ์„ ์‚ฌ์šฉํ•จ - **๋“œ๋กฏ์•„์›ƒ ๋ฏธ์‚ฌ์šฉ** : **๋“œ๋กญ์•„์›ƒ(dropout)** ์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•˜์Œ # 4. Experiments ## 4.1 ImageNet Classification - ImageNet์—์„œ *Plain Networks*์˜ ๊ฒฐ๊ณผ๋ฅผ ๋ดค์„ ๋•Œ 18 Layer๋ณด๋‹ค 34 Layer์ผ ๋•Œ ์˜คํžˆ๋ ค **validation error**๊ฐ€ ๋” ๋†’๊ฒŒ ๋‚˜์™”๋‹ค. ๋ฐ˜๋ฉด *ResNet*์€ ์ธต์ด ๋†’์•„์กŒ์„ ๋•Œ error๊ฐ€ ๋” ์ ๊ฒŒ ๋‚˜์˜จ ๊ฑธ์„ ํ™•์ธ ํ•  ์ˆ˜ ์žˆ๋‹ค. ![[Top-1 error on ImageNet validation.png]] - ์ด๋Ÿฌํ•œ ์ตœ์ ํ™”์˜ ์–ด๋ ค์›€(์„ฑ๋Šฅ ์ €ํ•˜)์€ **๊ธฐ์šธ๊ธฐ ์†์‹ค**์— ์˜ํ•ด ์œ ๋ฐœ๋œ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ **๋งค์šฐ ๋А๋ฆฐ ํ•™์Šต ์†๋„(๋งค์šฐ ๋‚ฎ์€ ์ˆ˜๋ ด์†๋„)** ๋•Œ๋ฌธ์ผ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค. - ๊ทธ ์ด์œ ๋Š” ์ €์ž๋“ค์€ ์ด๋ฏธ **๋ฐฐ์น˜ ์ •๊ทœํ™”(BN)** ์„ ์‚ฌ์šฉํ–ˆ๋Š”๋ฐ, ์ด๋Š” ๊ธฐ์šธ๊ธฐ ์†์‹ค ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์ด๊ณ  ์‹ค์ œ๋กœ ์‹คํ—˜์„ ํ†ตํ•ด ๋ชจ๋ธ์˜ ํ•™์Šต ์‹ ํ˜ธ(๊ธฐ์šธ๊ธฐ)๊ฐ€ ์ž˜ ์ „๋‹ฌ๋จ์„ ํ™•์ธํ–ˆ๋‹ค. - ๋˜ํ•œ ๊ธฐ์šธ๊ธฐ๊ฐ€ ์™„์ „ํžˆ ์†์‹ค๋˜์—ˆ๋‹ค๋ฉด ํ•™์Šต์ด ๊ฑฐ์˜ ๋ถˆ๊ฐ€๋Šฅ ํ–ˆ์„ ํ…๋ฐ, ์„ฑ๋Šฅ์ด ์ €ํ•˜๋˜์—ˆ๊ธด ํ–ˆ์ง€๋งŒ **๊ดœ์ฐฎ์€ ์ •ํ™•๋„**๋ฅผ ๋ณด์ด๊ธด ํ–ˆ๋‹ค. - ImageNet์—์„œ **Residual Networks**์˜ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด 3๊ฐ€์ง€์˜ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์—ˆ๋‹ค. 1. **์„ฑ๋Šฅ ์ €ํ•˜ ๋ฌธ์ œ ํ•ด๊ฒฐ** : 34 Layer์˜ *Residual Networks*๊ฐ€ 18 Layer์˜ *Residual Networks* ๋ณด๋‹ค ์ •ํ™•๋„๊ฐ€ ๋” ๋†’๊ฒŒ ๋‚˜์™€ ๊นŠ์ด๊ฐ€ ๊นŠ์–ด์งˆ ์ˆ˜๋ก ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€๋Š” **์„ฑ๋Šฅ ์ €ํ•˜(degradation)** ์„ ํ•ด๊ฒฐํ•œ ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. 2. **์ž”์ฐจ ํ•™์Šต์˜ ํšจ๊ณผ ์ฆ๋ช…** : ๊ฐ™์€ Layer๋ฅผ ์ด๋ฃจ๋Š” *Plain Networks*์™€ ๋น„๊ตํ•ด ๋ดค์„ ๋•Œ *Residual Networks*๊ฐ€ ๋” ์„ฑ๋Šฅ์ด ๋†’๊ฒŒ ๋‚˜์™”๊ธฐ ๋•Œ๋ฌธ์— **์ž”์ฐจ ํ•™์Šต์ด ํšจ๊ณผ**๊ฐ€ ์žˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. 3. **๋น ๋ฅธ ์ˆ˜๋ ด ์†๋„** : 18 Layer ๋ชจ๋ธ์—์„œ๋Š” ๋‘ Networks๋Š” ์ตœ์ข… ์„ฑ๋Šฅ์ด ๋น„์Šทํ•˜๊ฒŒ ๋‚˜์™”์ง€๋งŒ, **ResNet**์ด ์ด ์„ฑ๋Šฅ์— ํ›จ์”ฌ ๋” ๋น ๋ฅด๊ฒŒ ์ˆ˜๋ ดํ–ˆ๋‹ค. - **Residual Networks**์—์„œ ์—ฌ๋Ÿฌ ์ง€๋ฆ„๊ธธ์„ ์‚ฌ์šฉํ•˜๋ฉฐ ์–ด๋–ค ๊ฒƒ์ด ๋” ํšจ๊ณผ์ ์ธ์ง€ ํ™•์ธํ•ด๋ณด์•˜๋‹ค. - **์˜ต์…˜ A** : ํฌ๊ธฐ(dimension)๊ฐ€ ๊ฐ™์„ ๋•Œ ๋งค๊ฐœ ๋ณ€์ˆ˜๊ฐ€ ์—†๋Š” **identity** ์ง€๋ฆ„๊ธธ ์‚ฌ์šฉํ•˜๊ณ  ํฌ๊ธฐ๊ฐ€ ์ปค์งˆ ๋•Œ **zero padding** ์‚ฌ์šฉ - **์˜ต์„  B** : ํฌ๊ธฐ๊ฐ€ ๊ฐ™์„ ๋•Œ **identity** ์ง€๋ฆ„๊ธธ ์‚ฌ์šฉํ•˜๊ณ  ํฌ๊ธฐ๊ฐ€ ์ปค์งˆ ๋•Œ **๋ณ€ํ™˜(projection)** ์ง€๋ฆ„๊ธธ(1x1 ํ•ฉ์„ฑ๊ณฑ) ์‚ฌ์šฉ - **์˜ต์„  C** : ๋ชจ๋“  ์ง€๋ฆ„๊ธธ์— **๋ณ€ํ™˜(projection)** ์ง€๋ฆ„๊ธธ ์‚ฌ์šฉ - A->B->C๋กœ ๊ฐ€๋ฉด์„œ ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ์ฆ๊ฐ€ํ•˜๊ณ  ์„ฑ๋Šฅ๋„ ์ฆ๊ฐ€ํ–ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Ÿฌํ•œ ์„ฑ๋Šฅ ์ฆ๊ฐ€๋Š” ๋ฏธ๋ฏธํ•˜๊ณ  **๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ์ถ”๊ฐ€๋˜๋Š” ๋ณต์žกํ•œ ์ง€๋ฆ„๊ธธ**์€ ๊ตณ์ด ํ•„์š” ์—†๋‹ค. ์ด๋Š” ์˜ต์…˜ A๋ผ๋„ ์ถฉ๋ถ„ํžˆ ์ข‹์€ ์„ฑ๋Šฅ์ด ๋‚˜์˜ค๊ณ  ๋ฉ”๋ชจ๋ฆฌ์™€ ์—ฐ์‚ฐ๋Ÿ‰์„ ์•„๋‚„ ์ˆ˜๋„ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. - ๊ธฐ์กด์˜ 2๊ฐœ ์ธต ๋ธ”๋ก ๋Œ€์‹ , ์ €์ž๋“ค์€ ํ›ˆ๋ จ ์‹œ๊ฐ„๊ณผ ๋น„์šฉ์„ ์ค„์ด๊ธฐ ์œ„ํ•ด **๋ณ‘๋ชฉ ๊ตฌ์กฐ(Bottlneck Architecture)** ์„ ๋งŒ๋“ค์—ˆ๋‹ค. - **๊ตฌ์กฐ** : **1x1 ํ•ฉ์„ฑ๊ณฑ ์ธต -> 3x3 ํ•ฉ์„ฑ๊ณฑ ์ธต -> 1x1 ํ•ฉ์„ฑ๊ณฑ ์ธต**์œผ๋กœ ๊ตฌ์„ฑ๋œ 3๊ฐœ ์ธต์„ ์Œ“์•„ ์ž”์ฐจ ํ•จ์ˆ˜($F$)๋ฅผ ๋งŒ๋“ ๋‹ค. ![[Bottleneck Architecture.png]] - **์›๋ฆฌ** : ์ฒซ ๋ฒˆ์งธ 1x1 ์ธต์ด ์ฑ„๋„(*channel*) ์ˆ˜๋ฅผ **์ค„์—ฌ์„œ**, 3x3 ์ธต์ด ์ ์€ ์ˆ˜์˜ ์ฑ„๋„๋กœ ํšจ์œจ์ ์œผ๋กœ ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๊ณ  ๋งˆ์ง€๋ง‰ 1x1์ธต์€ ๋‹ค์‹œ ์ฑ„๋„ ์ˆ˜๋ฅผ **๋ณต์›**ํ•˜์—ฌ ์›๋ž˜๋Œ€๋กœ ๋˜๋Œ๋ฆฐ๋‹ค. - **ํšจ๊ณผ** : ์—ฐ์‚ฐ๋Ÿ‰์ด ๋งŽ์€ 3x3 ์ธต์˜ ๊ณ„์‚ฐ์„ ํšจ์œจ์ ์œผ๋กœ ๋งŒ๋“ค์–ด ์ „์ฒด ๋ธ”๋ก์˜ **์—ฐ์‚ฐ ์†๋„์™€ ํšจ์œจ์„ฑ**์„ ํฌ๊ฒŒ ๋†’์ธ๋‹ค. ์ด๊ฒŒ ๊ฐ€๋Šฅํ–ˆ๋˜ ์ด์œ ๋Š” **๋ณ€ํ™˜(projection)** ์ง€๋ฆ„๊ธธ์„ ์‚ฌ์šฉํ•œ๊ฒŒ ์•„๋‹ˆ๋ผ **identity** ์ง€๋ฆ„๊ธธ์„ ์‚ฌ์šฉํ•ด ์ถ”๊ฐ€ ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ์—†์ด ์—ฐ์‚ฐ๋Ÿ‰์„ ์œ ์ง€ํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. - ์ด ๋ณ‘๋ชฉ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•ด 50 Layer, 101 Layer, 152 Layer์„ ๋งŒ๋“ค์—ˆ๊ณ  ํ•ด๋‹น ๊ตฌ์กฐ๋กœ **๋‚ฎ์€ ๋ณต์žก๋„, ์„ฑ๋Šฅ ํ–ฅ์ƒ**์„ ์ด๋ฃจ์–ด๋‚ผ ์ˆ˜ ์žˆ์—ˆ๋‹ค. ## 4.2 COFAR-10 and Analysis - ํ•ด๋‹น ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ๊ฐ **์ž”์ฐจ($F$)์˜ ํฌ๊ธฐ**๋ฅผ ๋ถ„์„ํ–ˆ๋‹ค. ResNet์˜ ์ž”์ฐจ๋Š” ์ผ๋ฐ˜ ์‹ ๊ฒฝ๋ง์˜ ์ถœ๋ ฅ๋ณด๋‹ค ์ „๋ฐ˜์ ์œผ๋กœ ์ž‘์•˜๊ณ  ๋„คํŠธ์›Œํฌ๊ฐ€ **๋” ๊นŠ์–ด์งˆ ์ˆ˜๋ก ๊ฐœ๋ณ„ ์ธต์˜ ์ž”์ฐจ ํฌ๊ธฐ๊ฐ€ ๋” ์ž‘์•„์ง€๋Š”** ๊ฒฝํ–ฅ์„ ๋ณด์˜€๋‹ค. ์ด๋Š” ๊นŠ์€ ๋„คํŠธ์›Œํฌ์˜ ๊ฐ ์ธต์ด ์‹ ํ˜ธ๋ฅผ ๋” ๋ฏธ์„ธํ•˜๊ฒŒ ์กฐ์ •ํ•œ๋‹ค๋Š” ์˜๋ฏธ์ด๋‹ค. - **110๊ฐœ์˜ Layer(ResNet-110)**์™€ **1202๊ฐœ์˜ Layer(ResNet-1202)** ์˜ ResNet ๋ชจ๋ธ์„ ๋งŒ๋“ค์—ˆ๊ณ  ํŠนํžˆ *ResNet-110*์˜ ๊ฒฝ์šฐ๋Š” ๋ชจ๋“  ๋ชจ๋ธ๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ **์ตœ๊ณ  ์ˆ˜์ค€์˜ ์ •ํ™•๋„**๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค. ๋‹ค๋งŒ *ResNet-1202*์˜ ๊ฒฝ์šฐ๋Š” 0.1% ๋ฏธ๋งŒ์œผ๋กœ ๋–จ์–ด์กŒ์ง€๋งŒ *ResNet-110*๋ณด๋‹จ ๋–จ์–ด์กŒ๋Š”๋ฐ ์ด ์ด์œ ๋Š” **๊ณผ์ ํ•ฉ(Overfiting)** ๋•Œ๋ฌธ์ด๋‹ค. ์ด๋ฅผ ํ†ตํ•ด์„œ *ResNet*์ด ์ตœ์ ํ™” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ–ˆ์ง€๋งŒ, ์—ฌ์ „ํžˆ ๋ชจ๋ธ ํฌ๊ธฐ์™€ **๋ฐ์ดํ„ฐ์…‹ ๊ฐ„์˜ ๊ท ํ˜•์ด ์ค‘์š”**ํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค€๋‹ค. ## 4.3 Object Detection on PASCAL and MS COCO - **์‚ฌ๋ฌผ ํƒ์ง€(Object Detection)** ๊ณผ์ œ์—์„œ๋„ ResNet์„ ์ ์šฉํ–ˆ๋Š”๋ฐ **COCO**์—์„œ **6.0%์˜ ์ •ํ™•๋„ ํ–ฅ์ƒ**์„ ์ด๋ฃจ์–ด๋ƒˆ๊ณ , ์ด๋Š” 28%์˜ ์ƒ๋Œ€์  ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ํ•ด๋‹นํ•˜๋Š” ๋†€๋ผ์šด ๊ฒฐ๊ณผ์ด๋‹ค. - ์ด ๊ฒฐ๊ณผ๋Š” ResNet์ด ๋‹จ์ˆœํžˆ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ๋ฟ ์•„๋‹ˆ๋ผ, ์‚ฌ๋ฌผ ํƒ์ง€ ๊ฐ™์€ **๋‹ค๋ฅธ ๋ณต์žกํ•œ ๋ฌธ์ œ์—๋„ ๋งค์šฐ ํšจ๊ณผ์ ์ด๋ผ๋Š” ๊ฒƒ**์„ ์ฆ๋ช…ํ•œ๋‹ค. # Code review