반응형

논문 : Identity Mappings in Deep Residual Networks

2016년

 

Abstract

Deep residual networks 는 매우 deep architectures 으로 등장하여 compelling accuracy and nice convergence behaviors 의 특성을 가지는 것을 알 수 있다.여기에서 우리는 the propagation formulations behind the residual building blocks 분석하며 , which suggest that the forward and backward signals can be directly propagated from one block to any other block, when using identity mappings as the skip connections and after-addition activation. 

일련의 ablation experiments은 these identity mappings에서 중요한 역할을 하는 것을 검증한다. 이것으로 하여 우리는 

a new residual unit를 제안하였으며 , 이 것으로 하여 우리는 학습을 쉽고 일반화를 높일 수 있게 하였습니다.

improved 결과 :

a 1001-layer ResNet on CIFAR-10 (4.62% error) and CIFAR-100 

a 200-layer ResNet on ImageNet.

Code is available at: https://github.com/KaimingHe/ resnet-1k-layers.

 

1 Introduction

Deep residual networks (ResNets) 은 여러개 “Residual Units” 로 쌓여있는 형태이다. 

Each unit 의 보통 form

F is a residual function.

h(xl) = xl is an identity mapping and f is a ReLU [2] function.

identity mapping : 항등 함수(恒等函數, 영어: identity function) 또는 항등 사상(恒等寫像, 영어: identity map), 항등 변환(恒等變換, 영어: identity transformation)은 정의역 공역이 같고, 모든 원소를 자기 자신으로 대응시키는 함수이다.

 

ResNets that are over 100-layer 을 사용하여 우리는 several challenging recognition tasks on ImageNet [3] and MS COCO [4] competitions에서 높은 정확도가 나왔는지 알 수 있다. ResNets의 핵심 사상은 to learn the additive residual function F with respect to h(xl), with a key choice of using an identity mapping h(xl) = xl .이것은 identity skip connection (“shortcut”) 첨가하여 실현하였다.

 

In this paper, we analyze deep residual networks by focusing on creating a “direct” path for propagating information — not only within a residual unit, but through the entire network. Our derivations reveal that if both h(xl) and f(yl) are identity mappings, the signal could be directly propagated from one unit to any other units, in both forward and backward passes. 우리의 실험 경험적으로 볼 때 , 이 architecture 가 두가지 상태에 가까울 때 , 학습이 좀 더 간단해졌다.

 

To understand the role of skip connections, we analyze and compare various types of h(xl).

Figure 1. Left: (a) original Residual Unit in [1]; (b) proposed Residual Unit. The grey arrows indicate the easiest paths for the information to propagate, corresponding to the additive term “xl” in Eqn.(4) (forward propagation) and the additive term “1” in Eqn.(5) (backward propagation). Right: training curves on CIFAR-10 of 1001-layer ResNets. Solid lines denote test error (y-axis on the right), and dashed lines denote training loss (y-axis on the left). The proposed unit makes ResNet-1001 easier to train.

우리는 skip connections 의 역할을 이해하기 위하여 , 우리는 여러가지 타입의 h(xl) 비교하면서 분석하였다. 우리는 identity mapping h(xl) = xl 선택하여 사용해서 우리가 연구한 모든 유형중에서 , 빠른 error reduction과 최저의 training loss among all variants , whereas skip connections of scaling, gating [5,6,7], and 1×1 convolutions all lead to higher training loss and error. 이들 실험 제안으로 , that keeping a “clean” information path (indicated by the grey arrows in Fig. 1, 2, and 4) is helpful for easing optimization.

 

an identity mapping f(yl) = yl 구조를 위하여 , 우리는 the activation functions (ReLU and BN [8]) as “pre-activation” ” of the weight layers, conventional wisdom of “post-activation”와 대조하다. 이 점을 통하여 우리는 새로운 residual unit 이 설계되여서 , shown in (Fig. 1(b)). 이 unit을 기존으로 , 우리는 we present competitive results on CIFAR-10/100 with a 1001-layer ResNet, 이것은 많이 쉽게 학습과 일반적으로 original ResNet 보다 학습하기 좋다. ImageNet using a 200-layer ResNet에 대하여 overfit방식이 나타나서 , 우리는 더 나은 것을 표현하기 위하여 개조한 인터넷 결과를 사용하였다. 결과로 인하여 , 심도있게 학습이 성공의 중요 포인터이고 , 모델의 deep learning 은 아직도 더 큰 dimension of network depth있다. 

 

2 Analysis of Deep Residual Networks

ResNets는 같은 connecting shape 를 통하여 bloks을 stack building으로 모듈화 아키텍츠를 만든다. 여기에서는 우리는 이 blocks를 "Residual Units"이라고 한다. 

original Residual Unit in [1] performs the following computation:

xl : the input feature to the l-th Residual Unit. 

Wl = {Wl,k|1≤k≤K} : a set of weights (and biases) associated with the l-th Residual Unit

K :  the number of layers in a Residual Unit (K is 2 or 3 in [1])

F denotes the residual function, e.g., a stack of two 3×3 convolutional layers in [1] 

function f:  the operation after element-wise addition

f is ReLU 

function h : set as an identity mapping: h(xl) = xl

 

만약 f 는 also an identity mapping: xl+1 ≡ yl , we can put Eqn.(2) into Eqn.(1) and obtain: 

           

Recursively (xl+2 = xl+1 + F(xl+1, Wl+1) = xl + F(xl , Wl) + F(xl+1, Wl+1), etc.) we will have:

for any deeper unit L and any shallower unit l.Eqn.(4)는 exhibits some nice properties. (i) The feature xL of any deeper unit L can be represented as the feature xl of any shallower unit l plus a residual function in a form of 

, 이것은 any units L and l 사이에서는 모두 residual fashion특성 을 가지고 있다 . (ii)

Eqn. : 영어에서 변역됨 -Unix문서 레이아웃 도구의 troff제품군의 일부인 eqn 은 인쇄 방정식을 형식화하는 전 처리기입니다.

Eqn.(4) also leads to nice backward propagation properties. loss function을 E으로 표시하고 , from the chain rule of backpropagation [9] we have: 

두가지로 분해 할 수 있다. 

그중에서 앞에것은 직접 신호를 전하고 아무른 weight layers와 관계가 없다. 다른 한가지는 propagates through the weight layers . 앞에것은 신호가 직접 다른 shallower unit l의 전달을 보장해준다. 

 

이것은 weight가 아무리 작어도 , gradient는 소실하지 않는 현상이 생긴다.

 

Discussions

Eqn.(4) and Eqn.(5)은 both forward and backward 단계에서 , 신호는 직접 이 unit에서 임의의 다른 unit으로 직접 전달 할 수 있다. 

The foundation of Eqn.(4) is two identity mappings:

(i) the identity skip connection h(xl) = xl

(ii) the condition that f is an identity mapping

 

이들 directly propagated information flows은 Fig. 1, 2, and 4에서 grey arrows로 표시한 것으로 한다. these grey arrows cover no operations (expect addition) and thus are “clean” 일 경우 , 위의 두가지 조건은 성립된다. 아래의 두 부분에서는 우리는 두가지 조건의 작용에 대하여 갈라서 결과를 연구한다.

 

3 On the Importance of Identity Skip Connections

간단한 수정을 설계한다. h(xl) = λlxl 으로 to break the identity shortcut: 

λl  :  a modulating scalar (for simplicity we still assume f is identity).

여기서 재귀적으로 지원해서 푼다면 Eqn. (4)와 비슷한 것을 얻는다 :

그중 the scalars into the residual functions를 합친다.  이것은 Eq.5 와 비슷하다. 우리는 backpropagation의 전파 과정은 위의 겉과 같다. 

 

Eq.5와 같지 않게 , Eq.8중에서 first additive term 은 요소에 따라 변조한다.

극단적인 deep network중에서 (L은 매우 크다) 

만약 λi > 1 for all i : 요소들은 exponentially 클 수 있다.

만약 λi < 1 for all i : 요소들은 exponentially 작아지거나 소실 할 수 있다. which blocks the backpropagated signal from the shortcut and forces it to flow through the weight layers. 우리는 실험을 통해 optimazation 의 우화를 어렵게 할 수 있다는 것을 증명하였다.

 

위의 분석중 , Eqn.(3)중의 original identity skip connection 은 with a simple scaling h(xl) = λlxl로 대체할 수 있다. 

만약 skip connection h(xl)은 더욱 복잡하게 변형한다는 것을 대표한다면 s (such as gating and 1×1 convolutions), 

in Eqn.(8) the first term 은 방정식으로 표현한다. 이런 성적으로는 똑 같이 information propagation 방해하고 and hamper the training procedure 아래의 실험에서 우리는 익서을 증명할 수 있다. 

Figure 2. Various types of shortcut connections used in Table 1. The grey arrows indicate the easiest paths for the information to propagate. The shortcut connections in (b-f) are impeded by different components. For simplifying illustrations we do not display the BN layers, which are adopted right after the weight layers for all units here.

Figure 2 Table 1에서의 여러가지 타입의 shortcut 을 연결한다. greay arrow에서는 정보전파의 최단거리를 표시한다 . (b-f)중에서 sortcut연결은 다른 같지 않은 성분으로 방행하였다. 간단하게 할려고, 우리는 BN layers를 그리지 않고 이것은 weight layers의 뒤에 연결해야 한다.

 

3.1 Experiments on Skip Connections

우리는 110-layer ResNet 에서 CIFAR-10을 사용하였다. 

extremely deep ResNet-110 : 

54 two-layer Residual Units (consisting of 3×3 convolutional layers) 

challenging for optimization

우리의 실험 자세한 정보는 ((see appendix ) are the same as [1]. random variations의 영향을 피하기 위하여 , 여기에서 우리는 5 runs for each architecture on CIFAR 중 median accuracy을 결과로 하였다.

 

위의 분석중 f는 identity mappeng으로 하였지만 , 여기에서 실험할 경우 f = ReLU으로 모두 하였다 , 다음 부분부터 우리는 identity f 로 분석을 진행한다. 우리의 baseline ResNet-110 는 6.61% error on the test set 가 있다. 다른 variants와 비교하는것은 s (Fig. 2 and Table 1) 에서 요약한것과 같다:

Table 1. Classification error on the CIFAR-10 test set using ResNet-110 [1], with different types of shortcut connections applied to all Residual Units. We report “fail” when the test error is higher than 20%.

Constant scaling.

모든 shortcuts의 연결중 λ = 0.5 , 우리는 더욱이 F 를 두가지 scaling 으로 고려한다.: 

(i) F is not scaled; => 이 caset는 does not converge well

(ii) F is scaled by a constant scalar of 1−λ = 0.5, which is similar to the highway gating [6,7] but with frozen gates.=> is able to converge, but the test error (Table 1, 12.35%) is substantially higher than the original ResNet-110.

Fig 3(a) shows that the training error is higher than that of the original ResNet-110, suggesting that the optimization has difficulties when the shortcut signal is scaled down.

 

Exclusive gating. 

Following the Highway Networks [6,7] that adopt a gating mechanism [5], 우리는 gating function을 고려한다. weight, biases, sigmoid함수로 변환하면서 한다. convolutional network g(x)중 1×1 convolutional layer을 통과하여 실현한다. gating 함수는 element-wise 곱하여 신호를 조절한다.

 

우리는 investigate the “exclusive” gates as used in [6,7] — — the F path is scaled by g(x) and the shortcut path is scaled by 1−g(x).  See Fig 2(c). 우리는 초기화 biase가 중요한 학습 gated의 모듈인것과 가이드라인에 따라 하는 것이 중요하다는 것을  발견하였다.  우리는 bias를 0부터 10 까지를 초기화 범위로 하고 , 하나씩 줄이고 그다음 cross-validation방법을 통해 hyper-parameter을 찾으면서 실행하였다. 그리고 최적 의 갓ㅂ으로 훈련하여 , leading to a test result of 8.70% (Table 1), 그래도 original ResNet-110보다 휠씬 뒤떨어져있다. Fig 3(b)은 훈련과정을 표시한다. Table 1도 다른 초기화 값을 이용하여 실험환 결과를 보여주고 , bg의 초기화 값이 합법적이지 않을 경우 exclusive gating does not converge to a good solution하는것을발견하였다.

 

exclusive gating mechanism은 two-fold 영향을 받는다. 

1 − g(x) 가 1에 가까울때 ,  the gated shortcut connections are closer to identity  which helps information propagation; =>신호 전달에 도움이 된다.

g(x) approaches 0 and suppresses the function F. To isolate the effects of the gating functions on the shortcut path alone, we investigate a non-exclusive gating mechanism in the next.  

 

Shortcut-only gating. function F is not scaled; only the shortcut path is gated by 1−g(x). See Fig 2(d). initialized value of bg는 이 case에도 여전히 중요하다.

When the initialized bg is 0 (so initially the expectation of 1 − g(x) is 0.5), the network converges to a poor result of 12.86% (Table 1). This is also caused by higher training error (Fig 3(c)). 낮다. 

Figure 3. Training curves on CIFAR-10 of various shortcuts. Solid lines denote test error (y-axis on the right), and dashed lines denote training loss (y-axis on the left).

When the initialized bg is very negatively biased (e.g., −6), 1−g(x)의 값이 1에 가깝고 and the shortcut connection is nearly an identity mapping. 

 

1×1 convolutional shortcut. Next we experiment with 1×1 convolutional shortcut connections that replace the identity. 이 선택적 방안은 34-layer ResNet(16 Residual Units)에 사용(option C )하였고 좋은 결과를 가질 뿐만 아니라 ,suggesting that 1×1 shortcut connections could be useful.  하지만 우리는 this is not the case when there are many Residual Units인 것을 발견하였다. 1×1 convolutional shortcuts을 사용할 경우 110-layer ResNet 은 좋지 않은 결과가 나왔다(12.22%, Table 1 ).  Again, the training error becomes higher (Fig 3(d)). stacking so many Residual Units (54 for ResNet-110)일 경우 , the shortest path일지라도 신호 propagation을 방해한다. 우리는 on ImageNet with ResNet-101 when using 1×1 convolutional shortcuts 일 경우 비슷한 결과를 나타났다.

 

Dropout shortcut. 마지막으로 우리는 dropout [11] (at a ratio of 0.5) which we adopt on the output of the identity shortcut (Fig. 2(f))으로 실험한다 . The network fails to converge to a good solution.  Dropout 통계적으로  imposes a scale of λ with an expectation of 0.5 on the shortcut, and similar to constant scaling by 0.5, 똑같이 signal propagation을 방해한다.

Table 2. Classification error (%) on the CIFAR-10 test set using different activation functions
Figure 4. Various usages of activation in Table 2. All these units consist of the same components — only the orders are different.

3.2 Discussions

Fig. 2의 회식 arrow중 표시한듯이 , shortcut connections는 정보 전파 중 제일 직접적인 경로이다. 

Multiplicative manipulations (scaling, gating, 1×1 convolutions, and dropout) on the shortcuts can hamper information propagation 과 optimization 문제가 생긴다. 

주목해야 할 점은 the gating and 1×1 convolutional shortcuts은 더 많은 파라미터를 설명하였고 , 

identity shortcuts보다 더 강한 표현 능력이 있어햐 한다. 사실은 shortcut-only gating 와 1×1 convolution over the solution space of identity shortcuts (i.e., they could be optimized as identity shortcuts).  하지만 , their training error 는 identity shortcuts보다 훨씬 높아서 , degradation of these models 을 나타나며 원인은 optimazation issues, 표현 능력의 문제가 아니다 . 

 

4 On the Usage of Activation Functions

위의 실험내용에서 우리는 Eqn.(5) and Eqn.(8)의 내용에 대해 분석하고 , 두가지 공식은 전부 both being derived under the assumption that the after-addition activation f is the identity mapping. 하지만 위의 실험에서 f is ReLU as designed in [1], so Eqn.(5) and (8) are approximate in the above experiments. 다음에 우리는 f 의 영향에 대해 연구한다.

 

우리는 re-arranging the activation functions (ReLU and/or BN)을 통하여 f를 identity mapping 으로 하고 싶다. The original Residual Unit 의 모양은 Fig.4(a) 중 처럼 BN은 매 weight layer중 사용하고 그다음 ReLU, 그리고 마지막에 element-wise를 추가하고 마지막에 ReLU(f=f= ReLU)추가한다. Fig.4(b-e)는 우리가 연구한 다른 모양을 해설하였다.

 

4.1 Experiments on Activation

우리는 ResNet-110 and a 164-layer Bottleneck [1] architecture (denoted as ResNet-164)으로 실험하였다 . A bottleneck Residual Unit 는 1×1 layer for reducing dimension으로 포함되였고 , , a 3×3 layer, and a 1×1 layer for restoring dimension(차원 복원). As designed in [1], 계산 복잡도는 two-3×3 Residual Unit과 비슷하다. 더 자세하게는 in the appendix에 있다.  The baseline ResNet164 has a competitive result of 5.93% on CIFAR-10 (Table 2).

 

BN after addition. Before turning f into an identity mapping , we go the opposite way by adopting BN after addition (Fig. 4(b)). 이 케이스에서는 f는 BN과 ReLU가 포함되였다. 이 결과는 baseline의 결과보다 훨 낮다(Table2). 원래의 original 설계와 다르게, now BN layer 는 지나가는 경로의 the shortcut 신호를 변하게 하고 정보 propagation을 방해하고 , 이것은 훈련 처음 부터 reducing training loss의 힘드는 것을 보인다(Fig.6 left)

 

ReLU before addition. f into an identity mapping 의 소박한 선택은 ReLU를 Addition 전으로 이동한다(Fig. 4(c)).하지만 , the transform F의 output이 non-negative으로 하고 , while intuitively a “residual” function should take values in (−∞, +∞). 이 결과를 얻는 이유는 he forward propagated signal is monotonically increasing . 이것은 표현 능력에 영향을 주고 , 결과를 baseline보다 더욱 나쁘게 한다(7.84%, Table 2).  우리는 잔차함수가 (−∞, +∞)의 값 사이에 있기를 희망한다. 이 조건은 n is satisfied by other Residual Units including the following ones.

 

원래의 설계중 , 활성화 함수는 두가지 길에서 다음희 Residual Unit에서 영향을 준다.

그다음 우리는 asymmetric 방식을 연구

notation에 재명명을 통하여 우리는 위의 공식 형식을 얻을 수 있다. 

우리는 쉽게 Eqn.(9) 과 Eqn.(4) 비슷하다는 것을 알 수 있어서  , 그래서 우리는 a backward formulation similar to Eqn.(5)을 얻을 수 있다. For this new Residual Unit as in Eqn.(9),  he new after-addition activation는 an identity mapping을 으로 되였다. 이 설계의 의미는 

Figure 5. Using asymmetric after-addition activation is equivalent to constructing a pre-activation Residual Unit.
Table 3. Classification error (%) on the CIFAR-10/100 test set using the original Residual Units and our pre-activation Residual Units.

post-activation/pre-activation 사이의 차이는 the presence of the element-wise addition가 원인이다. For a plain network that has N layers, there are N − 1 activations (BN/ReLU), and it does not matter whether we think of them as post- or pre-activations. 하지만 우리가 추가한 branch layer으로 말하면 , the position of activation matters.

 

우리는 아래의 두가지 설계를 사용하여 실험을 진행하였다:

(i) ReLU-only pre-activation (Fig. 4(d)), and (ii) full pre-activation (Fig. 4(e)) where BN and ReLU are both adopted before weight layers. Table 2는 the ReLU-only pre-activation performs와 the baseline on ResNet-110/164 비슷하다는 것을 표시하였다. 이 ReLU layer는 BN layer과 연결하여 사용하지 않아서 , 그래서 may not enjoy the benefits of BN [8].

 

 

 

Figure 6. Training curves on CIFAR-10. Left: BN after addition (Fig. 4(b)) using ResNet-110. Right: pre-activation unit (Fig. 4(e)) on ResNet-164. Solid lines denote test error, and dashed lines denote training loss.

하지만 놀랍게도 , 우리가 BN과 ReLU가 pre-activation을 다 사용할 경우, 그 결과는 improved by healthy margins (Table 2 and Table 3). In Table 3 we report results using various architectures: (i) ResNet-110, (ii) ResNet-164, (iii) a 110-layer ResNet architecture in which each shortcut skips only 1 layer (i.e.,a Residual Unit has only 1 layer), denoted as “ResNet-110(1layer)”, and (iv) a 1001-layer bottleneck architecture that has 333 Residual Units (111 on each feature map size), denoted as “ResNet-1001”. We also experiment on CIFAR100.Table 3 에서 우리의 “pre-activation” models 은 일관되게 baseline counterparts의 보다 좋다. 분석 과정은 아래와 같다. 

 

4.2 Analysis

우리는 pre-activation의 영향은 두가지를 가지고 있는 것을 발견하였다.

첫째 , f는 identity mapping 이기 때문에 the optimization is further eased (comparing with the baseline ResNet) 

둘째 , using BN as pre-activation improves regularization of the models.

 

Ease of optimization. 우리는 1001-layer ResNet 을 훈련한 경우 매우 선명하게 영향을 가지고 있다. Fig. 1 shows the curves. original design in [1]을 사용하여 , training error는 처음에 훈련할 경우 매우 천천히 줄어든다. for f=f= ReLU, 만약 negative일 경우 신호는 방해되고 , 그리고 여러가지 Residual Units이 있을 경우 , this effect becomes prominent and Eqn.(3) (so Eqn.(5)) is not a good approximation. 다른 한편으로는 f가 identity mapping 일 경우 , 신호는 can be propagated directly between any two units. 우리의 1001-layer network는 training loss를 낮추는데 매우 빠르다(Fig.1).

It also achieves the lowest loss among all models we investigated, suggesting the success of optimization.

 

We also find that the impact of f = ReLU is not severe when the ResNet has fewer layers (e.g., 164 in Fig. 6(right)). beginning of training 에서 training curve 는 조금만 영향을 가지는 것 같지만 , 하지만 goes into a healthy status soon. 모니터링을 통해 우리는 관찰되였는데, 원인은 일정한 훈련을 통해,  the weights are adjusted into a status such that yl in Eqn.(1) is more frequently above zero and f does not truncate it (xl is always non-negative due to the previous ReLU, so yl is below zero only when the magnitude of F is very negative).The truncation, however, is more frequent when there are 1000 layers.

Table 4. Comparisons with state-of-the-art methods on CIFAR-10 and CIFAR-100 using “moderate data augmentation” (flip/translation), except for ELU [12] with no augmentation. Better results of [13,14] have been reported using stronger data augmentation and ensembling. For the ResNets we also report the number of parameters. Our results are the median of 5 runs with mean±std in the brackets. All ResNets results are obtained with a mini-batch size of 128 except † with a mini-batch size of 64 (code available at https://github.com/KaimingHe/resnet-1k-layers).

Reducing overfitting. Another impact of using the proposed pre-activation unit is on regularization, as shown in Fig. 6 (right). The pre-activation version reaches slightly higher training loss at convergence, but produces lower test error. 이 현상은 on ResNet-110, ResNet-110(1-layer), and ResNet-164 on both CIFAR-10 and 100에서 관찰 할 수 있다. 이것은 아마도 BN’s regularization effect [8]이 원인이다. In the original Residual Unit (Fig. 4(a)), BN normalizes 는 신호이지만 , this is soon added to the shortcut and thus the merged signal is not normalized. 이 빙정규화 신호는 또 다음의 weight layers의 입력에 의해 사용된다. . On the contrary, in our pre-activation version, all weight layers 의 입력은 normalized로 되여있다. 

 

5 Results

Comparisons on CIFAR-10/100.. Table 4  에서 CIFAR-10/100를 최근의 잴 좋은 방법으로 비교하여 , 우리의 모델 은 매우 경쟁성이 있는 결과를 얻었다. 우리는 these small datasets 에 대해서 , 우리는 특별하게 tailor the network width or filter sizes 할 필요 없고 , 정규화 기술을 사용(such as dropout)할 필요 없이 모델의 효과를 보장하였다. 우리는 단지 간단하고 효과있는 방식을 통하여 -------- going deeper. 이것들의 결과는 demonstrate the potential of pushing the limits of depth.

 

Table 5. Comparisons of single-crop error on the ILSVRC 2012 validation set. All ResNets are trained using the same hyper-parameters and implementations as [1]). Our Residual Units are the full pre-activation version (Fig. 4(e)). † : code/model available at https://github.com/facebook/fb.resnet.torch/tree/master/pretrained, using scale and aspect ratio augmentation in [20].

Comparisons on ImageNet.  다음에 우리는 1000- class ImageNet dataset [3]에서 실험결과를 보여준다. We have done preliminary experiments using the skip connections studied in Fig. 2 & 3 on ImageNet with ResNet-101 [1], and observed similar optimization difficulties. The training error of these non-identity shortcut networks is obviously higher than the original ResNet at the first learning rate(similar to Fig. 3), 자원이 한정되여있어서 우리는 절반을 학습하기로 결정하였다. 하지만 우리는 “BN after addition” version (Fig. 4(b)) of ResNet-101 on ImageNet and observed higher training loss and validation error을 완성하였다. This model’s single-crop (224×224) validation error is 24.6%/7.5%, vs. the original ResNet101’s 23.6%/7.1%. 이것은 Fig. 6 (left)에서 CIFAR의 결과와 같다. 

 

Table 5는 the results of ResNet-152 [1] and ResNet-2003 을 표시하며 , 전부 처음 부터 학습하였다. We notice that the original ResNet paper [1] trained the models using scale jittering with shorter side s ∈ [256, 480], and so the test of a 224×224 crop on s = 256 (as did in [1]) is negatively biased. Instead, we test a single 320×320 crop from s = 320, for all original and our ResNets. Even though the ResNets are trained on smaller crops, they can be easily tested on larger crops because the ResNets are fully convolutional by design. This size is also close to 299×299 used by Inception v3 [19], allowing a 공평한 비교이다.

 

The original ResNet-152 [1] has top-1 error of 21.3% on a 320×320 crop, and our pre-activation counterpart has 21.1%. The gain is not big on ResNet-152 because this model has not shown severe generalization difficulties.하지만 original ResNet-200 의 error rate of 21.8%이고 , baseline ResNet-152보다 높다. . But we find that the original ResNet-200 has lower training error than ResNet-152, suggesting that it suffers from overfitting.

 

우리의 pre-activation ResNet-200 의 error rate는 20.7%, which is 1.1% lower than the baseline ResNet-200 and also lower than the two versions of ResNet-152. When using the scale and aspect ratio augmentation of [20,19], our ResNet-200 has a result better than Inception v3 [19] (Table 5). Concurrent with our work, an Inception-ResNet-v2 model [21] achieves a single-crop result of 19.9%/4.9%. We expect our observations and the proposed Residual Unit will help this type and generally other types of ResNets.

 

Computational Cost. 우리의 모델의 계산복잡도와 depth는 linear관계를 가진다(so a 1001-layer net is ∼10× complex of a 100-layer net). On CIFAR, ResNet-1001 takes about 27 hours to train on 2 GPUs; on ImageNet, ResNet200 takes about 3 weeks to train on 8 GPUs (on par with VGG nets [22]).

 

6 Conclusions

이 paper에서는 the propagation formulations behind the connection mechanisms of deep residual networks을 여구하였다. Our derivations imply that identity shortcut connections and identity after-addition activation are essential for making information propagation smooth. 제거 실험(Ablation experiments) demonstrate phenomena that are consistent with our derivations. 우리는 동시에 1000-layer deep networks을 제안하여  that can be easily trained and achieve improved accuracy.

 

Appendix: Implementation Details

The implementation details and hyperparameters are the same as those in [1]. On CIFAR we use only the translation and flipping augmentation in [1] for training. learning rate는 0.1부터 시작하여, and is divided by 10 at 32k and 48k iterations. Following [1], for all CIFAR experiments we warm up the training by using a smaller learning rate of 0.01 at the beginning 400 iterations and go back to 0.1 after that, although we remark that this is not necessary for our proposed Residual Unit. The mini-batch size is 128 on 2 GPUs (64 each), the weight decay is 0.0001, the momentum is 0.9, and the weights are initialized as in [23].

 

On ImageNet, we train the models using the same data augmentation as in [1]. The learning rate starts from 0.1 (no warming up), and is divided by 10 at 30 and 60 epochs. The mini-batch size is 256 on 8 GPUs (32 each). The weight decay, momentum, and weight initialization are the same as above.

 

When using the pre-activation Residual Units (Fig. 4(d)(e) and Fig. 5), we pay special attention to the first and the last Residual Units of the entire network. For the first Residual Unit (that follows a stand-alone convolutional layer, conv1), we adopt the first activation right after conv1 and before splitting into two paths; for the last Residual Unit (followed by average pooling and a fullyconnected classifier), we adopt an extra activation right after its element-wise addition. These two special cases are the natural outcome when we obtain the pre-activation network via the modification procedure as shown in Fig. 5.

 

 

 

 

 

 

 

[논문 출처] : 

Identity Mappings in Deep Residual Networks

참조:

https://kangbk0120.github.io/articles/2018-01/identity-mapping-in-deep-resnet

 

Identity Mappings in Deep Residual Networks 리뷰

Identity Mappings in Deep Residual Networks 강병규 안녕하세요 오늘 리뷰할 논문은 Identity Mappings in Deep Residual Networks(He et al)입니다. 전체적으로 기존에 나왔던 Residual Network(이하 ResNet)이 왜 좋은 성능이 나

kangbk0120.github.io

https://ko.wikipedia.org/wiki/%ED%95%AD%EB%93%B1_%ED%95%A8%EC%88%98

 

항등 함수 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 실수 항등 함수의 그래프 수학에서, 항등 함수(恒等函數, 영어: identity function) 또는 항등 사상(恒等寫像, 영어: identity map), 항등 변환(恒等變換, 영어: identity trans

ko.wikipedia.org

https://en.wikipedia.org/wiki/Eqn_(software)

 

eqn (software) - Wikipedia

Part of the troff suite of Unix document layout tools, eqn is a preprocessor that formats equations for printing. A similar program, neqn, accepted the same input as eqn, but produced output tuned to look better in nroff. The eqn program was created in 197

en.wikipedia.org

https://blog.csdn.net/wspba/article/details/60750007

 

Identity Mappings in Deep Residual Networks(译)_小时候贼聪明-CSDN博客_identity mappings in deep residual networks

仅供参考,如有翻译不到位的地方敬请指出。 论文地址:Identity Mappings in Deep Residual Networks 译文地址:http://blog.csdn.net/wspba/article/details/60750007 摘要 深度残差网络作为一种极深的网络框架,在精��

blog.csdn.net

 

반응형

+ Recent posts