반응형

논문 : VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

저자 : Karen Simonyan ∗ & Andrew Zisserman 

 

Abstract

convolutional network depth

very small ( 3 × 3) convolution filters ⇒ networks of increasing depth

depth to 16–19 weight layers

ImageNet Challenge 2014 submission 에서 the first and the second places in the localisation and classification tracks respectively

일반화가 잘 된다.

 

2 CONVNET CONFIGURATIONS

2.1 ARCHITECTURE

VGG의 아키텍츠에 대해서 소계한다.

AlexNet에서는 such normalisation does not improve the performance on the ILSVRC dataset, but leads to increased memory consumption and computation time.

2.2 CONFIGURATIONS

In the following we will refer to the nets by their names (A–E).

2.3 DISCUSSION

So what have we gained by using, for instance, a stack of three 3×3 conv. layers instead of a single 7×7 layer? First, we incorporate three non-linear rectification layers instead of a single one, which makes the decision function more discriminative. Second, we decrease the number of parameters: assuming that both the input and the output of three-layer 3 × 3 convolution stack has C channels, the stack is parametrised by 3 ( $3^2 C^2) = 27C^2$ weights; at the same time, a single 7 × 7 conv. layer would require $7^2C^2 = 49C^2$ parameters, i.e. 81% more. This can be seen as imposing a regularisation on the 7 × 7 conv. filters, forcing them to have a decomposition through the 3 × 3 filters (with non-linearity injected in between).

3 CLASSIFICATION FRAMEWORK

3.1 TRAINING

We conjecture that in spite of the larger number of parameters and the greater depth of our nets compared to (Krizhevsky et al., 2012), the nets required less epochs to converge due to (a) implicit regularisation imposed by greater depth and smaller conv. filter sizes; (b) pre-initialisation of certain layers.

fixed-size 224×224 ConvNet input images

To further augment the training set, the crops underwent random horizontal flipping and random RGB colour shift (Krizhevsky et al., 2012).

Training image size.

S를 ConvNet 입력이 cropped된 isotropically-rescaled training image의 가장 작은 면이라고 한다.(S를 training scale 이라고도 함 ) crop size is fixed to 224 × 224로 고정되어 있지만 원칙적으로 S는 224 이상의 값을 가질 수 있다. S≥ 224 의 경우 cropped 는 이미지의 작은 부분에 해당하며 작은 객체 또는 개체 부분을 포함한다.

we evaluated models trained at two fixed scales: S = 256 과 S 384

3.2 TESTING

3.3 IMPLEMENTATION DETAILS

4 CLASSIFICATION EXPERIMENTS

Dataset.

ILSVRC-2012 dataset (which was used for ILSVRC 2012–2014 challenges)

images of 1000 classes

training (1.3M images), validation (50K images), and testing (100K images with held-out class labels).

The classification performance is evaluated using two measures: the top-1 and top-5 error.

ILSVRC-2014 competition (Russakovsky et al., 2014)

 

First, we note that using local response normalisation (A-LRN network) does not improve on the model A without any normalisation layers.

Second, we observe that the classification error decreases with the increased ConvNet depth: from 11 layers in A to 19 layers in E.

additional non-linearity does help (C is better than B), it is also important to capture spatial context by using conv. filters with non-trivial receptive fields

Finally, scale jittering at training time (S ∈ [256; 512]) leads to significantly better results than training on images with fixed smallest side (S = 256 or S = 384), even though a single scale is used at test time.

4.2 MULTI-SCALE EVALUATION

Considering that a large discrepancy between training and testing scales leads to a drop in performance, the models trained with fixed S were evaluated over three test image sizes, close to the training one: Q = {S − 32, S, S + 32}.

At the same time, scale jittering at training time allows the network to be applied to a wider range of scales at test time, so the model trained with variable S ∈ [Smin; Smax] was evaluated over a larger range of sizes Q = {Smin, 0.5(Smin + Smax), Smax}.

On the test set, the configuration E achieves 7.3% top-5 error.

4.3 MULTI-CROP EVALUATION

4.4 CONVNET FUSION

4.5 COMPARISON WITH THE STATE OF THE ART

In the classification task of ILSVRC-2014 challenge (Russakovsky et al., 2014), our “VGG” team secured the 2nd place with 7.3% test error using an ensemble of 7 models.

After the submission, we decreased the error rate to 6.8% using an ensemble of 2 models.

single-net performance, our architecture achieves the best result (7.0% test error), outperforming a single GoogLeNet by 0.9%.

Notably, we did not depart from the classical ConvNet architecture of LeCun et al. (1989), but improved it by substantially increasing the depth.

5 CONCLUSION

largescale image classification

representation depth is beneficial for the classification accuracy

models generalise

 

 

 

============================================================================

small receptive field: 3 × 3

============================================================================

ABSTRACT

본 연구에서는 large-scale image recognition setting에서 convolutional network 깊이가 정확도에 미치는 영향을 조사한다. 우리의 주된 기여는 매우 작은 ( 3 × 3) convolution filters 를 가진 architecture 를 사용하여 깊이가 증가하는 network에  대한 철저한 평가하며 , 이는 깊이를 16-19개개의 중량 계층으로 밀어냄으로써 선행 기술 구성의 상당한 개선이 달성될 수 있음을 보여준다. 이러한 연구 결과는 ImageNet Challenge 2014 submission의 기반으로  되었으며  팀은 localisation와 classification tracks  에서 각각 1위와 2위를 확보했다. 또한 우리는 representations 이 다른 데이터 세트에 잘 적용되어 state-of-the-art결과를 달성하였다 .(일반화가 잘 되었다.) 우리는 computer vision에 deep visual representations 의 사용에 대한 추가 연구를 용이하게 하기 위해 최고 성능의 두 가지 ConvNet 모델을 공개적으로 사용할 수 있도록 했다.  => VGG16 VGG19

 

1. Introduction

Convolutional networks (ConvNets)최근 ImageNet(Deng et al., 2009)과 같은 대규모 public image repositories로 가능해진 Krizhevsky et al., 2012; Zeiler & Fergus, 2013; Sermanet et al., 2014; Simonyan & Zisserman, 2014)  GPUs or large-scale distributed clusters (Dean et al., 2012)에서 큰 성공을 거두고 있다. 특히 deep visual recognition architectures의 발전에 중요한 역할은 high-dimensional shallow feature encodings에서 deep ConvNets이르기 까지 몇 세대에 걸친 large-scale image classification systems의 testbed 역할을 해온 ImageNet Large-Scale Visual Recognition Challenge에 의해 수행되었다.

테스트베드(testbed)는 과학 이론, 계산 도구, 신기술에 대해 엄격하고 투명하고 재현 가능한 테스트를 수행하기 위한 플랫폼이다. 

 

ConvNets 개 컴퓨터 비전 분야에서 더욱 보편화됨에 따라, 더 나은 정확도를 달성하기 위해 Krizhevsky et al. (2012)의 original architecture를 개선하려는 여러 시도가 있었다. 예를 들어 ILSVRC 2013에 대한 가장 우수한 submissions은 첫번째 convolutional layer에서 더 작은 receptive window size 와 더 작은 stride를 사용했다. improvements 의 또 다른 라인은 전체 이미지와 여러 척도에 걸쳐 네트워크를 densely training and testing 하는 것을 다루었다. 이 논문에서는 ConvNet 아키텍처 설계의 또 다른 중요한 측면인 depth에 대해 설명한다. 이를 위해, 우리는 구조의 다른 매개변수를 수정하고, 모든 계층에서 매우 작은 (3 × 3) convolution filters를 사용하기 때문에 실현 가능한 convolutional layers 를 더 추가하여 네트워크의 깊이를 꾸준히 증가시킨다.

결과적으로 우리는 ILSVRC classification and localisation  작업에서 state-of-the-art를 달성할 뿐만 아니라 상대적으로 단순한 pipelines의 일부로 사용하더라도 우수한 성능을 달성하는 다른 image

recognition datasets 에도 적용할 수 있는 훨씬 더 정확한 ConvNet 아키텍처를 고안한다 (e.g. deep features classified by a linear SVM without fine-tuning). 우리는 추가 연구를 용이하게 하기 위해 최고 성능의 모델 두 개를 출시했다.  

그 논문의 나머지 부분은 다음과 같이 구성되어 있다. 

Sect. 2, ConvNet configurations에 대해 설명한다.  

Sect. 3, image classification training and evaluation의 세부사항 

Sect. 4, configurations 은 ILSVRC classification  작업에서 비교된다. 

Sect. 5, 논문을 마무리한다. 

Appendix A : ILSVRC-2014 object localisation system 을 설명하고 평가하고 

Appendix B : other datasets에 대해 매우 심층적인 일반화의 기능에 대해 논의한다

Appendix C : 주요 논문 개정 목록이 포함되어 있다. 

 

2 CONVNET CONFIGURATIONS

fair setting에서 ConvNet 깊이 증가로 인한 개선을 측정하기 위해 모든 ConvNet 계층 구성은 Ciresan 등(2011); Krizhevsky 등(2012)에서 영감을 받아 동일한 원칙을 사용하여 설계된다. 

Sect.2.1 : ConvNet 구성의 일반적인 레이아웃을 설명하고 

Sect.2.2 : 평가에 사용된 특정 구성을 자세히 설명

Sect.2.3 : 설계 선택에 대해 논의하고 선행기술과 비교한다.

 

2.1 ARCHITECTURE  

훈련 중에 ConvNets에 대한 입력: 고정된 고정 크기 224 × 224 RGB 이미지이다. 

훈련 세트에서 계산된 평균 RGB 값을 각 픽셀에서 빼는 것 우리가 하는 유일한 전처리이다. 이미지는 convolutional(conv.)  layer의 stack을 통해 전달되며, 여기서  3 × 3 (left/right, up/down, center의 개념을 capture 을 하기 위한 작은 receptive field ) 의 작은 receptive field 을 사용한다. 또한 구성 중 하나에서는 input channels의 linear transformation으로 볼 수 있는 1 × 1 convolution filters를 사용한다.

convolution stride는 1 pixel로 고정된다. 

conv. layer 입력 의 spatial padding은 convolution후에 해상도가 보존되는 것이다 .

예: padding: 3 × 3 conv. layers의 경우 1 pixel로 고정됩니다. 

Spatial pooling은 최대 5개의 max-pooling layers에 의해 수행되며 이 계층은 일부 컨벤션 계층을 따른다(모든 컨벤션 계층이 최대 풀링 다음에 오는 것은 아니다).

Max-pooling은 stride 2를 사용하여 2 × 2 pixel window에서 수행된다.

 

convolutional layers의 stack을 따라가는 three Fully-Connected (FC) layers 가 있다 (다른 아키텍처에서 서로 다른 깊이를 갖는). 첫 번째 두 번째 채널에는 각각 4096개가 있으며, 세 번째 채널은 1000-way ILSVRC classification 수행하므로 1000개의 채널(각 클래스에 하나씩)을 포함한다. final layer는 softmax layer이다. fully connected layers의 구성은  모든 네트워크에서 동일하다.

모든 hidden layer 는 rectification (ReLU (Krizhevsky et al., 2012)) non-linearity을 갖추고 있다. 우리는 (하나를 제외한) 우리의  networks 중 어느 것도 Local Response Normalisation (LRN) normalisation (Krizhevsky et al., 2012) 포함하지 않는 것에 주목한다. => Sect. 4 에서 보여주겠지만 그러한 normalisation은  ILSVRC dataset성능을 향상시키지는 않지만 메모리 소비와 계산 시간을 증가시킨다. 해당되는 경우 LRN 층에 대한 매개변수는 다음과 같다(Krizhevsky 등, 2012).

 

2.2 CONFIGURATIONS

본 문서에서 평가한 ConvNet 구성은 Table 1 에 열당 하나씩 요약되어 있다. 다음에서 우리는 net을 이름(A-E)으로 지칭할 것이다. 모든 구성은 Sect. 2.1 제시된 일반 설계를 따르며, 깊이에서만 다르다.

network A(8 conv.and 3 FC layers) :

11 weight layers

network E(16 conv.and 3 FC layers) :

19 weight layers

Conv layer의 width(채널의 개수) 는 first layer 64 부터

시작해서 각 max-pooling layer를 지나면 512에 이를 때까지 2배씩 증가, 다소 작다.

Table 2에서 우리는 각각에 대한 파라미터의 수를 보고한다.

depth도 크지만 nets의 가중치 수는 더 큰 conv. layer widths and receptive fields (144M weights in (Sermanet et al., 2014)) 수보다 크지 않다.

2.3 D ISCUSSION

우리의 ConvNet 구성은 ILSVRC-2012(Krizhevsky et al., 2012) 및 ILSVRC-2013 competitions (Zeiler & Fergus, 2013; Sermanet et al., 2014)의 최고 성과 항목에 사용된 것과 상당히 다르다.

first conv. layers 에서 비교적 large receptive fields (예: e.g. 11×11with stride 4 in (Krizhevsky et al., 2012), or 7×7 with stride 2 in (Zeiler & Fergus, 2013; Sermanet et al., 2014) ) 을 사용하는 대신, 모든 입력 every pixel (with stride 1) 과 합성된 네트워크 전체에 걸쳐 매우 small 3 × 3 receptive fields 을 사용한다. spatial poolingin between 없이 두개의 3×3 conv.layers 로 이루어진 스택은 5×5의 effective receptive field 가지고 있다는 것을 쉽게 알 수 있다. 이러한 3개의 레이어는 7×7의 effective receptive field을 가지고 있다.  

 

그래서 우리는 7×7 layer 한개를 수행한 것과 3개의 3×3 conv.layers 를 쌓은 것으로 사용함으로써 얻게되는 점은 무엇일 까 ?

  1. 첫째, 우리는 단일 층 대신 세 개의 non-linear rectification layers 을 통합하여 의사 결정(decision function ) 기능을 더 차별적(discriminative)으로 만든다.
  2. 우리는 parameters의 수를 줄인다 : three-layer 3 × 3 convolution stack이 모두 C channels을 가지고 있다고 가정하면,  3 ( 3^2 * C^2 ) = 27C^2 weights  동시에 single 7 × 7 conv. layer는 7^2*C^2 = 49C^2 parameters 필요한다.  = > single 7 × 7 conv. layer이 three-layer 3 × 3 convolution stack보다 81% 증가 . 이는 (with non-linearity injected in between) 3 × 3 filters를 통해 decomposition 되도록 강조하면서 7 × 7 conv. filters에 regularisation 를 가하는 것으로 볼 수 있다.

1 × 1 conv. layers (configuration C,Table 1) 의 통합은 the conv.
layers의 receptive fields 에 영향을 미치지 않고 의사결정 기능의 비선형성을 증가시키는 방법이다. 우리의 경우 1×1 convolution은 본질적으로 동일한 차원(입력 및 출력 채널의 수는 동일)의 공간에 대한 선형 투영이지만, rectification function에 의해 추가적인 non-linearity이 도입된다. 1×1 conv. layers 은  Lin et al(2014)의 “Network in Network” architecture에서 활요되고 있다. 

Small-size convolution filters는 이전 Ciresan et al. (2011)이 사용해왔지만, nets의 깊이가 우리보다 현저히 낮으며 large-scale ILSVRC

dataset에 평가하지 않았다. Goodfellow et al. (2014)은 street number recognition 작업에 ConvNets (11 weight layers)를 적용했으며 깊이가 증가하면 성능이 향상된다는 것을 보여주었다. ILSVRC-2014 classification task에서 top-performing entry인 GoogLeNet (Szegedy et al., 2014)은 우리의 작업과 독립적으로 개발되었지만 매우 깊은 ConvNet(22 weight layers)과 mall convolution filters (apart from 3 × 3, they also use 1 × 1 and 5 × 5 convolutions )를 기반으로 한다는 점에서 유사하다.  그들의 network topology는 우리보다 더 복잡하며, first layers에서 feature maps의 spatial resolution는 는 계산량을 줄이기 위해 더 적극적으로 감소한다. Sect. 4.5에서 보여지겠지만, our model은 single-network classification accuracy 에서 Szegedy et al.(2014)을 능가하다.

 

3 CLASSIFICATION FRAMEWORK

이전 섹션에서 네트워크 구성에 대한 세부 정보를 제시했다. 이 절에서는 분류 ConvNet 교육 및 평가의 세부 사항을 설명한다.

 

3.1 TRAINING

 

ConvNet 훈련 절차는 일반적으로 Krizhevsky 등(2012)을 따른다(나중에 설명한 대로 multi-scale training images에서 입력 crops을 샘플링하는 것은 제외). 즉 , 훈련은 momentum을 가진 mini-batch gradient descent (based on back-propagation (LeCun et al., 1989))을 사용하여 multinomial logistic regression objective을 최적화함으로써 수행된다. 

batch size : 256

momentum : 0.9

regularised weight decay(the L2 penalty multiplier set to 5 · 10 ^ −4 ) , dropout ratio = 0.5

learning rate = 10^-2 then decreased by a factor of 10  validation set의 정확도가 더 이상 향상되지 않을 때 멈춘다.

learning rate이 3회 감소되었고,  370,000회 반복(74시대) 후 학습이 중단되었다.

우리는 더 많은 수의  parameters 와 네트의 깊이가 (Krizhevsky 등, 2012)에 비해, the nets는 더 적은 epochs으로 수렴한다.

(a) 더 깊고 더 작은 conv.filter sizes에 의해 imposed by  implicit regularisation => 3x3 3개

(b) certain layers의 pre-initialisation => 초기화 

network의 가중치 조기화는 매우 중요하다. 왜냐하면 초기화가 잘못되면 deep nets의 경사도 불안정성으로 인해 학습을 지연시킬 수 있기 때문이다. 이 문제를 피하기 위해 무작위 초기화 훈련을 받을 수 있을 정도로 얕은 configuration A(Table 1) 를 훈련하기 시작했다.  그런 다음, deeper architectures를 훈련 시킬 때, 우리는 첫번째 4개의 convolutional layers과 마지막 3개의 fully-connected layers 를 net A (the intermediate layers 들은랜덤으로 초기화 되었다. ) 초기화했다. pre-initialised layers에 대한 learning rate를 낮추지 않아 학습 중에 변경될 수 있었다. random initialisation (where applicable)경우 평균이 0이고 분산이 10^-2 인 정규분포에서 가중치를 샘플링했다. 

biases 으로 초기화 했다. 주목할 필요가 있는 것은 논문 제출 후 Glorot & Bengio(2010)의 무작위 초기화 절차를 사용하여 사전 훈련 없이 가중치를 초기화할 수 있다는 것이다.

fixed size 224×224 ConvNet입력 이미지를 얻기 위해 키그를 조정한 training images에서 무작위로 잘라냈다(one crop per image per SGD iteratio ) . training set,를 더욱 강화하기 위해 random horizontal flipping and random RGB colour shift (Krizhevsky et al., 2012)에 따른 crops가 진행되었다. Training image rescaling은 아래에 설명되어 있다.

 

Training image size.

S가 ConvNet 입력이 잘리는 isotropically-rescaled training image의 가장 작은쪽을 맞춰준다. (여기서 S는 training scale이다.) => 126x256일 경우 126을 맞춘다.

crop size는  224 × 224 고정크기로 되어있지만 , 원칙적으로는 S는 224 이상의 값을 가질 수 있다: S = 224의 경우, crop은 훈련이미지의 가장 작은 측면에 걸쳐 whole-image statistics를 캡처한

다; S ≫ 224의 경우 , 자르는 것은 이미지의 작은 부분에 해당하며, 작은 물체나 물체 부분을 포함한다. 

 

우리는 training scale S를 하기 위해 두 가지 접근법을 고려한다.

첫번째:  "single-scale training" => S를 고정하는 것 (sampled crops내의 이미지 컨텐츠는 여전히 다중 스케일 이미지 통계를 나타낼 수 있음에 유의한다 ) . 

실험에서 우리는, S = 256 (prior art에서 많이 사용된  (Krizhevsky et al., 2012; Zeiler & Fergus, 2013; Sermanet et al., 2014)) and S = 384 두가지 scales로 훈련된 모델을 평가했다. ConvNet configuration에 따라서 , S = 256를 먼저 교육했다. S = 384 network의 교육 속도를 높이기 위해, S = 256으로 pre-trained 가중치로 초기화 되었으며, smaller initial  of 10 ^−3으로 learning rate을 사용하였다. 

두 번째 접근방식은 : multi-scale training , 각 training image는 [S_min , S_max ]에서 무작위로 S를 샘플링하여 개별적으로 조정된다(S_min = 256 및 S_max = 512) . 이미지의 개체 크기가 다를 수 있으므로 훈련 중에 이 점으로 간주한다. 이는 single model이 a wide range of scales에 걸쳐 객체를 인식하도록 훈련되는 cale jittering에 의한 훈련 세트 증대로도 볼 수 있다. 속도상의 이유로,  우리는 fixed S = 384로 사전 훈련된 동일한 구성의 단일 스케일 모델의 모든 레이어를 미세 조정함으로써 다중 스케일 모델을 훈련시켰다. 

 

scale jittering :S를 무작위로 바꿔가면서 학습을 시킨다고 하는 것 을말한다.

 

3.2 TESTING

테스트 시 훈련된 ConvNet 및 입력 이미지가 주어지면 다음과 같은 방법으로 분류된다. 

첫째, Q로 표시된 pre-definedㅁ된 가장 작은 image side으로 isotropically rescaled 한다(우리는 이를 test scale라고도 한다). 우리는 Q가 반드시 훈련 척도 S와 동일하지는 않다는 점에 주목한다(Sect. 4 에서 보여주겠지만, 각 S에 대해 Q의 여러 값을 사용하면 성능이 향상된다). 그런 다음 , network는 (Sermanet 등, 2014)와 유사한 방식으로 rescaled test image에 densely 적용된다. 즉,  fully-connected layers들은 먼저 convolutional layers으로 변환된다.  (the first FC layer to a 7 × 7 conv. layer, the last two FC layers to 1 × 1 conv. layers) . 그런 다음 fully-convolutional net가 전체(uncropped) 이미지에 적용된다.  결과는 input image 의 size에 따라 channels 수 와 classes 수가 같고 그리고 variable spatial resolution 수가 class score map이다. 또한 images의 horizontal flipping을 통해 test를 강화하였다 ; original and flipped images 의 soft-max class 포스터는 이미지에 대한 최종 점수를 얻기 위해 평균낸다.

전체 이미지에 대해 fully-convolutional network가 적용되기 때문에 test time (Krizhevsky et al., 2012)에 multiple crops 을 표본으로 추출할 필요가 없으며(Krizhevsky 등, 2012) 는 각 작물에 대해 네트워크 재연산이 필요하기 때문에 효율성이 떨어진다. 동시에, Szegedy et al. (2014)에서 수행한 대로 많은 crops 세트를 사용하면 입력 이미지의 더 미세한 샘플링을 얻을 수 있기 때문에 정확도가 향상될 수 있다. 또한 multi-crop 평가는 서로 다른 convolution boundary conditions에 조밀한 평가를 보완한다: ConvNet을 crop에 적용할 때, 컨볼루션된 feature maps 은 0으로 pad되는 반면, 밀도가 높은 평가의 경우 동일한 크롭에 대한 패딩은 (컨볼루션과 공간 풀링으로 인해) 이미지의 인접 부분에서 자연적으로 발생하므로 전체 network receptive field가 상당히 증가하므로 더 많은 context 가 캡쳐된다. 실제로 multiple crops의 연산 시간이 증가한다고 해서 정확도가 향상되는 것은 아니라고 생각하지만, 참고로 우리는 또한 scale 당 50 crops( flips 가 2개인 5×5 regular grid) for a total of 150 crops over 3 scales 을 사용하여 network를 평가하는데 이는 Szegedy et al. (2014) 에 사용되는 144 crops over 4 scales 과 비교된다. 

 

3.3 IMPLEMENTATION DETAILS

우리의 구현은 공개 가능한 C++ Caffe toolbox (Jia, 2013) (2013년 12월에 출시) 에서 파생되었지만,  여러 가지 중요한 수정 사항을 포함하고 있어, 여러 가지에 대해 훈련과 평가를 수행할 수 있다. single system설치된 multiple GPUs는 multiple scales (위에서 설명한 바와 같이 ) 로 full-size(uncropped) 를 훈련하고 평가한다. Multi-GPU 훈련은 data parallelism를 이용하고 , 각 GPU에서 병렬로 처리된, 여러 GPU 배치로 각 교육 이미지를 분할하여 수행된다. the GPU batch gradients 를 계사한 후, full batch의 gradient를 얻기 위해  평균을 낸다. Gradient computation는 GPU 전체에서 동기화되므로 결과는 단일 GPU에서 훈련할 때와 정확히 동일하다.

다양한 네트워크 계층에 모델 및 data parallelism를 채택하는 ConvNet training 속도를 높이는 보다 보다 정교한 방법이 최근 제안되고 있지만(Krizhevsky, 2014) 개념적으로 훨씬 더 단순한 체계가 단일 GPU를 사용하는 것과 비교하여 기성 4-GPU 시스템에서 이미 3.75배의 속도를 제공한다는 것을 발견했다. 4개의 NVIDIA Titan Black GPUs가 장착된 시스템에서 single net를 교육하는 데는 architecture에 따라 2-3주가 걸렸다. 

 

 

4 CLASSIFICATION EXPERIMENTS

Dataset

이 section에서는 , ILSVRC-2012 데이터 세트(ILSVRC 2012-2014 challenges에 사용됨)에서  설명한 ConvNet architectures 가 달성한 이미지 분류 결과를 제시한다. 데이터

세트에는 1000개 클래스의 이미지가 포함되며 

training: 1.3M images

validation: 50K images

testing : 100K images with held-out class labels 

분류 성능은 top-1 and top-5 두가지 방법으로 평가된다. 전자는 multi-class classification error 즉, 잘못 분류된 이미지의 비율이며, 후자는 LSVRC에서 사용되는 주요 평가 기준이며, ground-truth category가 top-5 개 예측 범주를 벗어나는 이미지의 비율로 계산된다. 

대부분의 실험에서 검증 세트를 테스트 세트로 사용했다. ILSVRC-2014 competition (Russakovsky et al., 2014)의 “VGG”팀 entry 로 테스트 세트에 대한 특정 실험이 수행되어 공식 ILSVRC 서버에 제출되었다. 

 

4.1 S INGLE S CALE E VALUATION

우리는 Sect. 2.2 에서 설명된 계층 구성을 사용하여 single scale로 개별 ConvNet 모델의 성능을 평가하는 것으로 시작한다. 

test image size는 고정 S의 경우 Q = S , Q = 0.5(S_min + S_max )  jittered S ∈ [S_min ,S_max ]. 결과는 Table 3 에서 와 같다. 

첫째, local response normalisation (A-LRN network)  를 사용해도 normalisation layers에서 계선되지 않는 점에 주목한다. => AlexNet에서 LRN 사용. 따라서 우리는 eeper architectures (B–E)에서는 정규화를 채택하지 않는다.

둘째 , classification error는 ConvNet 깊이가 증가함에 따라 감소한다는 것을 관찰한다.  (error와 depth 와 관련) 즉  A의 11 layers부터 E의 19 layers 까지이다. 특히, 동일한 깊이에도 불구하고 , configuration C (3개의 1 × 1 conv. layers 포함하는) 는 network 전체에 걸쳐 3 × 3 conv. layers  을 사용하는 구성 D보다 성능이 더 나쁘다. 이는 additional non-linearity 도움이 되지만 (C가 B보다 낫지만)  non-trivial receptive fields (D가 C보다 낫다) 이 있는 conv. filters를 사용하여 spatial context 를 포착하는 것도 중요하다. 

3개의 1 × 1 conv. layers : non-linearity 도움이 된다.

3 × 3 conv. layers : spatial context 의 특징을 잘 포착한다.

우리의 architecture의 error rate은 깊이가 19 layer일 떄 포화된다. 하지만 deeper models 은 larger datasets에 더 유용할 것이다. 우리는 또한 net B를 5개의 5 × 5 conv. layers 가 있는 얕은 network와 비교했는데, 이것은 3×3 conv. layers의 각 쌍을 single 5×5 conv. layer 대체함으로써 파생되었다. (Sect. 2.3에서 설명한 것처럼 같은 receptive field) . 

shallow net의 top-1 error는 (중앙 crop에서) B보다 7% 높은 것으로 측정되었으며, 이는 작은 필터를 가진 deep net이 더 큰 필터를 가진  shallow net을 능가한다는 것을 확인시켜 준다.

마지막으로, 훈련 시간에 scale jittering (S ∈ [256;198])은 test time에 single scale 을 사용하더라도 fixed smallest side 

(S = 256 or S = 384)에 대한 훈련보다 훨씬 더 나은 결과를 도출한다. 이를 통해 scale jittering에 의한 training set 

augmentation 가 multi-scale image 통계를 캡처하는  데 실제로 도움이 된다는 것을 확인할 수 있다.

scaling jitter를 사용하는 것이 고정 image size를 하는 것보다 에러가 낫다.

 

4.2 MULTI-SCALE EVALUATION

ConvNet models을 single scale로 평가한 후 , 이제 test시 scale jittering 효과를 평가한다. 그것은 (Q의 다른 값에 해당) 여러 조정된 버전의 테스트 이미지에 대해 모델을 실행한 다음 결과 클래스 포스터를 평균화하는 것으로 구성된다. training과 testing scale 사이에 큰 차이가 있다는 것을 고려하며 scales  으로 인해 성능 저하 , 고정된 S로 3개의 test image sizes Q = {S − 32,S,S + 32} 로 평가되었다. 동시에 , 훈련시 scale jittering는 네트워크를 시험 시 더 넓은 범위의 스케일에 적용할 수 있도록 해주므로 변수 S ≤ [S_min;S_max]로 훈련된 모델은 더 큰 크기 Q = {S_min,0.5(S_max + S_max)}에서 평가되었다.  

표 4에 제시된 결과는 시험시 scale jittering 가 더 좋은 성능을 보여는 것을 보여준다. (표 3에 나타낸 것과 같이 단일 스케일에서 동일한 모델을 평가하는 것과 비교) . 전에 

가장  깊은 구조로 (D 및 E)의 성능이 우수하며, 가장 작은 고정 변 S를 사용하는 훈련보다 scale jittering가 더 좋다.  validation set에서 우리의 best single-network 성능은 24.8%/7.5% top-1/top-5 error  (표 4에서 굵게 강조 ) test set에서  configuration E 는 top-5 7.3%% 를 달성했다.

 

4.3 MULTI-CROP EVALUATION

Table 5에서는 dense ConvNet평가를 dense ConvNet 와 비교한다. 비교한다(자세한 내용은 Sect. 3.2 참조) .또한 softmax outputs 을 평균화하여 두 평가 기법의 complementarity 을 평가한다. 알 수 있듯이, multiple crops하는 것은 dense evaluation보다 약간 더 나은 성능을 발휘하며, 두 가지 접근법은 조합이 각각을 능가하기 때문에 실제로 상호 보완적(complementary)이다. 위에서 언급한 바와 같이  우리는 이것이 convolution boundary conditions의 다른 처리 이기 때문이라고 가정한다.

 

4.4 CONVNET FUSION

지금 까지 우리는 individual ConvNet models의 성능을 평가하였다. 실험의 이 부분에서는 soft-max class posteriors를 평균화하여 여러 모델의 출력을 결합한다.  이는 모델의 상호보완성으로 인한 성능을 향상시키며 2012년(Krizhevsky 등, 2012년)과 2013년(Zeiler & Fergus, 2013년; Sermanet 등, 2014년) ILSVRC 

submissions  상위 항목에 사용되었다. 

그 결과는 Table 6와 같다. ILSVRC submission 시점 까지 우리는 (모든 계층이 아닌 완전히 연결된 계층만 fine-tuning함으로써) multi-scale

model D 뿐만 아니라 single-scale networks만 훈련 시켰다. 7 networks 의 ensemble 은 7.3% ILSVRC test error를 가지고 있다. 제출 후 , 우리는 가장 성능이 좋은 두 개의 다중 스케일 모델(구성 D 및 E)의 앙상블을 고려했는데, 이 앙상블은 밀도 평가를 사용하여 7.0%, 조밀도와 다중 크롭 평가를 결합하여 6.8%로 테스트 오류를 줄였다. 참고로, 성능이 가장 좋은 단일 모델은 7.1%의 오차를 달성한다(모델 E, 표 5).

 

4.5 COMPARISON WITH THE STATE OF THE ART  => SOTA 달성은 앙상블 모델 

마지막으로,우리는 우리의 결과 를 Table 7에 state of the art과 비교한다. ILSVRC-2014 challenge (Russakovsky et al., 2014)의 분류 과제에서 우리 "VGG"팀은 7 models 앙상블 을 사용하여 7.3%의 테스트 오차로 2위를 차지했다. 제출 후 2개 모델의 앙상블을 사용하여 오류율을 6.8%로 줄였다.

표 7에서 볼 수 있듯이 매우 deep ConvNets 는 ILSVRC-2012 및 ILSVRC-2013 competitions에서  최고의 결과를 달성한 이전 세대의 모델을 크게 능가한다.  또한 우리의 결과는 classification task winner(GoogLeNet with 6.7% error) 과 경쟁력이 있으며, outside training data로 11.2%, 그렇지 않은 경우 11.7%를 달성한 ILSVRC-2013 winning submission Clarifai를 크게 능가한다. 대부분의 ILSVRC submissions에 사용되는 것보다 현저히 적은 두 가지 모델만 조합하여 최상의 결과를 달성한다는 점을 고려하면 이는 주목할 만하다. single net performance측면에서 our architecture 는 single GoogLeNet 을 0.9% 능가하는 최고의 결과(7.0% test error)를 달성했다. 특히, 우리는 LeCun 등(1989)의 고전적인 ConvNet 아키텍처에서 벗어나지 않았지만, 그 깊이를 상당히 높여 개선했다.

 

 

5 CONCLUSION

본 연구에서는 우리는 large-scale image classification를 위해 very deep convolutional networks (up to 19 weight layers)를 평가했다. representation depth가 classification accuracy에 유용하며, depth가 크게 증가한 a conventional ConvNet architecture(LeCun et al., 1989; Krizhevsky et al., 2012)를 사용하여 ImageNet challenge dataset의 sota를 달성할 수 있는 것이 입증됬다. 부록에서, 우리는 또한 우리의 모델이 덜 깊은 이미지 표현을 중심으로 구축된 보다 복잡한 인식 파이프라인과 일치하거나 성능을 능가하면서 광범위한 작업 및 데이터 세트에 잘 일반화되었음을 보여준다. 우리의 결과는 visual representations에서 깊이의 중요성을 다시 한번 확인시켜 준다.

 

A LOCALISATION

이 논문의 본문에서 classification task of the ILSVRC challenge를 고려하고 서로 다른 깊이의 ConvNet architectures에 철저한 평가를 수행하였다. 이 section에서는 2014 with 25.3% error로 승리한 localisation task of the challenge로 돌린다. class의 실제 객체 수에 관계없이 top-5 개 클래스에 대해 single object bounding box를 예측해야 하는 object detection의 특수한 경우라 볼 수 있다. 이를 위해 우리는 ILSVRC-2013 localisation challenge 의 우수한 Sermanet et al. (2014)의 접근방법을 몇가지 채택한다. 우리의 방법은 Sect. A.1에서 우리의 평가는 Sect.A.2이다. 

localization : object detection = classification+ localization

localization : 객체라고  판단되는 곳에 직사각형 (bounding box)를 그려주는 것이다.

 

A.1 LOCALISATION CONVNET

object localisation파악을 수앵하기 위해 , 우리는 very deep ConvNet을 사용한다. 여기서 마지막  fully connected layer 는 class scores대신 bounding box location를 예측한다. bounding box는 center coordinates, width, and height를 저장하는 4-D vector로 표시된다. bounding box prediction 이 모든 클래스 (single-class regression, SCR (Sermanet et al., 2014)) 또는 class-specific (per-class regression, PCR)인지에 대한 선택이 있다. 전자의 경우 , 마지막 layer 는 4-D이고 , 후자의 경우는 4000-D (데이터 세트에 1000개의 클래스가 있기 때문이다) . last bounding box prediction layer와는 별도로 16 weight layers를 포함하고 classification task (Sect. 4)에서 가장 성능이 좋은 것으로 밝혀진 ConvNet 아키텍처 D(Table 1)를 사용한다.  

SCR(single-class regression), PCR(per-class regression)

Training.

localisation ConvNets의 훈련은 classification ConvNets (Sect. 3.1) 와 비슷하다. 주요 차이점은 logistic regression objective를 Euclidean loss로 대체하여 예측 bounding box parameters 의 편차를 실제 사실과 다르게 벌한 다는 것이다. 우리는 두가지 localisation models을 a single scale: S = 256 and S = 384로 학습했다(시간 제약으로 인해, ILSVRC-2014 제출에 training scale jittering를 사용하지 않았다. ). 학습은 해당 분류모델로 초기화되었으며 ( 동일한 규모로 학습됨) initial learning rate 10^−3 으로 셋팅되었다. (Sermanet et al., 2014)등에서 수행한 것처럼 우리는 모든 layer를 fine-tuning과 the first two fully-connected layers 만 fine-tuning하는 것을 모두 조사했다.  last fully-connected layer 는 무작위로 초기화되었고 처음부터 훈련되었다.

fine tuning: to make very small changes to something in order to make it work as well as possible:

ground truth : 이미지나 동영상에 있는 객체를 파악하기 위해 labling 을 하는 작업이다.

 

Testing.

우리는 two testing protocols를 고려한다. 

첫번째는 validation set의 서로 다른 network  수정 사항을 비교하는 데 사용되며,  (to factor out the classification errors) ground truth class에 대한 bounding box 예측만 고려한다. bounding box는 이미지의 central crop에만 네트워크를 적용하여 가져온다. 

두번째는 fully-fledged, testing 절차는 classification task (Sect. 3.2)와 유사하게 전체 이미지에 대한 localisation ConvNet의 dense application을 기반으로 한다. 차이점은 class score map대신 last fully-connected layer는 bounding box predictions 집합이라는 것이다. final prediction을 도출하기 위하여 먼저 공간적으로 가까운 예측(좌표 평균화)을 병합한 다음 분류 ConvNet에서 얻은 클래스 점수에 따라 등급을 매기는 Sermanet et al. (2014)의 greedy merging procedure를 활용한다. localisation ConvNets 사용할 때 , 우리는 먼저 bounding box predictions세트의 결합을 취한 다음 결합에서 병합 절차를 실행한다. bounding box predictions의 spatial resolution를 높이고 결과를 더욱 개선할 수 있는  Sermanet et al. (2014) multiple pooling offsets technique을 사용하지 않았다. 

 

fully fledged: completely developed or trained: (자격을 갖춘 ???)

 

A.2 LOCALISATION EXPERIMENTS

이 section에서는 우리는 먼저  (첫 번째 테스트 프로토콜을 사용하여) 가장 성능이 좋은 localisation setting 결정한 다음 fully-fledged scenario (the second protocol)에 평가한다. localisation error는 ILSVRC criterion (Russakovsky et al., 2014)에 따라 측정된다. i.e. the bounding box prediction is deemed correct if its intersection over union ratio with the ground-truth bounding box is above 0.5 => IOU above 0.5  => 0.5 이상

 

Settings comparison. 

Table 8에서 볼 수 있듯이 , per-class regression (PCR)은 class-agnostic single-class regression (SCR)을 능가하며, 이는 SCR에 의해 PCR 이 월등한 Sermanet et al. (2014)등의 연구결과와 다르다. 또한 localisation task을 위해 all layers를 fine-tuning하면 fully-connected layers (as done in (Sermanet et al., 2014))하면 눈에 띄게 정 정도로 좋을 결과를 얻을 수 있다. 이러한 실험에서 가장 작은 영상 쪽은 S = 384로 설정되었다. S = 256의 결과는 동일한 동작을 나타내며 간결도에 대해서는 표시되지 않는다.

 

Fully-fledged evaluation. 본격적인 평가???

fully - fledged completely developed or trained:

best localisation setting (PCR, fine-tuningof all layers)을 결정한 후 , 이제 top-5 class labels을 우리의 best-performing classification system (Sect. 4.5)을 사용하고 예측하고, Sermanet et al. (2014)등의 방법을 사용하여 여러 densely-computed bounding box predictions을 병합하는 fully-fledged scenario에 적용한다. 표 9에서 볼 수 있듯이, localisation ConvNet 을 전체 이미지에 적용하면 groud truth 대신 top-5 predicted class labels을 사용함에도 불구하고 , center crop (Table 8)에 비해 상당히 개선된다. classification task (Sect. 4)와 유사하게 several scales로 시험하고 multiple networks의 예측을 결합하면 성능이 더욱 향상된다.

 

Comparison with the state of the art.

우리는 에서 우리의 최고의 localisation 결과를 Table 10에서 sota를 비교한다. test error25.3%로 "VGG" 팀은 ILSVRC-2014 (Russakovsky et al., 2014)의 localisation challenge 에서 우승을 하였다. 특히, ILSVRC-2013 winner Overfeat (Sermanet et al., 2014) 의 결과보다 규모가 적고 해상도 향상 기법을 사용하지 않았음에도 불구하고 결과가 상당히 우수하다. 우리는 이 기술이 우리의 방법에 통합될 경우 더 나은 localisation  성능을 달성할 수 있을 것으로 예상한다. 이는 very deep ConvNets  가져온 성능 향상을 나타낸다. 우리는 더 간단한 localisation method으로 더 나은 결과를 얻었지만, 더 강력한 표현을 얻었다.

 

B GENERALISATION OF VERY DEEP FEATURES

이전 sections 에서 우리는 ILSVRC dataset에 대한 very deep ConvNets의 training and evaluation에 대해 논의했다. 이 section에서는 ILSVRC에서 pre-trained된 ConvNets를 대규모 모델을 처음부터 over-fitting으로 과적합으로 인해 가능하지 않는 다른 소규모 데이터 세트의 기능 추출기로 평가한다. (????)최근에는 ILSVRC에서 학습한 deep image representations이 hand-crafted representations by a large margin 크게 능가하는 다른 데이터 세트에 잘 일반화됨에 따라 그러한 사용 사례에 많은 관심이 있었다((Zeiler & Fergus, 2013; Donahue et al., 2013; Razavian et al., 2014; Chatfield et al., 2014)). (???) 이 작업 라인에 이어, 우리는 우리의 state-of-the-art methods사용되는 것 보다 얕은 모델보다 더 나은 성능으로 이어지는지를 조사한다. 이 평가에서는 ILSVRC(Sect. 4) - configurations “Net-D” and “Net-E” (which we made publicly available)에서 가장 우수한 분류 성능을 가진 두 가지 모델을 고려한다. 

ILSVRC에서 pre-trained된 ConvNets를 다른 datasets 의 image classification 활용하기 위해 last fully-connected layer (which performs 1000-way ILSVRC classification), 을 제거하고 multiple locations and scales에 걸쳐 aggregated 된 image features으로 penultimate(끝에서 두번째 ) 의 4096-D activations를 사용한다. 결과 이미지설명자는 L2-normalised되며 target dataset 집합에 대해 훈련된 linear SVM classifier와 결합한다. 단순성을 위해 pre-trained ConvNet를 고정 상태로 유지한다. ( fine-tuning은 수행되지 않음)

features 의 Aggregation 는 ILSVRC evaluation procedure(Sect. 3.2)와 유사한 방식으로 수행된다. 즉 image 의 가장 작은 변이 Q와 같도록 먼저 이미지의 크기를 조정한 다음 네트워크가 이미지 평면에 densely 적용된다(all weight layers가 convolutional으로 처리될 때 가능함). 그런 다음 resulting feature map에서 global average pooling을 수행하여 4096-D image descriptor를 생성한다.  그런 다음 descriptor 는 horizontally flipped image의 설명으로 평균을 낸다. Sect. 4.2에서 보여주듯이 multiple scales에 대한 평가는 유익하므로, 우리는 several scales Q에서 특징을 추출한다. 결과적으로 multi-scale features은 여러 scales에 걸쳐 쌓거나 풀링할 수 있다. 스택을 사용면 subsequent classifie가 다양한 scales에 걸쳐 image statistics를 최적으로 배울 수 있지만, 이는 descriptor dimensionality 비용으로 이루어진다. 아래 실험에서 이 설계 선택에 대한 논의로 돌아간다. 또한 두 네트워크를 사용하여 계산된 기능의 늦은 융합을 평가하며, 각 이미지 설명자를 스택하여 수행된다.

 

Image Classification on VOC-2007 and VOC-2012.

PASCAL VOC-2007 and VOC-2012 benchmarks (Everingham et al., 2015)의 image classification task 에 대한 평가로 시작한다. 이러한 datasets 에는 각각 10K and 22.5K images가 포함되며, 각 이미지는 20 object categories 에 해당하는 하나 또는 several labels annotation을 달았다. VOC organisers는 training, validation, and test data (the test data for VOC-2012 is not publicly available; instead, an official evaluation server is provided)로 pre-defined 분할을 제공한다. Recognition performance은 mean average precision (mAP) across classes로 측정된다. => map

특히 OC-2007 and VOC-2012의 validation sets에 성능을 조사함으로써, 우리는 multiple scales로 계산된 이미지 설명자를 집계하는 것이 쌓기를 통한 집계와 유사한 성능을 보인다는 것을 발견했다. VOC dataset 집합에서 objects가 다양한 scale에 걸쳐 나타나므로 classifier 가 이용할 수 있는 특별한 scale-specific semantics 가 없기 때문이라고 가정한다. 평균화는 descriptor차원을 부풀리지 않는 이점이 있기 때문에 Q ∈ {256,384,512,640,768}와 같은 광범위한 범위에서 이미지 설명자를 집계할 수 있었다. 그러나 더 작은 범위인 {256,384,512}에 대한 개선은 미미한 수준(0.3%)이었다. 

test set 성능을 보고하고 Table 11의 다른 접근 방법과 비교한다. networks “Net-D” and “Net-E”는 VOC datasets에서 성능을 보이며 이들의 조합은 결과를 약간 향상시킨다. 우리의 방법은 ILSVRC dataset에서 pre-trained된  image representations 전반에 걸쳐 새로운 기술 상태를 설정한다. 이전 최고 결과인 Chatfield et al.(2014) 를 6% 이상 앞질렀다. VOC-2012에서 1% 더 나은 mAP를 달성하는 Wei et al. (2014)의 방법은 다음과 같이 사전 교육된다. 추가 1000 categories를 포함하는 확장된 2000-class ILSVRC dataset 에서 사전 교육되며 semantically VOC datasets의 범주와 유사하다. 또한 object detection-assisted classification pipeline 의 융합을 통해 이점을 얻을 수 있다.

Image Classification on Caltech-101 and Caltech-256

이 section에서는  Caltech-101(Fei-Fei et al., 2004) and Caltech-256(Griffin et al., 2007) image classification benchmarks 에서 very deep features를 평가한다. Caltech-101 에는 Caltech-101에는 102개 클래스(101개 객체 범주 및 배경 클래스)로 라벨링된 9K 영상이 포함되어 있으며, Caltech-256은 31K 이미지 및 257개 클래스로 Caltech-101보다 더 크다.  이러한 datasets 에 대한 standard evaluation protocol은 학습및 test data와 몇 개의 무작위 분할을 생성하고 분할에 걸쳐 평균 인식 성능을 보고하는 것으로, mean class recall (클래스당 다른 수의 테스트 이미지를 보상함)로 측정된다. Chatfield et al. (2014); Zeiler & Fergus (2013); He et al. (2014),  Caltech-101에서 우리는 각 분할에 클래스당 30개의 학습 이미지와 클래스당 최대 50개의 테스트 이미지가 포함되도록 훈련 및 테스트 데이터로 3개의 랜덤 분할을 생성했다. 또한 Caltech-256에서는 3개의 분할을 생성했으며, 각 분할에는 클래스당 60개의 교육 이미지가 포함되어 있다(나머지는 테스트에 사용된다). 각 분할에서 training images 가 hyper-parameter selection을 위한 validation set로 사용되었다. 우리는 VOC와 달리 Caltech datasets 에서 multiple scales로 계산된 descriptors 스택이 averaging or max-pooling 더 잘 수행하는 것을 발견했다. Caltech images 에서 객체가 전체 이미지를 차지하므로 다중 스케일 이미지 특징이 의미론적으로 다르며(전체 객체 대 객체 부분을 캡처) 스택을 통해 분류자가 이러한 scale-specific representations을 이용할 수 있다.  우리는 scales Q ∈ {256,384,512} 세가지를 사용했다. 

우리의 모델들은 Table11에서 서로 와  state of the art  비교된다. 알 수 있듯이 deeper 19-layer Net-E 는 16-layer Net-D더 잘 수행되며, 이들의 조합은 더 우수하다. Caltech-101에서는 He et al.(2014)의 접근 방식에 대해 경쟁력이 있지만, VOC-2007의 네트워크보다 성능이 훨씬 떨어진다. Caltech-256에서는 기능이 state of the art (Chatfield et al., 2014) 을 큰 폭으로 능가한다(8.6%). 

 

Action Classification on VOC-2012.

PASCAL VOC-2012 action classification task (Everingham et al., 2015)에서 가장 성능이 좋은 image representation (the stacking of Net-D and Net-E features) 을 평가했다. 이 작업은 다음을 수행하는 사람의 bounding box가 주어졌을 때 single image에서 action class를 예측하는 것으로 구성된다. dataset 에는 11개 클래스로 라벨링된 4.6K 학습 이미지가 포함되어 있다. VOC-2012 object classification task와 유사하게 성능은 mAP를 사용한다. 

우리는 두가지 training settings을 고려했다.

(i) 전체 이미지에서 ConvNet features을 계산하고 제공된 bounding box를 무시하며 

(ii) 전체 이미지 및 제공된 bounding box에서 형상을 계산하고 최종 표현을 얻기 위해 형상을 쌓는다.

그 결과는 Table 12과 다른 접근법을 비교된다.

우리의 representation 은 제공된 bounding boxes를 사용하지 않고도, VOC action classification task에서 the state of art를 달성하며, 이미지와 bounding boxes 를 모두 사용할 때 그 결과가 더욱 개선된다. 다른 접근법과 달리, 우리는  task-specific heuristics도 통합하지 않았지만, 그러나 very deep convolutional features 의 representation 에 의존한다. 

 

Other Recognition Tasks

우리 models이 공개 이후, research community 는 보다 얕은 representations을 지속적으로 능가하면서 , 광범위한 이미지 인식 작업에 적극적으로 사용해 왔다. 예를 들어, Girshick et al. (2014) 연구진은 다음과 같이 Krizhevsky et al. (2012) 의 ConvNet 을 16-layer model로 대체하여 object detection results의 the state of the를 달성한다. semantic segmentation (Long et al., 2014), image caption generation (Kiros et al., 2014; Karpathy & Fei-Fei, 2014), texture and material recognition (Cimpoi et al., 2014; Bell et al., 2014)에서 보다 얕은 architecture 에 대한 유사한 이득이 관찰되었다. 

 

 

 

 

 

 

 

C PAPER REVISIONS

 

 

[참고 논문]:

Very deep convolutional networks for large-scale image recognition

 

VGG-16:

참고 : https://bskyvision.com/504

 

[CNN 알고리즘들] VGGNet의 구조 (VGG16)

LeNet-5 => https://bskyvision.com/418 AlexNet => https://bskyvision.com/421 VGG-F, VGG-M, VGG-S => https://bskyvision.com/420 VGG-16, VGG-19 => https://bskyvision.com/504 GoogLeNet(inception v1) =>..

bskyvision.com

 

VGG-19:

 

요즘 파파고도 잘 되어 있어서 파파고 번역을 많이 참고하였다.

반응형

+ Recent posts