반응형

NN의 꽃 RNN 이야기

sequence data

nlp

음성

 

이전의 것이 현재에 영향을 미친다.

 

함수를 가지고 계산한다.

각각의 weight를 더한다.

 

one-hot encoding

마지막 비디오 같은 경우

 

layer를 여러개 쓸 수 있다.

복잡한 학습이 가능하다.

반응형
반응형

ConvNet의 Conv 레이어 만들기

fully-connected layer

convolutional network

입력을 여러개로 나누고 하나로 합친다.

 

고양이 

입력을 나누어서 뉴런

 

 

ReLU

FC를 최종으로 

 

처리 filter로 

filter size는 혼자 정의 할 수 있다.

filter은 한 값을 만들어 낸다.

 

 

이것을 사용해서 만든다.

똑같은 filter를 가지고 옆으로 넘기면서 아래로 하면서 

하나의 필터 같은 값을 가지고 한 값들을 가져오게 된다.

padding

padding 해서 입력과 출력 사이즈 같아지게 한다.

 

ConvNet Max pooling 과 Full Network

maxpooling(Sampling)

sampling: 전체 값 중에서 하나 뽑는다.

 

Google Cloud ML with Examples 1

모든 것이 cloud에 일어난다.

ConvNet의 활용 예

LeNet-5

AlexNet

GoogleNet : deep 하게 

ResNet : 3.5% 이것은 ensumble로 해서 하였다.

skip connection 

identity mapping

resisual connection

layer깊어지면 학습하기 힘들다.

 

 

반응형
반응형

XSigmoid 보다 ReLU가 더 좋아

3단

 

층을 올렸지만 오히려 결과가 안좋아졌다. 

원인은 아래와 같다.

미분 전체가 어려워서 하나씩 미분한다.

 

곱해지면 값이 점점 작아진다. 

미분하면 

기울기가 사라진다.

 

 

sigmoid보다 다른것 쓰는게 좋다.

 

1보다 작은 값을 곱해지니깐 chain rule에 의해서 작아진다

sigmoid 대신 Relu를 넣는다.

sigmoid 대신 relu 로 하는데 마지막 단 제외한다.

 

Weight 초기화 잘해보자

 

초기값을 어떻게 할 것인가 ?

초기값을 안해서 

 

0으로 주면 학습이 전혀 안된다.

최저가 되도록 weight를 해야한다.

 

pre-training

2개 층씩 본다.

값이 들어가면 초기화 값으로 사용한다.

 

이미 가지고 있는 weight들이 잘 학습되여있다.

Xavier initialization : 입력과 출력에 맞게 한다.

여러가지 해보고 그 중에서 잘 되는것을 하면 된다.

Dropout 과 앙상블

한번도 해보지 않는 것에 대해서는 정확도가 낮다.

에러가 떨어지고 학습이 된것 처럼 보인다.

아주 깊게 만들 수록 overfiting할 가능성이 높다.

l2 regularizatin

0.1하면 굉장히 중요하게 생각한다.

 

dropout

random 하게 줄인다.

random하게 햇 쉬게 해준다.

 

몇 프로 랜덤하게 고른다. 보통 0.5 사용한다.

학습하는 동안만 하고 뺴고 학습하는데 

실제로는 다 가져온다.

모델 사용할 때는 전체 다 가져온다.

 

기계가 많을 때 학습 시킬 때 많을 때 

결과가 조금 다르게 나오지만 마지막에 합친다.

 

레고처럼 넷트웍 모듈을 마음껏 쌓아 보자

네트워크 있으면 쌓으면 된다.

다양하게 만들 수 있다.

 

resnet

아래것은 convolutional network이다.

 

 

반응형
반응형

XOR 문제 딥러닝으로 풀기

하나의 unit으로는 xor절대 풀 수 없다.

여러 개 있을 때 풀 수 있다

하지만 각각에 들어가 있는 weight, bias학습 할 것인가 ?

 

하나의 network은 하나의 unit

 

구현 가능한지 확인 한다.

 

특별편: 10분안에 미분 정리하기

backpropagation

미분이 들어간다.

 

상수함수를 미분하면 0이 나온다.

 

편미분

 

복잡한 미분을 구할 때 각각 구하면 된다.

딥넷트웍 학습 시키기 (backpropagation)

그 점에서 기울기를 구해서 계속 내려가는 최종적으로 global minimum에 도달 할 수 있다.

기울기 미분 값이 필요한다.

간단한 것 이해하면 어려운 것 도 알 수 있다.

'

미분의 의미:

sigmoid 미분

https://questionet.tistory.com/23

 

밑바닥부터 시작하는 딥러닝 1 167페이지

 

 

cost함수의 미분

tensorflow는 각각의 그래프로 만들었다. 미분을 하기위해서 backpropagation

 

sigmoid 미분

https://www.youtube.com/watch?v=rQmxoLzXYzY

 

반응형
반응형

반응형
반응형

딥러닝의 기본 개념: 시작과 XOR 문제

input weight 곱 

합쳐주고 sum

bias 더해줘서 그 다음으로 전달한다.

 

이상이 되면 활성화 아니면 비 활성화

 

신호가 들어와서 어떤 값으로 곱해지고 weight + bias  activation function 이 있어서 특정 값 보다 크면 활성화

 

AND /OR / NAND => Linear 로 구분할 수 있다.

 

xor

값이 같으면 0 다르면 1로 된다.

 

perceptron

여러개 쌓이는 것 가능하는데 w,b 학습 할 수 없다.

 

1986 년도에 backpropagation으로 해결 가능하다.

LeNet -5 Lecun

Convolutional Neural Networks

조금씩 잘라서 나중에 합친다.

 

backpropagation 몇개는 잘 되는데 층이 많을 수록 성능이 떨어진다.

 

딥러닝의 기본 개념2: Back-propagation 과 2006/2007 ‘딥’의 출현

몇개가 잘 안되는것은 잘 되는데 층이 깊은 것은 잘 안된다.

LeCun 캐나다로 

초기값을 잘 못 줬다 . 2006

2007 년에는 초기값을 잘 주면 깊이 가는 것 풀 수 있다.

IMGNET 

2012 AlexNet

 

반응형
반응형

학습 rate, Overfitting, 그리고 일반화 (Regularization)

cost function 최소화하는것 

gradient descent 

 

learning rate:

large: overshooting step 이 크서 처음에 시작해서 밖으로 튕겨나갈 수도 있다.

발산

small: takes too long, stops at local minimum

cost 함수 

 

Data(X) preprocessing for gradient descent

다를 경우 외국된 현상이 생긴다.

zero-centred data: 중심이 0으로 

normalized data:

 

데이터중에 차이가 큰것 있는지 확인

 

overfitting

머신러닝은 학습을 통해서 만들기 떄문에 학습 데이터에 너무 많은 것

실제로 테스트 데이터는 안 맞을 수 있다.

solution:

데이터 많이 수집하기 

reduce the number of features

regularization

weight 큰 값을 가질 경우 구불어진다.

 

 

Training/Testing 데이타 셋

데이터 가지고 학습을 시켰다.

training 

testing

regularization에 람다를 학습할떄 

 

mnist data set

우편번호 

 

반응형
반응형

Multinomial 개념 소개

linear regression

logistic regression

 

multinomial classification

binary classification으로 가능하다.

3개 독립된 classifier가지고 가능하다.

 

 

하나로 합쳐서 

 

Cost 함수 소개

argmax

 

one -hot encoding

hypothesis

cost function

 

label 정답

두개 사이의 차이

cross entropy cost function

cost function 은 예측이 맞을 때 작게 하고 

크게 할 때는 차이 많이 나게 하게 한다.

하나의 예측에 대해서 cost function

 

계산을 해서 평균을 한다.

 

cost 최소하는것 gradient descent

 

반응형

+ Recent posts