728x90
반응형

t-SNE

t-Distributed Stochastic Neighbor Embedding:

정규분포를 따르는 확률로 고차원 데이터의 거리를 계산해 저차원으로 옮깁니다. 

그리고 자유도가 1인 t분포에 적용해서 차이가 작은지를 확인합니다. 

t분포는 정규분포보다 그래프의 아래가 긴 분포이므로 t분포를 이용해 저차원으로 투영하면 거리가 가까운 데이터의 상태는 유지하고 거리가 먼 관계에 있는 데이터의 상태는 더 멀게 만들 수 있습니다. 

주성분 분석보다 더 깔끔하게 클러스터 분석을 하는 방법이므로 많이 사용합니다. 

 

 

출처 : 처음 배우는 인공지능

반응형

'개념 정리' 카테고리의 다른 글

독립 성분 분석  (0) 2021.12.13
특잇값 분해_20211213  (0) 2021.12.13
주성분 분석_2021121  (0) 2021.12.13
클러스터 분석_20211208  (0) 2021.12.09
베이즈 정리_20211130  (0) 2021.11.30
728x90
반응형

주성분 분석

Principal Compenent Analysis PCA

클러스터 분석과 함께 자주 이용하는 데이터 처리 방법으로  

고차원의 데이터를 저차원으로 정리해 차원 압축(차원 감소)을 실행합니다. 

고유 벡터 

고윳값: 주성분을 구할 때 함께 얻는 각 고윳값으로 기여율을 결정합니다. 

 

주성분 분석과 특잇값 분해는 전체 데이터를 균일하게 분포하는 백색화 Whitening와 차원 압축을 처리합니다. 

 

출처 : 처음 배우는 인공지능

반응형

'개념 정리' 카테고리의 다른 글

특잇값 분해_20211213  (0) 2021.12.13
t-SNE_20211212  (0) 2021.12.13
클러스터 분석_20211208  (0) 2021.12.09
베이즈 정리_20211130  (0) 2021.11.30
기저 함수_20211129  (0) 2021.11.29
728x90
반응형

클러스터 분석

cluster analysis

자율 학습의 대표적인 접근 방법으로 클러스터 분석이 있습니다. 

평면상에 그러져 있는 점들을 그룹으로 만듭니다. 

그룹으로 만들 때는 점들 사이가 어느 정도 떨어져 있는지를 지표로 삼습니다. 

k- 평균 알고리즘

 

출처 : 처음 배우는 인공지능

반응형

'개념 정리' 카테고리의 다른 글

t-SNE_20211212  (0) 2021.12.13
주성분 분석_2021121  (0) 2021.12.13
베이즈 정리_20211130  (0) 2021.11.30
기저 함수_20211129  (0) 2021.11.29
유전 알고리즘_20211125  (0) 2021.11.25
728x90
반응형

베이즈 정리

베이즈 통계학은 조건부 확률에 관한 법칙인 베이즈 정리를 기본으로 둡니다. 

 

1201

사후분포의 특징을 정하는 매개변수 세가지가 있다 

베이즈 추정량

사후 메디안 추정량

최대 사후 확률 (MAP) 추정량

 

컬레 사전분포

 

1202

베이즈 추론을 실행하려고 구축한 모델은 여러 번 계산을 반복하는 것이 중요합니다. 

실제로 최적화된 '점'을 구하는 최소제곱법과 베이즈 최대가능도 추정이 아니라면 추론 결과에 수렴할때 까지 반복해서 계산하는데 많은 컴퓨팅 자원이 필요없기도 합니다. 

하지마 '분포'를 구하는 현대 베이즈 추론에서는 분석할 수 없는 함수를 대상으로도 예측과 최적화 작업을 실행해야 합니다 . 사람의 힘으로는 어려울 뿐만 아니라 실행횟수를 대폭 늘려줘야 할 필요가 있습니다 .

실행 횟수를 늘려야 할 때는 조금씩 다른 매개변수를 무작위로 샘플링할 수 있어야 합니다.

 

1203

몬테카를로 방법 Monte Carlo method:

앞에서 설명한 원주율의 근삿값 계산은  몬테카를로 방법이라고 하는 알고리즘 의 한 예입니다. 

 

1204

베이즈 계층 모델:

마르코프 연쇄 몬테카를로 방법을 활용하면 매개변수의 차원이 높은 복잡한 모델을 처리할 수 있습니다. 

특히 베이즈 계층 모델 은 지금까지 소개한 모델 중에서 특히 자유도가 높은 통계 모델을 설계할 수 있습니다. 

 

20211207

베이즈 네트워크

전문가 시스템은 주어진 조건에 적합한 답변을 합니다만 추론 규칙이 정교하지 않다는 약점이 있습니다 . 그래서 확률 개념을 도입해 추론 규칙을 개선한 전문가 시스템으로 제안한 것을 베이즈 네트워크라고 합니다. 

베이즈 네트워크는 불확실성을 포함한 사건의 예측과 관측 결과를 이용해 장애 진단에 사용하는 그래픽 확률 모델입니다. 각 노드는 확률 변수이며 확률 변수 사이의 확률 의존 관게 정보를 유항 그래프로 나타내는 네트워크로 시스템을 구성합니다. 

그런테 네트워크가 복잡해질수록 조건부 확률 데이블 역시 일반적인 네트워크 구조는 확률 추론이 어려워 다양한 방법을 사용해서 사후 확률을 구해야 한다는 단점이 있다. 

또한 무향 그래프이면서 루프가 없는 단일 결합 네트워크라면 베이즈 정리를 이용해 비교적 쉽게 임의의 사후 확률을 구할 수 있지만 그렇지 않은 여러 개의 결합 네트워크는 확률 계산이 복잡해져 계산 비용이 증가합니다. 

 

20211215

베이즈 정리는 학습과의 친화성이 높아 지도 학습 알고리즘에 이용합니다. 

특히 베이즈 필터 중에서 단순(나이브 )베이즈 분류 : Naive Bayes Classification 가 유명합니다. 

베이즈 필터를 이용하는 대표적인 예는 스팸 메일 판정이나 문서의 카테고리 분류입니다. 

베이즈 필터를 이용하면 확률 통계를 기반에 두고 스팸 메일의 특징을 분석하고 분류할 수 있습니다. 

 

 

출처 : 처음 배우는 인공지능

반응형

'개념 정리' 카테고리의 다른 글

주성분 분석_2021121  (0) 2021.12.13
클러스터 분석_20211208  (0) 2021.12.09
기저 함수_20211129  (0) 2021.11.29
유전 알고리즘_20211125  (0) 2021.11.25
그래프 이론_20211120  (0) 2021.11.20
728x90
반응형

기저 함수

확률분포 모델에 따라 연속 확률 분포와 이산 확률분포로 나뉩니다. 

정규분포

감마분포

지수분포

베타분포

디리클레분포

이항분포

음이항분포 

푸아송분포

카이제곱분포

초기하분포

코시분포

로지스틱분포

베이불분포

 

 

출처 : 처음 배우는 인공지능

반응형

'개념 정리' 카테고리의 다른 글

클러스터 분석_20211208  (0) 2021.12.09
베이즈 정리_20211130  (0) 2021.11.30
유전 알고리즘_20211125  (0) 2021.11.25
그래프 이론_20211120  (0) 2021.11.20
유사도_20211116  (0) 2021.11.15
728x90
반응형

유전알고리즘

생물이 살아가면서 교차 , 돌연변이, 도태 등으로 환경에 적합하도록 진화한다는 가설에 기반을 둔 최적화 기법을 유전 알고리즘이라고 합니다. 

시간 축 상에서 여러 번 계속을 반복해 단계수를 쌓아서 궁극적르오 구하고 싶은 결과에 수렴시켜 나갑니다.

집단성 : 개체 다수를 집단으로 설정해 동시에 탐색할 때는 병렬 연산합니다. 

탐구 가능성 : 탐색 공간(설명 변수와 목적 변수 등이 취할 수 있는 값의 범위)의 자세한 사전 지식을 요구하지 않습니다.

다양성: 집단에 있는 개체의 다양성으로 노이즈와 동적 변화에 적응성을 갖게 되므로 견고한 답을 얻을 수 있습니다.

 

1126

도태

교차

돌연변이:

 

 

 

출처 : 처음 배우는 인공지능

반응형

'개념 정리' 카테고리의 다른 글

베이즈 정리_20211130  (0) 2021.11.30
기저 함수_20211129  (0) 2021.11.29
그래프 이론_20211120  (0) 2021.11.20
유사도_20211116  (0) 2021.11.15
정규화_20211115  (0) 2021.11.14
728x90
반응형

그래프 이론

 

그래프 : 

그래프 라고 하면 막대그래프나 파이 그래프 등 표 형식의 데이터를 그림으로 나타낸 것을 연상하는 분을 많을 겁니다. 

그러니 여기에서 말하는 그래프는 점과 선을 연결한 것을 의미합니다. 

점을 꼭지점, 정점 Vertext, 노드 node라고 하면 , 선을 변 또는 간선 Edge이라고 합니다. 

연결 그래프 : Connected Grapah : 모든 정점 사이를 연결한 (경로가 존재하는)그래프

비연결 그래프:

고립 정점 Isolated vertex: 어떤 정점도 연결되지 않은 정점

 

평행 변 Parallel edge: 그래프에서 정점 2개가 2개 이상의 변으로 연결되는 변 

양 끝이 같은 변 self-loop: 1개의 정점에 시작과 끝이 연결된 변이 존재하면 

 

무향 그래프:

유향 그래프: Directed Graph :

그래프의 변에 방향이 존재하면 

특히 어떤 정점에서 출발 한 후 해당 정점에 돌아오는 경로가 하나인 그래프는 유항 비순환 그래프 directed acylic graph, DAG

 

무향 그래프 : Undirected graph 

변에 방향이 존재하지 않는 그래프는 무향 그래프 

 

가중 그래프 Weighted Graph : 유향 그래프 중 가중치 정보가 추가된 그래프는 

변에 가중치 숫자를 적어 가중치를 표현합니다. 

변에 숫자를 적는 것 외에 선의 굵기로 가중치를 나타낼 수 도 있다. 

간선 가중 그래프 : 가중치는 정점에도 적을 수 있으므로 변에 가중치를 나타내면 간선 가중 그래프 Edge-weighted Graph

정점 가중 그래프 : Vertex-Weighted Graph: 정점에 가중치를 나타내면

 

그래프의 행렬 표현 :

인접 행렬 Adjacency matrix: 정점 사이의 관계를 나타내는 행렬

근접 행렬 incidence matrix: 정점과 변의 관계를 나타내는 행렬

 

20211121

트리 구조 그래프 :

그래프에 있는 여러 개 정점에서 출발점이 되는 정점으로 돌아가는 경로가 유일하며, 출발점이 되는 정점이 막다른 정점(더는 새로운 변을 통해 이동할 수 없는 정점)인 그래프를 트리 구조라고 합니다. 

출발점이 있는 정점은 루트Root(뿌리)라고 합니다. 

 

20211122

그래프 탐색과 최적화

탐색 트리 구축: 

이진 탐색 트리 

깊이 우선 탐색 Depth-first search DFS: 루트 노드에 연결된 경로 중 하나를 선택해 막다른 노드에 도착할 때 까지 일단 탐색한 후 , 다시 바로 앞 노드로 이동해 다음 막다른 노드까지 탐색을 반복합니다. 

너비 우선 탐색 Breath-first search BFS:루트 노드와 연결된 노드를 모두 탐색한 다음 바로 다음에 깊이의 노드들을 전부 탐색하는 과정을 반복합니다. 

 

 

20211123

탐색 트리의 탐색에 필요한 목록:

1. 탐색 대상 노드와 연결된 주변 노드를 포함하는 탐색 노드의 목록 : 오픈 리스트

2. 탐색을 종료한 노드의 목록 : 클로즈드 리스트 , 클로즈드 리스트에 도달 목표 노드가 포함되면 탐색을 종료합니다. 

 

깊이 우선 탐색은 노드를 오픈 리스트의 맨 위에 추가해 첫번째 노드부터 차례대로 탐색합니다. 

LIFO

FIFO

 

20211125
동적계획법:Dynamic Programming

 

 

 

출처 : 처음 배우는 인공지능

반응형

'개념 정리' 카테고리의 다른 글

기저 함수_20211129  (0) 2021.11.29
유전 알고리즘_20211125  (0) 2021.11.25
유사도_20211116  (0) 2021.11.15
정규화_20211115  (0) 2021.11.14
LOWESS분석_20211114  (0) 2021.11.14
728x90
반응형

비교대상이 얼마나 비슷한지 확인하는 유사도를 설명합니다. 

변숫값 쌍이 얼마나 '비슷한가'는 컴퓨터가 자동으로 답을 추측하는 과정에서 매우 중요합니다. 

코사인 유사도:

cos세타의 값이 유사도로 표시됩니다. 

코사인 유사도는 문서 사이의 유사도를 계산하는데 사용됩니다 

문서에 나타나는 단어의 출현 빈도를 구해 코사인 유사도 계산식에 적용하는 것입니다. 

 

20211117

상관계수 :

상관관계는 "2개의 확률 변수 사이 분포 규칙의 한계(한쪽이 증가하면 다른 한쪽도 증가하고 한쪽이 감소하면 다른 한쪽도 감소하는 것)로 대부분, 선형 관계의 정도를 의미한다"고 말할 수 있습니다. 

상관계수 r은 1~ -1 사이의 값으로 나타내며 양의 값이면 양의 상관관계를, 음의 값이면 음의 상관관계입니다. 

또한 1이나 -1에 가까울 수록 강한 상관관계가 존재합니다. 

상관관계가 있다.

"상관계수의 절댓값이 1에 가깝다"라는 의미에 주의해야 합니다 .이는 "단순회귀의 점 분포에 불규칙성이 작다"는 의미일 뿐입니다. 

점분포에 불규칙성이 작은 상태라도 상관계수가 0에 가까울 때도 있습니다 

또한 불규칙성이 전혀 없이 표준편차가 0일때는 상관계수를 계산할 수 없습니다. 

순위 상관계수는 순위 정보만을 사용해 상관 계수를 구합니다 .

 

스피어만의 순위 상관계수:

스피어만의 순위 상관계수는 피어슨 상관계수의 특별한 경우입니다. 

같은 순위가 있다면 순위를 보정(같은 순위의 우선순위를 따짐)해야 하지만, 같은 순위의 수가 적을 떄는 순위 보정 없이 상관계수를 구해도 괜찮습니다. 

 

20211118

켄달의 순위 상관계수:

같은 순위인 데이터의 개수 K, 다른 순위인 데이터의 개수 L을 사용해 계산합니다 

켄달의 순위 상관계수는 1~ -1사이의 값이며 , 1이나 -1에 가까울 수록 강한 상관관계가 있습니다 

상관관계가 없는 경우에는 0이 됩니다 .

 

상관함수 :

함수는 특정 시점의 결괏값을 구할 수 있으므로 함수 결괏값 쌍으로 상관계수를 구한 후 이를 함수로 나타내면 됩니다. 

이를 상관함수라고 합니다. 

교차상관함수와 자기상관함수를 자주 사용합니다. 

교차상관함수: 두 함수에서 어떤 시점의 두 함수 결괏값 쌍의 상관계수를 구해 함수로 나타내는 것입니다 

자기상관함수: 두 함수가 같은 함수일 떄 서로 다른 시점의 함수 결괏값 상관계수를 구할 때 사용합니다. 

 

거리와 유사도 :

유사도는 '가깝다','멀다'같은 '거리의 개념'으로도 말할 수 있습니다 

따라서 "거리가 가까울수록 유사도가 높다"라고도 말할 수 있습니다. 

 

편집 거리 edit distance:

'거리'라는 개념으로 유사도를 나타낸 것으로 편집거리 가 있습니다. 

편집거리는 치환, 삽입, 삭제의  세가지 요소에 각각 페널티를 설정하는 형태를 취하고 패널티의 합계를 점수로 설정해 유사도를 규정합니다. 

 

라벤슈타인 거리:

값이 아닌 문자열 사이의 유사도를 나타낼떄 사용하는 Levenshtein distance가 있습니다(보통 라벤슈타인 거리를 일반적인 편집 거리의 개념으로 취급합니다.)

예: 영어 단어 등

 

20211119

해밍거리: Hamming distance

고정 길이의 이진 데이터에서 서로 다른 비트 부호 수를 갖는 문자 개수를 해잉거리라고 합니다.

2개 비트열의 배타적 논리합을 구한 결과에 존재하는 1의 개수가 해밍거리입니다. 

주로 오류 검사에 이용합니다. 이외에도 유전자를 구성하는 염기 서열이나 아미노산 서열의 상동성을 계산하는 데도 해밍거리를 이용합니다.

 

유클리드 거리:

2차원 분산형 차트에서 변숫값 쌍의 관계를 표현할 때 , 점 2개의 좌표 사이 직선거리를 유클리드 거리라고 합니다.

유클리드 거리는 피타고라스의 정리와 같은 식에서 구합니다. 

 

 

마할라노비스 거리 Mahalanobis distance :

유클리드 거리에서 점 수를 늘려 거리를 구하는 것을 말합니다. 

마할라노비스 거리는 데이터의 상관관계를 고려한 여러 개의 점 집단에서 어느 점 까지의 거리를 계산합니다. 

여기에서 구하는 거리는 집단 안 점에서 계산된 표준 편차를 기준으로 해 보정한 유클리드 거리입니다. 

 

자카드 계수:

집합 2개의 유사도를 구할 때 집합 2개의 공통 요소 수를 전체 요소 수로 나눈 것을 자카드 Jacard 계수라고 합니다. 

단순히 벤 다이어그램을 그려서 구할 수 있으며 집합을 구성하는 요소가 수치인지 문자열인지를 고려하지 않아도 되므로 편리합니다. 

 

출처 : 처음 배우는 인공지능

반응형

'개념 정리' 카테고리의 다른 글

유전 알고리즘_20211125  (0) 2021.11.25
그래프 이론_20211120  (0) 2021.11.20
정규화_20211115  (0) 2021.11.14
LOWESS분석_20211114  (0) 2021.11.14
로지스틱 회귀_20211113  (0) 2021.11.13

+ Recent posts