반응형

비교대상이 얼마나 비슷한지 확인하는 유사도를 설명합니다. 

변숫값 쌍이 얼마나 '비슷한가'는 컴퓨터가 자동으로 답을 추측하는 과정에서 매우 중요합니다. 

코사인 유사도:

cos세타의 값이 유사도로 표시됩니다. 

코사인 유사도는 문서 사이의 유사도를 계산하는데 사용됩니다 

문서에 나타나는 단어의 출현 빈도를 구해 코사인 유사도 계산식에 적용하는 것입니다. 

 

20211117

상관계수 :

상관관계는 "2개의 확률 변수 사이 분포 규칙의 한계(한쪽이 증가하면 다른 한쪽도 증가하고 한쪽이 감소하면 다른 한쪽도 감소하는 것)로 대부분, 선형 관계의 정도를 의미한다"고 말할 수 있습니다. 

상관계수 r은 1~ -1 사이의 값으로 나타내며 양의 값이면 양의 상관관계를, 음의 값이면 음의 상관관계입니다. 

또한 1이나 -1에 가까울 수록 강한 상관관계가 존재합니다. 

상관관계가 있다.

"상관계수의 절댓값이 1에 가깝다"라는 의미에 주의해야 합니다 .이는 "단순회귀의 점 분포에 불규칙성이 작다"는 의미일 뿐입니다. 

점분포에 불규칙성이 작은 상태라도 상관계수가 0에 가까울 때도 있습니다 

또한 불규칙성이 전혀 없이 표준편차가 0일때는 상관계수를 계산할 수 없습니다. 

순위 상관계수는 순위 정보만을 사용해 상관 계수를 구합니다 .

 

스피어만의 순위 상관계수:

스피어만의 순위 상관계수는 피어슨 상관계수의 특별한 경우입니다. 

같은 순위가 있다면 순위를 보정(같은 순위의 우선순위를 따짐)해야 하지만, 같은 순위의 수가 적을 떄는 순위 보정 없이 상관계수를 구해도 괜찮습니다. 

 

20211118

켄달의 순위 상관계수:

같은 순위인 데이터의 개수 K, 다른 순위인 데이터의 개수 L을 사용해 계산합니다 

켄달의 순위 상관계수는 1~ -1사이의 값이며 , 1이나 -1에 가까울 수록 강한 상관관계가 있습니다 

상관관계가 없는 경우에는 0이 됩니다 .

 

상관함수 :

함수는 특정 시점의 결괏값을 구할 수 있으므로 함수 결괏값 쌍으로 상관계수를 구한 후 이를 함수로 나타내면 됩니다. 

이를 상관함수라고 합니다. 

교차상관함수와 자기상관함수를 자주 사용합니다. 

교차상관함수: 두 함수에서 어떤 시점의 두 함수 결괏값 쌍의 상관계수를 구해 함수로 나타내는 것입니다 

자기상관함수: 두 함수가 같은 함수일 떄 서로 다른 시점의 함수 결괏값 상관계수를 구할 때 사용합니다. 

 

거리와 유사도 :

유사도는 '가깝다','멀다'같은 '거리의 개념'으로도 말할 수 있습니다 

따라서 "거리가 가까울수록 유사도가 높다"라고도 말할 수 있습니다. 

 

편집 거리 edit distance:

'거리'라는 개념으로 유사도를 나타낸 것으로 편집거리 가 있습니다. 

편집거리는 치환, 삽입, 삭제의  세가지 요소에 각각 페널티를 설정하는 형태를 취하고 패널티의 합계를 점수로 설정해 유사도를 규정합니다. 

 

라벤슈타인 거리:

값이 아닌 문자열 사이의 유사도를 나타낼떄 사용하는 Levenshtein distance가 있습니다(보통 라벤슈타인 거리를 일반적인 편집 거리의 개념으로 취급합니다.)

예: 영어 단어 등

 

20211119

해밍거리: Hamming distance

고정 길이의 이진 데이터에서 서로 다른 비트 부호 수를 갖는 문자 개수를 해잉거리라고 합니다.

2개 비트열의 배타적 논리합을 구한 결과에 존재하는 1의 개수가 해밍거리입니다. 

주로 오류 검사에 이용합니다. 이외에도 유전자를 구성하는 염기 서열이나 아미노산 서열의 상동성을 계산하는 데도 해밍거리를 이용합니다.

 

유클리드 거리:

2차원 분산형 차트에서 변숫값 쌍의 관계를 표현할 때 , 점 2개의 좌표 사이 직선거리를 유클리드 거리라고 합니다.

유클리드 거리는 피타고라스의 정리와 같은 식에서 구합니다. 

 

 

마할라노비스 거리 Mahalanobis distance :

유클리드 거리에서 점 수를 늘려 거리를 구하는 것을 말합니다. 

마할라노비스 거리는 데이터의 상관관계를 고려한 여러 개의 점 집단에서 어느 점 까지의 거리를 계산합니다. 

여기에서 구하는 거리는 집단 안 점에서 계산된 표준 편차를 기준으로 해 보정한 유클리드 거리입니다. 

 

자카드 계수:

집합 2개의 유사도를 구할 때 집합 2개의 공통 요소 수를 전체 요소 수로 나눈 것을 자카드 Jacard 계수라고 합니다. 

단순히 벤 다이어그램을 그려서 구할 수 있으며 집합을 구성하는 요소가 수치인지 문자열인지를 고려하지 않아도 되므로 편리합니다. 

 

출처 : 처음 배우는 인공지능

반응형

'개념 정리' 카테고리의 다른 글

유전 알고리즘_20211125  (0) 2021.11.25
그래프 이론_20211120  (0) 2021.11.20
정규화_20211115  (0) 2021.11.14
LOWESS분석_20211114  (0) 2021.11.14
로지스틱 회귀_20211113  (0) 2021.11.13

+ Recent posts