Math & Linear Algebra/Concepts

vector similarity

metamong 2023. 2. 9.

🧙🏻 scalar & vector fundamentals 포스팅에서 scalar와 vector의 개념에 대해 간단히 살펴보았다.

Scalar & Vector (fundamentals)

▶ Linear Algebra 하면? 당연히 알아야 할 기본은 'Scalar(스칼라)' & 'Vector(벡터)' & 'Matrix(행렬)' ◀ 1. Scalar * concepts = "단순히 변수로 저장되어 있는 숫자" → vector 혹은 matrices에 곱해지는 경우 해당 값

sh-avid-learner.tistory.com

🧙🏻 이제는 여러 가지 vector similarity 개념에 대해서 알아보자!

🧙🏻 데이터 분석에서의 vector는 각 관측치의 변수(특성) 정보를 이용하여 관측치를 하나의 vector로 표현한다.

ex)

관측치	A	B
1	50	1
2	60	2
3	100	50

→ 독립변수가 A,B 두 개로 2차원 벡터로 표현 가능하다. 각각의 관측치는 (50,1) (60,2) (100,50)으로 나타낼 수 있음

→ 해당 vector 내의 element에 의해서 vector의 위치가 결정된다.

→ vector간의 유사도는 vector간의 거리 개념과 연관됨 - 유사도 개념을 사용해 ML에 적용 가능

Euclidian Distance

🧙🏻 두 2차원 벡터가 있으면, 벡터는 2차원 상에서 point로 나타낼 수 있으므로, 벡터 간의 거리는 곧 point간의 거리를 뜻한다.

🧙🏻 위 그림에서 p1과 p2 사이의 거리를 수식으로 나타내면 ($v_1 = x_2 - x_1, v_2 = y_2 - y_1$)

$$\overline{p_1p_2} = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2} = \sqrt{v_1^2 + v_2^2} = ||v_2 - v_1||$$

🧙🏻 따라서, 두 벡터 사이의 euclidian distance는 L2 norm 함수인 np.linalg.norm()으로 아래와 같이 나타낼 수 있다.

a = np.array([1,2])
b = np.array([2,2])
c = np.array([-3, -3])

print(np.linalg.norm(b-a)) #1.0
print(np.linalg.norm(c-a)) #6.4031242374328485

Cosine Similarity / Cosine Distance

🧙🏻 위에서 벡터의 크기를 이용한 거리 유사도로 대표적인 예를 euclidian distance를 들었다. 이와 달리, 벡터의 또 다른 성질인 방향을 이용한 방향 유사도도 사용 가능하다.

🧙🏻 벡터의 방향은 원소의 값에 의해서 결정 - 즉 벡터간의 방향이 서로 유사할수록 유사도가 높다는 뜻

🧙🏻 두 벡터의 방향이 유사한 정도는 두 벡터 사이의 각(사잇각)을 이용해서 표현

※ 사잇각이 작을수록 (0에 가까울수록) 방향성이 더 유사

※ 사잇각이 클수록 (180에 가까울수록) 방향이 반대

🧙🏻 이를 수치적으로 표현하기 위해 코사인 함수 사용

🧙🏻 방향성이 유사할수록 → 사잇각이 작아짐 → cos값이 커짐(cos값은 $\cfrac{v_1 · v_2}{|v_1||v_2|}$로 구함)

(np.dot()으로 벡터 간의 내적 연산 / np.linalg.norm()으로 각 벡터의 L2-norm 계산)

🧙🏻 n차원의 두 vector간의 cosine similarity 식을 일반화하면 아래와 같다.

🧙🏻 이를 바탕으로 cosine distance를 계산하면 아래와 같다

cosine distance = $1 - \cos\theta$

🧙🏻 방향성이 유사할수록, cos값이 커지므로, 이를 거리 개념에 적용하기 위해 cosine distance 식을 만들었다.

🧙🏻 방향성이 유사할수록 → 사잇각이 작아짐 → cos값이 커짐 → cosine distance가 작아짐

(따라서! 방향성이 유사할수록 cosine distance가 작아짐 - 즉 가까워짐을 수식으로 표현할 수 있다)

🧙🏻 코드로 나타내자면, 직접 제2코사인법칙을 이용하는 방법 & scipy에서 제공하는 함수를 사용하는 방법이 있다.

a = np.array([1,2])
b = np.array([2,2])
print(1-np.dot(a,b)/(np.linalg.norm(a)*np.linalg.norm(b)))
#0.05131670194948623

import scipy.spatial.distance as dst
print(dst.cosine(a,b))
#0.05131670194948623

🧙🏻 ex) euclidian distance와 cosine similarity 비교

→ euclidian distance 기준으로는 agriculture corpus와 history corpus간 유사도가 fodd corpus와 agriculture corpus간 유사도보다 높다고 볼 수 있지만, cosine similarity 기준으로 보았을 때는, food corpus와 agriculture corpus간 유사도가 더 높다(사잇각이 더 작으므로)

🧙🏻 cosine similarity는 euclidian distance인 단순 거리 개념으로 비교가 권장되지 않는, 더 spare한 data point가 있을 경우 사용된다. 추후 여러 사례를 분석하면서 경험하도록 하자!

Jaccard Distance / Jaccard Index

🧙🏻 0과 1로만 이루어진 binary array에만 적용되는 경우가 많다.

🧙🏻 $\cfrac{C_{1,0} + C_{0,1}}{C_{1,1} + C_{1,0} + C_{0,1}}$

($C_{1,0}$은 같은 자리에 있는 원소들 중에서 첫 번째 vector의 원소값은 1이고, 두 번째 vector의 원소값은 0인 원소 자리의 수)

(위 식은 0과 1로만 이루어진 binary array 한정)

🧙🏻 Cosine Similarity를 바탕으로 유사성이 높을수록 반대로 Cosine Distance 거리가 짧다는 공식을 만들었듯이($1 - cos\theta$)

🧙🏻 Jaccard Index를 바탕으로 두 유사성이 높을 뜻하고, 반대로 Jaccard Distance 거리가 짧다는 공식을 만듦

→ 아래 A와 B가 있을 때, A와 B의 합집합은 $M_{10} + M_{01} + M_{11}$이다.

→ 이 합집합에서 A와 B의 교집합이 차지하는 비율을 Jaccard Similarity Coefficient (J)라고 한다.

→ 반대로 Jaccard distance $d_j = 1 - J$로 표현 (따라서 모두 비율을 뜻하므로 0과 1사이의 값을 가진다)

🧙🏻 $J(A,B), d_j(A,B)$ 공식

ex) 예를 들어 A[1,0,0]과 B[0,1,0]인 두 column vector가 있다고 하면, 두 column vector간의 Jaccard Index는 0/2. 즉 (1,1)인 경우가 없으므로 0이다. 반대로 Jaccard Distance는 1

import scipy.spatial.distance as dst

print(dst.jaccard([1, 0, 0],[1, 1, 0])) #0.5
print(distance.jaccard([1, 0, 0], [1, 2, 0])) #0.5

Hamming Distance

🧙🏻 hamming 거리는, 쉽게 말하면 전체 데이터 개수 중에 서로 같지 않은 쌍의 개수를 뜻한다. 같지 않은 쌍이 많을수록 유사도는 감소하고, 거리는 곧 멀어지는 개념을 수식으로 표현한 것

🧙🏻1-D arrays가 적용되고, 두 array u와 v가 있다면, u와 v가 모두 boolean vector일 경우 hamming distance는 아래와 같이 나타날 수 있다.

(n은 element 개수)

$$\cfrac{C_{1,0} + C_{0,1}}{n}$$

print(dst.hamming([1, 0, 0], [0, 1, 0])) #0.6666666666666666
print(distance.hamming([1, 0, 0], [1, 1, 0])) #0.3333333333333333
print(distance.hamming([1, 0, 0], [3, 0, 0])) #0.3333333333333333

Cityblock Distance(Manhattan Distance)

🧙🏻 L2-norm은 euclidian distance로 나타냈다면, L1-norm은 cityblock distance로 나타낼 수 있다.

🧙🏻 1-D array가 적용되고 두 array가 u와 v라면, 아래와 같이 cityblock distance를 나타낼 수 있다.

$$\sum_{i}^{} |u_i - v_i|$$

🧙🏻 위 그림에서 초록색 선 제외 나머지 모든 색깔의 선은 cityblock distance를 나타낸다. 두 점 사이에 여러 block을 가로와 세로 방향으로만 갈 수 있다는 전제 하에 고안된 거리

🧙🏻 vector로 표현하면 여러 축으로 표현했을 때 각 축에 대응되는 값 사이의 거리를 축 별로 누적해서 더한 결과이다.

print(dst.cityblock([1, 0, 0], [0, 1, 0])) #2
print(dst.cityblock([1, 0, 0], [0, 2, 0])) #3

* 출처1) https://en.wikipedia.org/wiki/Cosine_similarity

* 출처2) Jaccard Index https://en.wikipedia.org/wiki/Jaccard_index

* 출처3) 대학원 사전교육 - 수학 기초

저작자표시 비영리 변경금지 (새창열림)

'Math & Linear Algebra > Concepts' 카테고리의 다른 글

SVD(Singular Value Decomposition) (0)	2023.02.20
eigendecomposition (0)	2023.02.19
Linear Equation & Linear System / Rank & det(A) (0)	2023.02.01
Matrix (fundamentals) (0)	2022.07.31
Odds Ratio & log(Odds Ratio) (0)	2022.07.11