[시즌1].Lecture 06_1 - Softmax Regression_Multinomial 개념 소개

* 이 글은 홍콩과기대 김성훈 교수님의 무료 동영상 강좌 "모두를 위한 머신러닝과 딥러닝 강의"를 보고 요점을 정리한 글 입니다.

 

Logistic Regression(논리 회귀)

Logistic Regression(논리 회귀) 이란 Linear Regression(선형회귀)의 Hypothesis(가설)인 Equation (1)을 z 변수라고 하고 이 z변수를 Sigmoid Function(시그모이드 함수)의 변수로 사용한 공식을 Hypothesis로 사용한 Regression 입니다.

 

$$ H(x)=W x $$ (1)

 

Logistic Regression의 결과값은 0과 1사이의 값이 나오며 이것을 통하여 Classification(분류)도 가능하기 때문에 Logistic Classification(논리 분류) 이라고도 부릅니다.

 

Multinomial Classification(다범주 분류)

앞에서 보았던 Logistic Regression(논리 회귀)이 2개의 범주만을 분류하는 것이라고 한다면 Multinomial Classification(다범주 분류)은 3개 이상의 범주가 있고 이것을 분류하는것을 의미합니다.

 

왼쪽 그림에서 볼수 있드시 3개의 범주가 있는 경우에는 각각의 범주를 분류하는 Logistic Regression, 즉 3개의 Logistic Regression으로 표현할 수도 있습니다. 각각의 Logistic Regression은 앞에서 보았듯이 Linear Regression의 Hypothesis인 Equation (1)을 사용합니다. 이 Hypothesis는 입력변수가 2개이므로 행렬으로 표현이 가능한데 이를 표현해보면 Equation (2)로 표현이 가능합니다.

 

$$ H(x) = (w_1 \, w_2) \begin{pmatrix} x_1 \\ x_2 \end{pmatrix} = (w_1 x_1 + w_2 x_2) $$ (2)

 

현재 위의 그림에는 3개의 범주가 있지만 더 많은 범주가 있는 경우에는 위의 가설을 일일이 계산하기가 어려우므로 모든 범주에 대한 Hypothesis들을 합쳐 하나의 행렬식으로 구성합니다. 각각의 Hypothesis를 하나로 합치면 Equation (3)과 같은 형태의 행렬식이 완성됩니다.

 

$$
\begin{pmatrix} 
w_{A1} & w_{A2} \\
w_{B1} & w_{B2} \\
w_{C1} & w_{C2}
\end{pmatrix}
\begin{pmatrix} 
x_1 \\
x_2 
\end{pmatrix}
=
\begin{pmatrix} 
w_{A1} x_1 + w_{A2} x_2 \\
w_{B1} x_1 + w_{B2} x_2 \\
w_{C1} x_1 + w_{C2} x_2
\end{pmatrix}
$$
(3)

 

Logistic Regression 에서는 나온 결과를 Sigmoid Function에 대입하여 0과 1사이의 값을 구해 2가지 범주 중 1개로 분류를 하지만 Multinomial Classification의 경우에는 범주가 여러개이기 때문에 이 Sigmoid Function을 사용하지 않습니다. 대신에 어떠한 공식을 사용하게 되는데 이 공식을 Softmax 라고 부릅니다. 이 Softmax를 사용하면 각각의 항목의 결과가 모두 0부터 1사이의 값이 나오고 모든 항목의 결과값을 합치면 무조건 1으로 됩니다. 이러한 특징을 가지고 있는 Softmax를 사용하기 때문에 Multinomial Classification을 다른말로 Softmax Regression이라고 부르기도 합니다.