[시즌1].Lecture 04 - 여러개의 입력의 Linear Regression

* 이 글은 홍콩과기대 김성훈 교수님의 무료 동영상 강좌 "모두를 위한 머신러닝과 딥러닝 강의"를 보고 요점을 정리한 글 입니다.

 

기본적인 Linear Regression

기본적인 Linear Regression(선형 회귀)의 Hypothesis(가설)은 Equation (1)으로 표현하고 여기서 사용하는 Cost Function(비용 함수)은 Equation (2)로 표현합니다.

 

$$ H(x)=W x+b $$ (1)
$$ \operatorname{cost}=\frac{1}{m} \sum_{i=1}^m\left(H\left(x^{(i)}\right)-y^{(i)}\right)^2 $$ (2)

 

Multi-Variable Linear Regression

기본적인 Linear Regression은 1개의 입력 변수를 사용하는 Regression 입니다. 하지만 수많은 Linear한 현상을 중에서 1개의 변수에 따라 결과가 달라지는 것 보다는 여러개의 변수의 영향에 의해 결과가 달라지는 현상이 더 많습니다. 예를들어 학생이 1학기 동안 2번의 퀴즈와 1번의 중간고사를 보았는데 이 3개의 점수를 가지고 기말고사의 성적을 예측하는 문제는 3개의 변수를 갖는 Linear Regression 입니다. 이렇듯 Multi-Variable Linear Regression(여러 변수를 갖는 선형 회귀)는 이름 그대로 여러개의 변수를 갖는 Linear Regression 이라고 할 수 있습니다.

 

Multi-Variable Linear Regression의 기본적인 개념은 일반 Linear Regression과 같습니다. 한가지 주의해야 할 점은 여러개의 변수를 갖기 때문에 각각의 변수마다 다른 W 값을 가져야 한다는 점입니다. 이것을 유의해서 Multi-Variable Linear Regression의 Hypothesis를 적어보면 Equation (3)과 같은 형태의 공식을 확인할 수 있습니다.

 

$$ H(x_1, x_2, x_3, \ldots, x_n) = w_1 x_1 + w_2 x_2 + w_3 x_3 + \cdots + w_n x_n + b $$ (3)

 

물론 Hypothesis를 Cost Function에 대입하는 것도 같기 때문에 Multi-Variable Linear Regression의 Cost Function은 Equation (4)와 같은 형태의 공식을 확인할 수 있습니다.

 

$$ \text{cost}(W, b) = \frac{1}{m} \sum_{i=1}^{m} (H(x_1^{(i)}, x_2^{(i)}, x_3^{(i)}, \ldots, x_n^{(i)}) - y^{(i)})^2 $$ (4)

 

이것으로도 충분히 계산이 가능하지만 학습을 위한 Training Data Set이 많을 경우 Hypothesis를 일일이 적는것은 어렵습니다. 하지만 입력데이터와 W를 행렬의 형태로 둔다면 1개의 식만으로 모든 데이터의 가설을 표현할 수 있습니다. 위에서 살펴본 Multi-Variable Linear Regression의 Hypothesis는 Equation (3)인데 이는 Equation (5)로 표현이 가능합니다.

 

$$
\begin{pmatrix}
w_1 \\
w_2 \\
w_3 \\
\vdots \\
w_n \\
\end{pmatrix}
\begin{pmatrix}
x_1 & x_2 & x_3 & \ldots & x_n
\end{pmatrix}
$$
(5)

 

이는 Equation (6)이라고 볼 수 있습니다. (간단하게 보기 위해 b 생략)

 

$$
H(X) = \begin{pmatrix}
x_1 & x_2 & x_3 & \ldots & x_n
\end{pmatrix}
\begin{pmatrix}
w_1 \\
w_2 \\
w_3 \\
\vdots \\
w_n \\
\end{pmatrix}
$$
(6)

 

하지만 위의 식은 1개의 Training Data만을 표현한 것입니다. 이것을 m개의 데이터들 중에서 첫번째 데이터라고 생각하고 다시 표현한다면 Equation (7)로 바꿀 수 있고 m개의 모든 데이터들을 전부 이 배열식의 형태로 합치면 Equation (8)의 형태로 표현이 가능합니다.

 

$$
\begin{pmatrix}
x_{11} & x_{12} & x_{13} & \ldots & x_{1n}
\end{pmatrix}
\begin{pmatrix}
w_1 \\
w_2 \\
w_3 \\
\vdots \\
w_n \\
\end{pmatrix}
$$
(7)
$$
\begin{pmatrix}
x_{11} & x_{12} & x_{13} & \ldots & x_{1n} \\
x_{21} & x_{22} & x_{23} & \ldots & x_{2n} \\
x_{31} & x_{32} & x_{33} & \ldots & x_{3n} \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
x_{m1} & x_{m2} & x_{m3} & \ldots & x_{mn} \\
\end{pmatrix}
\begin{pmatrix}
w_1 \\
w_2 \\
w_3 \\
\vdots \\
w_n \\
\end{pmatrix}
$$
(8)

 

즉, Equation (9)가 m개의 Training Data Set의 Hypothesis이고 이때의 X와 W는 Equation (10)과 같습니다.

 

$$ H(x)=WX $$ (9)
$$
X = \begin{pmatrix}
x_{11} & x_{12} & x_{13} & \ldots & x_{1n} \\
x_{21} & x_{22} & x_{23} & \ldots & x_{2n} \\
x_{31} & x_{32} & x_{33} & \ldots & x_{3n} \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
x_{m1} & x_{m2} & x_{m3} & \ldots & x_{mn} \\
\end{pmatrix}
\quad
W = \begin{pmatrix}
w_1 \\
w_2 \\
w_3 \\
\vdots \\
w_n \\
\end{pmatrix}
$$
(10)