[시즌1].Lecture 01 - Machine Learning의 개념과 용어

* 이 글은 홍콩과기대 김성훈 교수님의 무료 동영상 강좌 "모두를 위한 머신러닝과 딥러닝 강의"를 보고 요점을 정리한 글 입니다.

 

Machine Learning (머신 러닝)

프로그램들 중에서는 스팸메일의 필터링과 자동차의 자율주행등과 같이 너무 많은 Rule(규칙)들이 있어야하는 프로그램들이 있습니다. 1959년에 Arthur Samuel은 "이러한 많은 규칙들을 일일이 프로그래밍을 하지 않고 어떤 자료나 현상으로부터 컴퓨터가 자동적으로 학습을 하면 어떨까?"라는 생각을 하게되었고 이 생각은 Machine Learning의 기초가 되었습니다.

 

즉, Machine Learning이란 컴퓨터에게 명시적 프로그래밍 없이 학습할 수 있는 능력을 주는 연구 분야를 의미합니다.

 

Machine Learning(머신 러닝)의 분류

Machine Learning은 데이터를 통하여 학습을 하는것인데 이때 학습하는데 필요한 데이터의 종류에 따라서 Supervised Learning(지도 학습)과 Unsupervised learning(비지도 학습)으로 나누어 집니다.

 

Supervised Learning(지도 학습)

Supervised Learning은 Labeled(분류된) Data들을 사용해서 학습을 하게 되는데 이러한 Labeled Data들을 Training Data Set 이라고도 부릅니다. Supervised Learning에서는 이런 Training Data Set을 사용하여 먼저 학습을 완료한 모델에 입력데이터를 넣어 결과를 도출합니다. 전세계적으로 이슈가 되었던 AlphaGo도 수많은 대국들을 Training Data Set으로 한 Supervised Learning의 일종이라고 볼 수 있습니다. 이 밖에도 Supervised Learning를 사용하는 가장 일반적인 문제들로 Image Labeling, Email Spam Filter, Predicting Exam Score 등이 있습니다. 

Supervised Learning은 나오는 결과에 따라서 Regression(회귀), Classification(분류) 등으로 분류할 수 있습니다. 예를들어 공부한 시간에 따라 점수를 예측하는 Supervised Learning은 Regression, 공부한 시간에 따라서 나오는 등급을 예측하는 Supervised Learning은 Classification이라고 볼 수 있습니다. 

 

Unsupervised Learning(비지도 학습)

학습에서 사용하는 데이터는 Labeled Data 보다는 Unlabeled Data가 더 많은데 이러한 Unlabeled Data를 사용하는 학습을 Unsupervised learning이라고 부릅니다.