[시즌1].Lecture 07_2 - ML의 실용과 몇가지 팁_Training/Testing Data Set

* 이 글은 홍콩과기대 김성훈 교수님의 무료 동영상 강좌 "모두를 위한 머신러닝과 딥러닝 강의"를 보고 요점을 정리한 글 입니다.

 

Training/Test Data Set(학습/테스트 데이터셋)

Machine Learning(기계 학습) 에서는 Data Set을 사용해서 학습을 하게됩니다. 만약 보유하고 있는 Data Set 전부를 사용해서 학습을 마친 후 같은 데이터를 입력해서 결과를 얻는다면 100%의 정확도를 얻을 가능성이 있지만 이것은 단순히 데이터를 기억하고 있는 것 일수도 있기 때문에 좋은 방법이 아닙니다.

 

이러한 이유 때문에 일반적으로는 보유하고 있는 Data Set에서 약 70%를 학습하는 데 사용하고 나머지 30%를 학습시킨 모델을 테스트 하는데 사용합니다. 이것을 각각 Training Data Set, Test Data Set 이라고 부릅니다. 

 

또한 학습을 하는데 Learning Rate와 Regularization Strength를 적절한 값으로 조절해줄 필요가 있습니다. 이 값들을 조절하는데에도 데이터의 일부가 필요하기 때문에 위에서전체 Training Data Set의 일부를 따로 분리하여 Validation을 하는데 사용합니다.

 

이런 모든 것들을 통해서 모델이 학습되고 학습된 모델이 예측한 값과 실제 데이터 값을 비교해서 Accuracy(정확도) 확인이 가능합니다.

 

Online Learning(온라인 학습)

데이터의 크기가 많을 때 먼저 데이터를 작은 단위로 나누어 줍니다. 이렇게 나눈 데이터들 중 첫번째 데이터를 가지고 학습을 하여 생성된 모델이 그 다음 데이터를 가지고 학습한 결과로 인하여 조금 바뀌게 되는 학습법을 Online Learning(온라인 학습) 이라고 합니다. 이 Online Learning의 장점은 데이터가 증가하였을 때 처음부터 모든 데이터를 대상으로 학습하는 것이 아닌 추가된 데이터만 학습하면 그 결과가 모델에 반영된다는 점 입니다.