[국제 저널 논문 요약] Benchmarking of Load Forecasting Methods Using Residential Smart Meter Data

0. Paper Information

  • Title: Benchmarking of Load Forecasting Methods Using Residential Smart Meter Data
  • Authors: João C. Sousa, Hermano Bernardo
  • Publication: Applied Sciences
  • Published Year: 2022

 

1. Introduction

Background

  • 스마트 미터 데이터는 전력 부문의 다양한 관계자들에게 중요성을 입증함
    • 송전 및 배전 운영자는 개별 부하 프로필을 통해 다양한 지역의 미래 전력수요를 예측할 수 있음
      • 공급과 수요의 물리적 균형을 제공하고 그리드 운영을 조정하여 전력 손실, 전압 하강, 전력 품질 이벤트를 최소화하며 전력망의 내구성을 높이고 비용을 줄일 수 있음
    • 전력 공급 업체는 전력 시장에서 구매할 때 다양한 시간대 별로 예상 누적 전력량을 추정할 수 있음
      • 각 소비자 프로필에 따라 계약 전력, 정액제/시간대별/동적 요금 등 다양한 상업 옵션을 제안할 수 있음
    • 최종 사용자들은 자신의 전기 소비에 접근할 수 있음
      • 비정상적인 소비 시 경고해주는 솔루션을 사용할 수 있음
  • 재생 가능 에너지에 대한 투자 증가로 전통적인 소비자가 프로슈머로 변환 
    • 소비 행동을 재고하여 자가 발전으로부터 이용 가능한 전력과 소비를 일치시키려는 관심이 높아질 것으로 보임
    • 전력망에서 제공하는 전력에 대한 의존도가 줄어들어 전기 요금 절감과 온실가스 배출 감소로 이어짐
  • 주택 소비 수준에 적용할 적절한 예측 모델을 찾는 것은 매우 중요함 
    • 주거 소비 프로필에 내재된 무작위성과 잡음 때문에 이 작업은 공공 변전소 또는 심지어 국가 송전망과 같은 더 많은 소비 집계 수준에서 예측하는 것보다 더 어려운 것으로 간주됨

 

Previous Research

  • 기계 학습 기법을 사용하여 하루 전에 시간 별 전력수요를 예측하는 연구가 많이 수행됨
    • 선형 또는 다항 회귀, ARIMA 모델과 같은 전통적인 통계 방법들이 여전히 사용됨
      • 사용된 입력 변수 간의 다중공선성 같은 몇 가지 단점이 자주 언급되며, 모델은 데이터의 품질을 유지하기 어려운 경우에 민감해지는 경향이 있음
    • 인공 신경망(ANN)이 많이 사용됨
      • 명시적으로 프로그래밍할 필요가 없는 데이터 기반 방법
      • ANN은 숨겨진 추세를 학습하고 식별하는 능력으로 자주 언급되며, 시계열 데이터에 내재된 추세를 찾을 수 있음
      • 불완전하고 잡음이 많은 데이터에서도 일반화할 수 있는 능력과 비모수적 특성으로 인해 원하는 정확도로 모든 연속 함수를 모델링할 수 있음
      • 과소적합 또는 과적합 모델이 될 위험이 있기 때문에 학습 과정에서 각 연결에 관련된 가중치를 정확하게 찾아야 함
      • 설명 변수가 부족하여 해석 가능성과 설명 가능성을 잃게 되는 블랙박스 문제가 있음
  • 최근 연구에서는 심층 학습을 기반으로 한 새로운 방법론을 채택하고 있음
    • 순환 신경망(RNN)은 이전 시간 단계의 값을 기억하기 위해 노드 간의 피드백 연결을 사용하여 시계열 데이터에 더 적합함
      • 긴 시퀀스는 심각한 문제를 일으킬 수 있으며, 이를 극복하기 위해 장단기 메모리 네트워크(LSTM)이라는 RNN 변형 모델을 자주 사용함
    • LSTM이 주거용 스마트 미터 데이터에 적용될 때 정확도가 제한적으로 개선되며, 상당히 복잡하고 시간이 많이 소요되어 일상적으로 사용하기 어려움
  • 서포트 벡터 머신, 의사결정 트리 및 랜덤 포레스트와 같은 다른 인기 있는 방법도 많이 사용되고 있음
    • 이러한 접근 방식은 비교 분석에서 벤치마크로 사용되는 경우가 많음
    • 서포트 벡터 머신은 ANN 모델을 특징짓는 경험적 위험 최소화 원칙이 아닌 구조적 위험 최소화 원칙을 기반으로 함
      • 커널을 기반으로 하여 국소 최소값이 없으며, 프로세스의 상당한 제어를 허용하고 특징 공간의 차원에 덜 의존함
      • 하이퍼파라미터(오차 범위, 페널티 계수 및 커널 상수)를 미세 조정하는 것이 중요함
      • 하이퍼파라미터 조정을 위해 메타 휴리스틱 기술 혹은 그리드 탐색 기술 등을 사용함 
    • 의사결정 트리는 누락된 값이 있는 시계열을 사용할때 좋음
      • 수치 데이터와 범주형 정보를 처리할 수 있어 다양한 응용 프로그램에서 사용하기 좋음
    • 랜덤 포레스트는 의사결정 트리의 확장 모델로 단일 트리 모델을 사용하는 대신 여러 모델을 사용하여 성능을 개선
      • 많은 양의 데이터를 효율적으로 처리하고 높은 정확도를 제공하며, 고유의 내부 교차 검증을 통해 파라미터 값에 대한 민감도가 낮음
      • 변수 중요도 측정이 가능함
      • 최적의 아키텍처와 파라미터 튜닝을 찾는 것이 어려움

 

Contribution

  • 정확한 예측을 가능하게 하면서 해석 가능한 모델을 선택하고 쉽게 재현 가능한 다양한 모델들과 비교함
  • 특정 특성을 가진 단일 소비자에게 적용되는 것이 아닌, 여러 소비자에게 적용되어 모델을 공정하고 광범위하게 비교함
  • 생성된 예측 모델의 상세한 분석을 통해 다양한 특징 기여도의 해석과 학습 시간 비교가 가능함

 

2. Methodology

MARS (Multivariate Adaptive Regression Splines)

  • MARS는 회귀 분석의 한 형태로, 데이터의 비선형성과 상호작용을 효과적으로 다루기 위한 방법으로 데이터에 적합한 적응형 회귀 모델을 구축하여 예측 성능을 향상
    • 입력 변수 간의 비선형적 관계와 상호작용을 자동으로 탐지하고 모델링
    • 데이터 범위를 여러 구간으로 나누어 각 구간에서 선형 회귀를 수행하여 복잡한 비선형 관계를 설명
    • 중요한 변수를 자동으로 선택하고 불필요한 변수를 제거하여 모델을 단순화
    • 비선형 및 복잡한 데이터 구조를 효과적으로 모델링할 수 있으며, 결과 모델이 이해하기 쉽고 해석 가능한 형태로 제공됨

 

RF (Random Forest)

  • RF는 다수의 의사결정나무를 사용하여 예측을 수행하는 앙상블 학습 방법으로 회귀와 분류 문제 모두에 효과적이며, 높은 예측 성능과 안정성을 제공함
    • 여러 개의 결정 트리를 훈련시켜 예측을 합산(분류의 경우 다수결, 회귀의 경우 평균)하여 최종 결과를 도출
    • 부트스트랩 샘플링과 무작위 특성 선택을 통해 각 트리가 서로 다르게 훈련되도록 하여 모델의 다양성을 증진
    • 각 특성의 중요도를 제공하여 모델 해석에 도움을 줄 수 있음

 

ANN (Artificial Neural Network)

  • ANN은 생물학적 뉴런의 구조와 기능을 본뜬 모델로 복잡한 패턴 인식 및 데이터 분석을 위해 사용되며, 다양한 인공지능 응용 분야에 적용됨
    • 입력층, 은닉층, 출력층으로 구성되며, 각 층은 뉴런(노드)들로 이루어져 있음
    • 뉴런 간의 연결 강도를 나타내는 가중치와, 뉴런의 출력 신호를 결정하는 활성화 함수를 통해 비선형성을 모델링
    • 역전파(Backpropagation) 알고리즘을 사용하여 가중치를 조정하고 모델을 최적화

 

3. Experimental Result

Dataset

  • LCL 데이터셋
    • 2011년 11월부터 2014년 2월까지 런던의 5567 가구의 에너지 소비량을 측정한 데이터
    • 30분 간격으로 수집되어 있음
    • 신뢰할 수 있는 데이터의 품질을 제공하는 71 가구의 2011년 12월부터 2014년 2월까지의 데이터를 선택
      • 데이터에서 결측 데이터 혹은 이상치 데이터의 비율이 5% 이하인 데이터
      • 소비 추세가 연 단위로 일정하게 유지되는 데이터
    • 각각의 데이터에 대한 입력변수로는 과거 데이터와 주기 데이터를 사용함
    • 과거 데이터
      • 8일 전 현재와 동일한 시간의 데이터
      • 7일 전 현재 시간에서 -2, -1, 0, +1, +2 시간의 데이터
      • 6일 전 현재 시간에서 -2, -1, 0, +1, +2 시간의 데이터
      • 2일 전 현재 시간에서 -2, -1, 0, +1, +2 시간의 데이터
    • 주기 데이터
      • 요일 주기 데이터
      • 시간 주기 데이터

 

Evaluation Metric

  • 평가지표로는 MAE(Mean Absolute Error), MSE(Mean Squared Error), MASE(Mean Absolute Scaled Error), MSSE(Mean Squared Scaled Error)를 사용함
    • MAPE는 비대칭성 및 데이터에 존재하는 결측 데이터에 의해 영향을 받는 등 바람직하지 않은 효과가 있기 때문에 MASE와 MSSE를 사용

 

Result

  • 각 소비자 ID에 대한 MAE 및 MSE 레이더 차트 분석
  • MAE와 MSE를 기준으로 각 소비자에 대한 예측 모델의 성능을 레이더 차트로 시각화
  • ANN 모델이 가장 좋은 성능을 보임을 확인

 

  • 각 소비자 ID에 대한 MAE 및 MSE 막대 차트 분석
    • MARS 모델을 기준으로 MAE 및 MSE 값의 오름차순으로 정렬된 바 차트를 사용하여 성능을 평가
    • 데이터의 변동성에도 불구하고 ANN이 대부분의 경우 가장 우수한 성능을 보임을 확인

 

  • 각 소비자 ID에 대한 MASE 및 MSSE 비교
    • Naïve 모델을 기준으로 MASE와 MSSE 지표를 사용하여 예측 성능을 비교
      • MASE와 MSSE 값이 1보다 작으면 해당 모델이 Naïve 모델보다 성능이 우수함을 의미
      • 대부분의 소비자에 대해 제안된 예측 모델이 Naïve 모델보다 더 정확함을 확인

 

  • MARS 및 RF 모델의 특징 중요도 분석
    • 모든 모델에서 과거의 전력 소비 데이터가 중요한 역할을 했으며, 특히 2일 전과 7일 전의 데이터가 예측 성능에 크게 기여함을 확인
    • 주기 변수도 예측 성능을 향상시키는 데 중요한 역할을 함을 확인

 

4. Conclusion

  • 해당 논문에서는 ANN, MARS, RF 모델의 전력 소비 예측 성능을 비교함
    • ANN 모델이 더 정확하고 다양한 소비자 패턴에 유연하게 적응할 수 있지만 하루 뒤의 30분 단위 전력수요 예측 정확도는 크게 다르지 않음
      • 스마트 미터 데이터의 품질, 특징 선택 단계 및 각 모델의 매개변수 설정이 예측 성능을 향상시키는 데 더 중요한 요소일 수 있음을 의미
      • 각 모델의 정확성과 해석 가능성 사이에서 균형을 맞춰야 함
    • 훈련된 모델에 대한 분석을 통해 서로 다른 접근법에 공통적으로 중요한 몇 가지 특징(주로 2일 전과 7일 전에 유사한 시간대에 측정된 전력 소비 기록)을 확인함
      • ANN의 경우 유사한 시간대에 이전 전력 소비 기록을 포함하는 것이 좋지만, MARS 또는 RF 모델에는 그렇지 않음
      • 주기 변수를 포함하여 요일별 소비 패턴이나 각 시간대별 소비 패턴을 포함하면 예측 성능이 향상됨을 확인