0. Paper Information
- Title: A Two-Layer SSA-XGBoost-MLR Continuous Multi-Day Peak Load Forecasting Method Based on Hybrid Aggregated Two-Phase Decomposition
- Authors: Zhengzhong Gao, Xiucheng Yin, Fanzhe Zhao, Han Meng, Yican Hao, Minhang Yu
- Publication: Energy Reports
- Published Year: 2022
1. Introduction
Background
- 피크 부하는 하루 동안 전력 소비 측면에서 발생하는 최대 부하 값을 의미
- 미래의 일일 피크 부하를 정확하게 예측하면 전력 시스템 예비 용량 계산, 수요 반응 조치 시행, 피크-밸리 요금 제정에 중요한 참고 자료를 제공할 수 있으며, 전력망의 최적 배치와 안전하고 안정적인 운영에 결정적인 역할을 함
- 부하 데이터는 많은 요소들이 복잡하게 얽혀 있어 변동성이 크고 비선형적인 패턴을 보이는 매우 복잡한 특성을 갖고 있음
- 피크 부하는 계절적 온도에 영향을 받으며, 특히 여름과 겨울 피크 기간 동안 전력 공급과 소비 간의 격차가 커지게 될 경우 전력망의 안전한 운영이 어려워짐
- 신뢰할 수 있는 예측 모델을 개발하는 것이 필수적임
Previous Research
- 기존 연구에서는 연속적인 다일 피크 부하 예측에 대한 분석이 적었으며, 이는 이 문제의 시간 규모가 단기와 중기 예측 사이에 있기 때문
- 대부분의 현재 부하 예측 연구는 단일 시간 규모에 대해 수행됨
- 하루 전에 다음날의 피크만을 분석하고 예측
- 연속된 여러 날의 예측에는 모델의 견고성과 높은 일반화 능력이 필요함
- 불확실한 온도 변동으로 인해 여러 날 또는 한 달 후의 피크 부하 예측의 어려움이 증가
- 미래 특정 시점의 피크 부하 추세 변동을 정확하게 예측하는 것이 해결해야 할 중요한 문제
- 대부분의 현재 부하 예측 연구는 단일 시간 규모에 대해 수행됨
- 많은 연구자들이 피크 부하 예측 시나리오를 위해 많은 예측 모델을 제안
- 선형 회귀, 회색 예측, 지수 평활법 같은 전통적인 통계 방법이 선형 추세 예측에서 좋은 예측 결과를 달성
- 전통적인 통계 방법 중 자기 회귀 이동 평균 (ARIMA) 모델은 부하 예측에 일반적으로 많이 사용됨
- ARIMA 모델은 선형 시계열 분석에만 적용 가능하며 비선형 신호와 시계열을 정확하게 예측할 수 없어 부하 데이터의 복잡한 비선형 특성을 포착할 수 없음
- 전기 부하 변동은 시간 데이터에 많은 영향을 받으며, 휴일 및 공휴일 동안 부하 패턴이 평일 과 크게 달라지며, 전통적인 예측 방법은 이 기간 동안 매우 비효율적임
- 휴리스틱 최적화 알고리즘을 사용한 인공지능 기술을 이용하면 부하 시계열의 내재된 비선형성이 있는 경우 정확한 예측 결과를 달성할 수 있음
- 인공신경망 (ANN)과 서포트 벡터 머신 (SVM) 등 을 사용한 예측 방법이 널리 사용되었지만, 단일 기계학습 알고리즘에는 한계가 있음
- 단일 모델은 훈련 과정에서 지역 최적해에 빠질 위험이 있으며, 일부 지역 최적해에 해당하는 모델의 일반화 성능이 저조할 수 있음
- LSTM 네트워크와 같은 심층 학습 네트워크 아키텍처는 복잡하며, 모델의 훈련 과정에서 많은 양의 역사적 데이터를 경험적 지식으로 필요로 함
- 모델 아키텍처의 은닉층 및 노드의 부적절한 선택은 네트워크 성능에 큰 영향을 미치며, 과적합이 발생하기 쉬움
- XGBoost와 랜덤 포레스트(RF) 같은 트리 앙상블 알고리즘이 좋은 결과를 달성하여 많은 연구자들이 이를 피크 부하 예측에 적용하기 시작
- XGBoost는 인공지능 분야에서 더 최첨단 알고리즘으로, 빠른 수렴과 강한 적합 능력을 가짐
- XGBoost에는 많은 하이퍼파라미터가 있으며, XGBoost의 하이퍼파라미터 집합을 최적으로 선택하면 XGBoost의 예측 성능을 최대한 발휘할 수 있음
- 단일 기계 학습 알고리즘보다 빠른 수렴과 더 나은 일반화 성능을 제공하지만, 통합하는 기본 학습자는 모두 동일하며 예측 정확도의 개선 여지가 제한적임
- XGBoost는 인공지능 분야에서 더 최첨단 알고리즘으로, 빠른 수렴과 강한 적합 능력을 가짐
- 예측 알고리즘에 분해 알고리즘을 통합하면 더 정확한 예측 결과가 나올 수 있음
- 웨이블릿의 기본 함수 선택 기준은 복잡하며, 웨이블릿 분해의 단점을 극복하기 위해 많은 연구자들이 최근 경험적 모드 분해 (EMD)의 응용 연구에 많은 관심을 줌
- 변동 모드 분해 (VMD)도 부하 예측 분야에서 연구자들에 의해 적용되고 있음
- 샘플 엔트로피 (SE)를 도구로 사용하여 분해 알고리즘을 기반으로 각 모달 구성 요소를 분석
- 분해 알고리즘 도입으로 혼합 예측 모델이 단일 예측 모델보다 더 정확한 예측 결과를 달성할 수 있음을 보여줌
- 단일 분해 알고리즘은 비선형 시계열을 충분히 분해할 수 없으므로 많은 연구에서 2 단계 하이브리드 분해 기술을 사용함
- CEEMDAN-VMD 분해 기술은 전력수요 예측에 성공적으로 적용됨
- 두 단계 분해 기술의 사용은 단일 분해 기술보다 시퀀스의 비연속성을 더 충분히 감소
- 이 결합 분해 기술은 전력 피크 부하 예측 분야에서 거의 사용되지 않음
Proposed Model
- 일일 피크 부하 시퀀스를 분해하여 더 안정된 시퀀스를 얻기 위해 하이브리드 집계 두 단계 분해 프레임워크(ICEEMDAN-SE-VMD)를 제안
- 하이브리드 집계 두 단계 분해 프레임 (ICEEMDAN-SE-VMD)을 제안
- ICEEMDAN 알고리즘을 통해 1차 분해를 수행하고, 샘플 엔트로피를 사용하여 각 모달 구성 요소를 집계 재구성하며, 그런 다음 VMD 알고리즘을 도입하여 덜 규칙적인 구성 요소를 2차 분해하여 각 구성 요소의 비연속 특성을 약화
- SSA-XGBoost-MLR 예측 모델을 제안
- XGBoost를 사용하여 각 입력 특징의 기여도를 점수화하고, 특징 작업을 구축하여 최종 입력 특징을 결정
- SSA로 최적화된 XGBoost의 강력한 비선형 매핑 능력과 MLR의 더 규칙적인 추세 시퀀스에 대한 적합 능력을 사용하여 각 구성 요소를 예측하고 중첩하여 초기 예측 결과를 형성
- 마지막으로 초기 예측 결과를 XGBoost로 오차 보정하여 예측 정확도를 더욱 향상
- 하이브리드 집계 두 단계 분해 프레임 (ICEEMDAN-SE-VMD)을 제안
Contribution
- ICEEMDAN-SE-VMD이라는 새로운 데이터 전처리 방법을 제안함
- ICEEMDAN 알고리즘을 사용하여 온도 시퀀스를 분해하고 규칙적이고 평활하게 변동하는 추세 구성 요소를 유지하여 온도 시퀀스의 평활화
- 새로운 이중 예측 모델을 제안함
- 첫 번째 예측 모델 (SSA-XGBoost-MLR)의 예측 결과를 얻고, 그런 다음 XGBoost의 강력한 비선형 매핑 능력을 사용하여 첫 번째 예측 모델의 예측 결과를 오차 보정
- 다양한 다양한 단일 예측 모델, 혼합 예측 모델 및 혼합 집계 두 단계 분해 예측 모델과 여러 예측 오류 평가 지표를 결합하여 각 모델의 예측 오류를 심층적으로 비교 분석
2. Methodology
Overall Structure
- 제안하는 프레임워크 프로세스
ICEEMDAN (Improved Complete Ensemble Empirical Mode Decomposition with Adaptive Noise)
- ICEEMDAN은 신호 처리에서 널리 사용되는 기법으로, 복잡한 데이터를 여러 성분으로 분해하여 분석할 수 있게 해주는 기술
- 기존의 EMD 및 EEMD 기법의 한계를 극복하기 위해 개발됨
- 데이터에 적응적으로 잡음을 추가하여 모드 혼합 문제를 줄이고, 신호의 본래 특징을 보존
- 분해 과정에서 신호의 완전성을 유지하여 정보 손실을 최소화
- 서로 다른 시간 척도에서 발생하는 현상을 보다 명확하게 분리할 수 있음
- 복잡한 비선형 및 비정상 신호의 분석에 탁월하며, 다양한 공학 및 과학 분야에서 유용하게 활용
SE (Sample Entropy)
- SE는 신호의 복잡성을 정량화하는 지표로, 시계열 데이터의 예측 가능성과 불규칙성을 측정하는 데 사용됨
- 신호의 복잡성을 정량화하여 패턴의 예측 가능성을 평가
- 비교적 짧은 데이터 길이에서도 신뢰성 있는 결과를 제공하므로, 데이터의 길이에 크게 영향을 받지 않음
- 기존의 엔트로피 측정 방법들에 비해 잡음에 대한 민감성이 낮아, 신호의 본질적인 특성을 잘 반영함
- 시계열 데이터를 일정한 길이의 임베딩 벡터로 변환한 후 임베딩 벡터들 간의 유사성을 계산하여, 주어진 허용 오차 범위 내에 있는 벡터 쌍의 수를 구하고 유사성 계산을 기반으로 샘플 엔트로피 값을 산출
VMD (Variational Modal Decomposition)
- VMD은 신호를 여러 본질 모드 함수(IMFs, Intrinsic Mode Functions)로 분해하는 강력한 기법
- 변분(Variational) 접근법을 통해 각 모드를 동시에 추출하며, 이는 데이터의 복잡한 구조를 분석하는 데 유용함
- 모든 모드를 동시에 추출하여 계산 효율성을 높이고, 모드 혼합 문제를 줄임
- 신호의 주파수 특성에 따라 적응적으로 모드를 분해하여, 각 모드의 중심 주파수를 추정
- 높은 시간-주파수 해상도를 제공하여 신호의 세부 특성을 정확하게 분석할 수 있음
SSA (Sparrow Search Algorithm)
- SSA는 자연에서 참새의 사회적 행동(먹이 탐색 및 위험 회피)을 모방한 최적화 알고리즘
- 전역 최적화를 목표로 하며, 다양한 분야에서 최적화 문제를 해결하는 데 유용하게 활용
- 탐색(exploration)과 착수(exploitation)를 균형 있게 수행하여, 전역 최적해를 찾는 과정에서 지역 최적해에 빠지지 않도록 함
- 여러 목표 함수를 동시에 최적화할 수 있어 복잡한 다목적 최적화 문제에 효과적임
- 참새 무리를 탐색자(explorers)와 추종자(followers)로 나누어 각각 다른 전략으로 먹이를 찾음
- 탐색자: 주로 새로운 지역을 탐색하며 먹이를 찾음
- 추종자: 탐색자가 찾은 먹이를 따라가며 효율적으로 먹이를 찾음
- 포식자가 나타나면 참새들은 빠르게 위치를 변경하여 위험을 피하는 전략을 취함
XGBoost (eXtreme Gradient Boosting)
- XGBoost는 기계 학습에서 매우 강력하고 효율적인 부스팅 알고리즘
- 높은 예측 성능과 빠른 학습 속도로 인해 데이터 과학 및 머신러닝 대회에서 널리 사용
- 각 단계에서 손실 함수를 최소화하는 방향으로 모델을 업데이트
- 다양한 최적화 기법을 통해 매우 높은 예측 성능을 제공
- 트리 분할 시 이득(gain)을 최대화하는 방식으로 트리를 성장
- 병렬 처리를 통해 학습 속도를 크게 향상시켜, 대규모 데이터셋에서도 효율적으로 동작
- L1 및 L2 규제(regularization) 기법을 통해 모델의 복잡성을 제어하여 과적합을 방지
- 높은 예측 성능과 빠른 학습 속도로 인해 데이터 과학 및 머신러닝 대회에서 널리 사용
MLR (Multiple Linear Regression)
- MLR은 여러 독립 변수를 사용하여 하나의 종속 변수를 예측하는 통계적 기법
- 회귀 분석의 한 형태로, 데이터 간의 관계를 모델링하고 이해하는 데 널리 사용됨
- 여러 독립 변수를 동시에 고려하여 종속 변수에 미치는 영향을 평가하기 때문에 단순 회귀보다 더 복잡한 관계를 모델링할 수 있음
- 종속 변수와 각 독립 변수 간의 관계가 선형적이라고 가정
- 쉽게 해석할 수 있는 회귀 계수를 제공하며, 이를 통해 각 독립 변수의 영향을 정량적으로 평가할 수 있음
3. Experimental Result
Dataset
- European Network for Intelligent Technologies (EUNITE) 데이터셋
- 슬로바키아 전력 회사의 실제 전력 부하 데이터
- 1997년 1월부터 1999년 1월까지 데이터가 수집되어 있음
- 하루 48개의 샘플링 지점의 부하 데이터를 포함(30분 단위로 수집)
- 일일 평균 온도 및 휴일 정보를 포함하고 있음
- 1999년 1월의 일일 최대 부하를 테스트용, 나머지를 훈련용으로 사용
Evaluation Metric
- 평가지표로는 RMSE(Root Mean Square Rrror), MAE(Mean Absolute Error), MAPE(Mean Absolute Percentage Error), 적합도(R2)를 사용함
Result
- 각 구성요소에서 다양한 모델의 성능 비교
- XGBoost-Tree 모델은 비선형 맵핑 능력이 뛰어나 세부 구성 요소에서 가장 높은 예측 정확도를 보임을 확인
- 세부 구성 요소의 경우 XGBoost가, 주기적 및 경향 구성 요소의 경우 MLR이 더 높은 예측 정확도를 보임을 확인
- 오차 보정 후의 예측 성능 비교
- XGBoost-Tree 모델은 비선형 맵핑 능력 덕분에 오차 보정 후 가장 낮은 예측 오차를 기록함을 확인
- 제안하는 모델과 다양한 모델의 성능 비교
- 제안된 모델이 가장 높은 예측 성능과 적합도를 보임을 확인
- 분해 알고리즘 적용 모델들의 성능 비교
- ICEEMDAN-SE-VMD-XGBoost 모델이 가장 낮은 예측 오차와 높은 적합도를 보임을 확인
4. Conclusion
- 해당 논문에서는 신호 처리 및 인공지능 분야의 최첨단 알고리즘 기술을 활용하여 다음 달의 일일 최대 부하 예측을 수행함
- 적절한 부하 시계열 분해를 달성하고 비정상적인 특성을 최대한 약화시키기 위해 집계된 하이브리드 이중 분해 프레임워크(ICEEMDAN-SE-VMD)를 제안
- ICEEMDAN 알고리즘을 사용하여 일일 최대 부하 시계열을 초기 분해
- 각 IMF의 SE를 계산하여 이를 집계 및 재구성하여 다양한 시간 스케일의 부하 구성 요소를 형성
- VMD 알고리즘을 도입하여 덜 규칙적인 부하 구성 요소 부분을 두 번째로 분해하여 모델이 필요한 최종 부하 구성 요소를 도출
- XGBoost의 특징 분석 기능을 사용하여 특징 공학의 설정을 지원하고, 부하 구성 요소 세트를 결합하여 예측 모델에 필요한 데이터 세트를 형성
- SSA-XGBoost-LR로 구성된 일층 예측 모델을 사용하여 각 구성 요소의 예측을 실현하고, 예측 결과를 중첩하여 초기 예측 결과를 형성
SSA-XGBoost의 강력한 비선형 맵핑 기능을 사용하여 첫 번째 층 예측 모델의 결과를 2차 예측하여 부하 세부 트렌드를 더 잘 맞추고 예측 정확도를 향상
- 적절한 부하 시계열 분해를 달성하고 비정상적인 특성을 최대한 약화시키기 위해 집계된 하이브리드 이중 분해 프레임워크(ICEEMDAN-SE-VMD)를 제안
- 제안한 모델의 단일 모델 및 하이브리드 예측 모델과 비교하여 우수성을 검증
- 제안한 하이브리드 모델이 연속적인 여러날의 최대 부하 예측의 정확도를 효과적으로 향상시킬 수 있음을 보여줌
- 온도 변화의 일반적인 경향이 일일 최대 부하 변화의 주요 원인이고, 온도 변화의 무작위 세부 사항은 일일 최대 부하 변화에 거의 영향을 미치지 않음
- XGBoost-Tree가 빠른 빈도 변화와 높은 복잡성을 가진 세부 구성 요소를, MLR은 완만한 변동을 가진 주기적 구성 요소 및 경향 구성 요소를 더 정확하게 예측할 수 있음
- 분해 알고리즘이 도입된 하이브리드 모델의 예측 정확도가 단일 모델 및 통합 모델의 예측 정확도보다 더 우수함
- 이중 분해 프레임워크를 사용하는 예측 모델의 예측 정확도가 ICEEMDAN 및 VMD 알고리즘만 사용하는 예측 모델보다 더 우수함