네트워크 침입탐지에서 데이터 불균형을 고려한 그래디언트 부스팅 분류기
Gradient Boosting Classifier considering Data Imbalance in Network Intrusion Detection

초록

인터넷 사용의 증가로 인한 외부위협에 대응하는 방안의 하나로서 네트워크 침입탐지를 위한 머신러닝 방식의 연구가 활발하다. 그런데 침입탐지를 위한 머신러닝 알고리즘의 적용에 있어서 소수 클래스로 인해 발생하는 데이터 불균형 문제가 지적된다. 네트워크 침입탐지를 비롯한 일반적인 분류에서는 데이터 불균형에 의한 문제점보다는 대개 전체 모형의 정확도가 목표인 경우가 많아서, 데이터 불균형에 대한 대처가 쉽지 않을 수 있다. 네트워크 침입탐지에 대한 랜덤포레스트(RF) 모형에서 데이터 불균형 문제가 있음을 본 논문에서 확인하고, 이를 개선하기 위한 그래디언트부스팅 분류기(GBC)의 구성 및 효과를 정리하였다. 랜덤포레스트 모형과 그래디언트부스팅 분류기의 구성은 KDDTrain+ 데이터를 활용하였고, KDDTest+ 데이터로써 구성한 모형을 평가하였다. RF모형과 GBC의 성능에서 보이는 차이점은 빈도가 낮은 침입유형에서 RF모형에 비해 정확도의 큰 변화 없이 GBC의 정밀도 및 재현율이 높은 것을 확인하였다. GBC의 이러한 효과는 특히 피해가 큰 침입유형에 대해 높은 탐지율로써 전체 피해를 줄이는 효과를 기대할 수 있다.

키워드

machine learningdata imbalanceintrusion detectiongradient boosting classifierrandom forest머신러닝침입탐지데이터 불균형그래디언트부스팅 분류기랜덤포레스트
제목
네트워크 침입탐지에서 데이터 불균형을 고려한 그래디언트 부스팅 분류기
제목 (타언어)
Gradient Boosting Classifier considering Data Imbalance in Network Intrusion Detection
저자
윤한성
DOI
10.22793/indinn.2025.41.2.013
발행일
2025-06
저널명
산업혁신연구
41
2
페이지
133 ~ 140