네트워크 침입탐지에서 데이터 불균형을 고려한 그래디언트 부스팅 분류기

윤한성

doi:10.22793/indinn.2025.41.2.013

상세 보기

네트워크 침입탐지에서 데이터 불균형을 고려한 그래디언트 부스팅 분류기

Gradient Boosting Classifier considering Data Imbalance in Network Intrusion Detection

윤한성

초록

인터넷 사용의 증가로 인한 외부위협에 대응하는 방안의 하나로서 네트워크 침입탐지를 위한 머신러닝 방식의 연구가 활발하다. 그런데 침입탐지를 위한 머신러닝 알고리즘의 적용에 있어서 소수 클래스로 인해 발생하는 데이터 불균형 문제가 지적된다. 네트워크 침입탐지를 비롯한 일반적인 분류에서는 데이터 불균형에 의한 문제점보다는 대개 전체 모형의 정확도가 목표인 경우가 많아서, 데이터 불균형에 대한 대처가 쉽지 않을 수 있다. 네트워크 침입탐지에 대한 랜덤포레스트(RF) 모형에서 데이터 불균형 문제가 있음을 본 논문에서 확인하고, 이를 개선하기 위한 그래디언트부스팅 분류기(GBC)의 구성 및 효과를 정리하였다. 랜덤포레스트 모형과 그래디언트부스팅 분류기의 구성은 KDDTrain+ 데이터를 활용하였고, KDDTest+ 데이터로써 구성한 모형을 평가하였다. RF모형과 GBC의 성능에서 보이는 차이점은 빈도가 낮은 침입유형에서 RF모형에 비해 정확도의 큰 변화 없이 GBC의 정밀도 및 재현율이 높은 것을 확인하였다. GBC의 이러한 효과는 특히 피해가 큰 침입유형에 대해 높은 탐지율로써 전체 피해를 줄이는 효과를 기대할 수 있다.

키워드

machine learning; data imbalance; intrusion detection; gradient boosting classifier; random forest; 머신러닝; 침입탐지; 데이터 불균형; 그래디언트부스팅 분류기; 랜덤포레스트

제목: 네트워크 침입탐지에서 데이터 불균형을 고려한 그래디언트 부스팅 분류기

제목 (타언어): Gradient Boosting Classifier considering Data Imbalance in Network Intrusion Detection

저자: 윤한성

DOI: 10.22793/indinn.2025.41.2.013

발행일: 2025-06

저널명: 산업혁신연구

권: 41

호: 2

페이지: 133 ~ 140