합성 데이터와 XAI를 활용한 온디바이스 텍스트 기반 보이스피싱 탐지 시스템
On-Device Text-based Voice Phishing Detection System Exploiting Synthetic Data and XAI

초록

보이스피싱 수법은 시간이 지나면서 고도화되고 있으나, 데이터 희소성과 모델의 블랙박스 한계로 인해 사용자가 모델의 탐지 결과를 신뢰하기 어렵게 한다. 이러한 문제를 해결하기 위해 합성 데이터 증강과 설명 가능 인공지능(XAI)을 결합한 온디바이스 텍스트 기반 보이스피싱 탐지 시스템을 제안한다. 대형 언어 모델(LLM)로 신종 수법 패턴의 합성 데이터를 생성하였으며, 탐지 모델에 Attention 메커니즘을 적용하여 주요 토큰을 추출하고 경량 LLM 기반의 설명 모델과 결합하여 분류 근거를 생성한다. 실험 결과, 탐지 모델인 LSTM-Attention과 KoBERT는 30초 이상 길이의 통화에서 99.5% 이상의 F1-score를 보였으며, 설명 모델인 Gemma 2 2B는 BLEU-4 28.69, ROUGE-1/2/L 각각 62.3, 44.41, 54.76의 성능을 달성하였다. 모델의 정확도와 지연시간 및 모델 크기 간에는 상충 관계가 존재하여 시스템 제약에 맞는 모델 선정이 중요함을 시사한다.

키워드

voice phishingXAIsynthetic data generationNLP.
제목
합성 데이터와 XAI를 활용한 온디바이스 텍스트 기반 보이스피싱 탐지 시스템
제목 (타언어)
On-Device Text-based Voice Phishing Detection System Exploiting Synthetic Data and XAI
저자
이규혁박수진김건우
발행일
2026-02
유형
Y
저널명
한국정보기술학회논문지
24
2
페이지
1 ~ 15