이커머스 도메인에서의 동일 태그 교체 데이터 증강 기법을 활용한 개체명 인식

장동호; 부석준; 서영건

doi:10.9728/dcs.2024.25.5.1159

상세 보기

이커머스 도메인에서의 동일 태그 교체 데이터 증강 기법을 활용한 개체명 인식

Named Entity Recognition in E-commerce Domain using the Same-Tag Replacement Data Augmentation Technique

초록

데이터 증강은 한국어 NER 분야에서 도메인 특화 데이터 부족으로 발생하는 어려움을 해결하기 위한 중요한 전략이다. 본 연구에서는 이커머스 도메인에서 한국어 개체명 인식 모델을 향상시키기 위한 데이터 증강 방법으로 ‘음절 단위 문장 BIO 태깅 및 동일 태그 교체(Same-Tag Replacement)’ 알고리즘을 제안하고 실험하였다. 이 방법은 한국어 NER 데이터셋에서 문장을 음절 단위로 분리하고 BIO 태그를 부착한 뒤, 동일한 개체 유형에 속하는 단어를 무작위로 교체하여 데이터를 증강한다. 실험 결과, 작은 데이터셋(N=500)의 데이터를 증강했을 때 weighted-average f1-score가 최대 50%까지 개선된 것을 확인하였다. 이는 이커머스 도메인에서 자연어 처리 모델 성능 향상을 위한 실용적이고 효과적인 전략으로 주목받을 것으로 기대된다.

키워드

Data Augmentation; NER; Same-Tag Replacement; Random Word Replacement; Natural Language Processing; 데이터 증강; NER; 동일테그교체; 단어 무작위 교체; 자연어 처리

제목: 이커머스 도메인에서의 동일 태그 교체 데이터 증강 기법을 활용한 개체명 인식

제목 (타언어): Named Entity Recognition in E-commerce Domain using the Same-Tag Replacement Data Augmentation Technique

저자: 장동호; 부석준; 서영건

DOI: 10.9728/dcs.2024.25.5.1159

발행일: 2024-05

저널명: 디지털컨텐츠학회논문지

권: 25

호: 5

페이지: 1159 ~ 1166