이커머스 도메인에서의 동일 태그 교체 데이터 증강 기법을 활용한 개체명 인식
Named Entity Recognition in E-commerce Domain using the Same-Tag Replacement Data Augmentation Technique
Citations

WEB OF SCIENCE

0
Citations

SCOPUS

0

초록

데이터 증강은 한국어 NER 분야에서 도메인 특화 데이터 부족으로 발생하는 어려움을 해결하기 위한 중요한 전략이다. 본 연구에서는 이커머스 도메인에서 한국어 개체명 인식 모델을 향상시키기 위한 데이터 증강 방법으로 ‘음절 단위 문장 BIO 태깅 및 동일 태그 교체(Same-Tag Replacement)’ 알고리즘을 제안하고 실험하였다. 이 방법은 한국어 NER 데이터셋에서 문장을 음절 단위로 분리하고 BIO 태그를 부착한 뒤, 동일한 개체 유형에 속하는 단어를 무작위로 교체하여 데이터를 증강한다. 실험 결과, 작은 데이터셋(N=500)의 데이터를 증강했을 때 weighted-average f1-score가 최대 50%까지 개선된 것을 확인하였다. 이는 이커머스 도메인에서 자연어 처리 모델 성능 향상을 위한 실용적이고 효과적인 전략으로 주목받을 것으로 기대된다.

키워드

Data AugmentationNERSame-Tag ReplacementRandom Word ReplacementNatural Language Processing데이터 증강NER동일테그교체단어 무작위 교체자연어 처리
제목
이커머스 도메인에서의 동일 태그 교체 데이터 증강 기법을 활용한 개체명 인식
제목 (타언어)
Named Entity Recognition in E-commerce Domain using the Same-Tag Replacement Data Augmentation Technique
저자
장동호부석준서영건
DOI
10.9728/dcs.2024.25.5.1159
발행일
2024-05
저널명
디지털컨텐츠학회논문지
25
5
페이지
1159 ~ 1166