상세 보기
초록
데이터 증강은 한국어 NER 분야에서 도메인 특화 데이터 부족으로 발생하는 어려움을 해결하기 위한 중요한 전략이다. 본 연구에서는 이커머스 도메인에서 한국어 개체명 인식 모델을 향상시키기 위한 데이터 증강 방법으로 ‘음절 단위 문장 BIO 태깅 및 동일 태그 교체(Same-Tag Replacement)’ 알고리즘을 제안하고 실험하였다. 이 방법은 한국어 NER 데이터셋에서 문장을 음절 단위로 분리하고 BIO 태그를 부착한 뒤, 동일한 개체 유형에 속하는 단어를 무작위로 교체하여 데이터를 증강한다. 실험 결과, 작은 데이터셋(N=500)의 데이터를 증강했을 때 weighted-average f1-score가 최대 50%까지 개선된 것을 확인하였다. 이는 이커머스 도메인에서 자연어 처리 모델 성능 향상을 위한 실용적이고 효과적인 전략으로 주목받을 것으로 기대된다.
키워드
Data Augmentation; NER; Same-Tag Replacement; Random Word Replacement; Natural Language Processing; 데이터 증강; NER; 동일테그교체; 단어 무작위 교체; 자연어 처리
- 제목
- 이커머스 도메인에서의 동일 태그 교체 데이터 증강 기법을 활용한 개체명 인식
- 제목 (타언어)
- Named Entity Recognition in E-commerce Domain using the Same-Tag Replacement Data Augmentation Technique
- 저자
- 장동호; 부석준; 서영건
- 발행일
- 2024-05
- 저널명
- 디지털컨텐츠학회논문지
- 권
- 25
- 호
- 5
- 페이지
- 1159 ~ 1166