상세 보기
자연어처리와 기계학습을 활용한 기술 특허 분류
Classification of Technology Patents Using Natural Language Processing and Machine Learning Models
- 이우식;
- 이예진
초록
최근 빅데이터 시대의 도래로 인공신경망을 포함한 기계학습 모델들이 의학, 유전체 연구, 기업 경영 등 다양한 분야에 광범위한 영향을 미치고 있음에도 불구하고, 기술 특허 분석에 자연어 처리와 기계학습을 적용한 국내 리걸테크 연구는 충분히 발전하지 못한 상황이다. 본 연구는 이산화탄소 포집·활용에 대한 특허 데이터, 자연어 전처리 기법 그리고 기계학습모형 기반의 기술 특허 분류 시스템을 설계하고, 정확도, 카파 상관계수 그리고 F1-점수를 비교·분석하였다. 주요 결과를 요약·정리하면 다음과 같다. 첫째, 다섯 가지 이산화탄소 포집 및 활용 기술 분류에서 그래디언트 부스팅, 랜덤 포레스트, 의사결정나무 순으로 성능이 나타났다. 이를 통해 단일 결정 나무보다 배깅과 부스팅 기법을 적용한 랜덤포레스트 모형과 그래디언트 부스팅 모형이 더 우수한 학습 성능을 제공함을 확인할 수 있었다. 둘째, 특허의 요약과 제1 청구항을 활용한 기술 분류에서 비슷한 성능이 관찰되었다. 이는 자연어 처리 과정에서 중요한 키워드를 명사로만 추출한 것이 주요 요인으로 보인다. 본 연구는 자연어 전처리와 기계학습 모형을 이산화탄소 포집 및 활용 기술 특허 분류에 처음으로 적용한 의미 있는 연구로 사무 로봇 기술을 통해 반복적인 업무를 자동화하는 데 응용될 수 있는 가능성을 제시한다.
키워드
Business Analytics; Natural Language Processing; Patent; Business Decision-Making; Robotic Process Automation; 비즈니스 애널리틱스; 자연어 처리; 특허; 비즈니스 의사 결정; 로봇 프로세스 자동화
- 제목
- 자연어처리와 기계학습을 활용한 기술 특허 분류
- 제목 (타언어)
- Classification of Technology Patents Using Natural Language Processing and Machine Learning Models
- 저자
- 이우식; 이예진
- 발행일
- 2024-02
- 권
- 13
- 호
- 1
- 페이지
- 93 ~ 102