바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

국한문 혼용 텍스트 색인어 추출기법 연구 시사총보 를 중심으로

An Experimental Approach of Keyword Extraction in Korean-Chinese Text

정보관리학회지 / Journal of the Korean Society for Information Management, (P)1013-0799; (E)2586-2073
2019, v.36 no.4, pp.7-19
https://doi.org/10.3743/KOSIM.2019.36.4.007
정유경(Yoo Kyung Jeong) (연세대학교 근대한국학연구소 HK연구교수)
반재유(Jae-yu Ban) (연세대학교 근대한국학연구소 HK연구교수)
  • 다운로드 수
  • 조회수

초록

본 연구는 국한문 혼용 텍스트를 대상으로 한글 형태소 분석 기법과 한문 어조사를 반영한 색인어 추출기법을 제안하였다. 국한문 혼용체로 작성된 시사총보 논설을 대상으로 해당 시기에 사용된 고유명사 및 한자어 사전을 보완하였으며 한자어 불용어 리스트를 고려하여 색인어를 추출하였다. 본 연구에서 제안한 국한문 색인 시스템은 수작업 색인 결과를 기준으로, 중국어형태소 분석기에 비해 재현율과 정확률 측면에서 상대적으로 높은 성능을 보였으며, 어문법이 확립되지 않은 근현대 시기의 국한문 혼용체를 대상으로 한 첫 번째 색인어 추출기법을 제안하였다는 데에서 연구의 차별점이 있다.

keywords
말뭉치, 자동 색인, 한자 형태소 분석, 국한문 혼용체, 시사총보, corpus, automatic indexing, traditional Chinese morphological analysis, Korean-Chinese character style, Sisachongbo

Abstract

The aim of this study is to develop a technique for keyword extraction in Korean-Chinese text in the modern period. We considered a Korean morphological analyzer and a particle in classical Chinese as a possible method for this study. We applied our method to the journal “Sisachongbo,” employing proper-noun dictionaries and a list of stop words to extract index terms. The results show that our system achieved better performance than a Chinese morphological analyzer in terms of recall and precision. This study is the first research to develop an automatic indexing system in the traditional Korean-Chinese mixed text.

keywords
말뭉치, 자동 색인, 한자 형태소 분석, 국한문 혼용체, 시사총보, corpus, automatic indexing, traditional Chinese morphological analysis, Korean-Chinese character style, Sisachongbo
투고일Submission Date
2019-08-18
수정일Revised Date
2019-09-18
게재확정일Accepted Date
2019-12-13

정보관리학회지