바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

기술과학 분야 학술문헌에 대한 학습집합 반자동 구축 및 자동 분류 통합 연구

Semi-automatic Construction of Learning Set and Integration of Automatic Classification for Academic Literature in Technical Sciences

정보관리학회지 / Journal of the Korean Society for Information Management, (P)1013-0799; (E)2586-2073
2018, v.35 no.4, pp.141-164
https://doi.org/10.3743/KOSIM.2018.35.4.141
김선우 (경기대학교 문헌정보학과)
고건우 (경기대학교 문헌정보학과)
최원준 (한국과학기술정보연구원 콘텐츠 큐레이션센터)
정희석 (한국과학기술정보연구원 콘텐츠 큐레이션센터)
윤화묵 (한국과학기술정보연구원 콘텐츠큐레이션센터)
최성필 (경기대학교)
  • 다운로드 수
  • 조회수

초록

최근 학술문헌의 양이 급증하고, 융복합적인 연구가 활발히 이뤄지면서 연구자들은 선행 연구에 대한 동향 분석에 어려움을 겪고 있다. 이를 해결하기 위해 우선적으로 학술논문 단위의 분류 정보가 필요하지만 국내에는 이러한 정보가 제공되는 학술 데이터베이스가 존재하지 않는다. 이에 본 연구에서는 국내 학술문헌에 대해 다중 분류가 가능한 자동 분류 시스템을 제안한다. 먼저 한국어로 기술된 기술과학 분야의 학술문헌을 수집하고 K-Means 클러스터링 기법을 활용하여 DDC 600번 대의 중분류에 맞게 매핑하여 다중 분류가 가능한 학습집합을 구축하였다. 학습집합 구축 결과, 메타데이터가 존재하지 않는 값을 제외한 총 63,915건의 한국어 기술과학 분야의 자동 분류 학습집합이 구축되었다. 이를 활용하여 심층학습 기반의 학술문헌 자동 분류 엔진을 구현하고 학습하였다. 객관적인 검증을 위해 수작업 구축한 실험집합을 통한 실험 결과, 다중 분류에 대해 78.32%의 정확도와 72.45%의 F1 성능을 얻었다.

keywords
automatic classification, text mining, NLP(Natural Language Processing), deep learning, semi-supervised learning, 자동 분류, 텍스트 마이닝, 자연어 처리, 심층학습, 준지도 학습

Abstract

Recently, as the amount of academic literature has increased rapidly and complex researches have been actively conducted, researchers have difficulty in analyzing trends in previous research. In order to solve this problem, it is necessary to classify information in units of academic papers. However, in Korea, there is no academic database in which such information is provided. In this paper, we propose an automatic classification system that can classify domestic academic literature into multiple classes. To this end, first, academic documents in the technical science field described in Korean were collected and mapped according to class 600 of the DDC by using K-Means clustering technique to construct a learning set capable of multiple classification. As a result of the construction of the training set, 63,915 documents in the Korean technical science field were established except for the values ​​in which metadata does not exist. Using this training set, we implemented and learned the automatic classification engine of academic documents based on deep learning. Experimental results obtained by hand-built experimental set-up showed 78.32% accuracy and 72.45% F1 performance for multiple classification.

keywords
automatic classification, text mining, NLP(Natural Language Processing), deep learning, semi-supervised learning, 자동 분류, 텍스트 마이닝, 자연어 처리, 심층학습, 준지도 학습

참고문헌

1.

김선우. (2017). 생의학 분야 학술 문헌에서의 이벤트 추출을 위한 심층 학습 모델 구조 비교 분석 연구. 한국문헌정보학회지, 51(4), 77-97. http://dx.doi.org/10.4275/KSLIS.2017.51.4.077.

2.

김선우. (2018). Bidirectional LSTM-CRF 기반의 음절 단위 한국어 품사 태깅 및 띄어쓰기 통합 모델 연구. 정보과학회논문지, 45(8), 792-800.

3.

김판준. (2018). 기계학습에 기초한 국내 학술지 논문의 자동분류에 관한 연구. 정보관리학회지, 35(2), 37-62. http://dx.doi.org/10.3743/KOSIM.2018.35.2.037.

4.

김판준. (2014). 해외 데이터베이스의 통제키워드에 기초한 국내 학술지 논문의 자동분류 성능 향상에 관한 실험적 연구. 한국문헌정보학회지, 48(3), 491-510. http://dx.doi.org/10.4275/KSLIS.2014.48.3.491.

5.

나동열. (2007). 정보검색 관리 서비스 평가용 테스트컬렉션 구축. 한국과학기술정보연구원.

6.

나동열. (2007). 한국어 문서분류 테스트컬렉션 개발 (435-439). 한국콘텐츠학회 종합학술대회 논문집.

7.

노대욱. (2007). 정보검색 기술을 이용한 비지도 학습 기반 문서 분류 시스템 개발. 정보과학회논문지 : 소프트웨어 및 응용, 34(2), 160-168.

8.

박영근. (2017). 잠재 의미 분석을 활용한 웹 뉴스 분류 (1828-1830). 한국정보과학회 학술발표논문집.

9.

육지희. (2018). 토픽모델링과 딥 러닝을 활용한 생의학 문헌 자동 분류 기법 연구. 정보관리학회지, 35(2), 63-88. http://dx.doi.org/10.3743/KOSIM.2018.35.2.063.

10.

이다빈. (2018). 대용량 텍스트 자원을 활용한 한국어 형태소 임베딩의 모델별 성능 심층 비교분석 (613-615). 한국정보과학회 학술발표학술문헌집.

11.

이용구. (2013). 문헌빈도와 장서빈도를 이용한 kNN 분류기의 자질선정에 관한 연구. 한국도서관·정보학회지, 44(1), 27-47. http://dx.doi.org/10.16981/kliss.44.1.201303.27.

12.

조현수. (2017). FastText를 적용한 한국어 단어 임베딩 (705-707). 한국정보과학회 학술발표학술문헌집.

13.

조현양. (2017). 자동분류기반 성격 유형별 도서추천시스템 개발을 위한 실험적 연구. 한국도서관·정보학회지, 48(2), 215-236. http://dx.doi.org/10.16981/kliss.48.2.201706.215.

14.

조휘열. (2015). 컨볼루션 신경망 기반 대용량 텍스트 데이터 분류 기술 (792-794). 한국정보과학회 학술발표논문집.

15.

최가람. (2018). 단어 임베딩(Word Embedding) 기법을 적용한 키워드 중심의 사회적 이슈 도출 연구: 장애인 관련 뉴스 기사를 중심으로. 정보관리학회지, 35(1), 231-250. http://dx.doi.org/10.3743/KOSIM.2018.35.1.231.

16.

최성필. (2016). 바이오 분야 학술 문헌에서의 분야별 관계 추출 데이터셋 반자동 구축에 관한 연구 - 알츠하이머병 유관 유전자 간 상호 작용 중심으로 -. 한국도서관·정보학회지, 47(4), 289-307. http://dx.doi.org/10.16981/kliss.47.4.201612.289.

17.

한규열. (2013). LDA로 형성된 한국어 문서 클러스터의 자동 제목 생성 (616-618). 한국정보과학회 학술발표논문집.

18.

Bock, H. H.. (2007). Selected contributions in data analysis and classification:Springer.

19.

Bojanowski, P.. Enriching word vectors with subword information.

20.

Sung-Pil Choi. (2017). Extraction of protein–protein interactions (PPIs) from the literature by deep convolutional neural networks with various feature embeddings. Journal of Information Science, 44(1), 60-73. http://dx.doi.org/10.1177/0165551516673485.

21.

Joulin, A.. Bag of tricks for efficient text classification.

22.

Kowsari, K.. (2017). Hdltex: Hierarchical deep learning for text classification (364-371). Machine Learning and Applications (ICMLA), 2017 16th IEEE International Conference on.

23.

Mikolov, T.. (2013). Advances in Neural Information Processing Systems.

24.

Pennington, J.. (2014). Glove: Global vectors for word representation (1532-1543). Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP).

25.

Niusha Shafiabady. (2016). Using unsupervised clustering approach to train the Support Vector Machine for text classification. Neurocomputing, 211, 4-10. http://dx.doi.org/10.1016/j.neucom.2015.10.137.

26.

Shinyama, Y.. (2004). PDFMiner. https://euske.github.io/pdfminer/.

정보관리학회지