바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

로치오 알고리즘을 이용한 학술지 논문의 디스크 립터 자동부여에 관한 연구

A Study on the Automatic Descriptor Assignment for Scientific Journal Articles Using Rocchio Algorithm

정보관리학회지 / Journal of the Korean Society for Information Management, (P)1013-0799; (E)2586-2073
2006, v.23 no.3, pp.69-89
https://doi.org/10.3743/KOSIM.2006.23.3.069
김판준 (신라대학교)
  • 다운로드 수
  • 조회수

초록

로치오 알고리즘에 기초한 통제어휘 자동색인 또는 텍스트 범주화에서 적용되어 온 여러 성능 요인들을 재검토하였고, 성능 향상을 위한 기본적인 방법을 찾아보았다. 또한, 동등한 조건에서 통제어휘 자동색인을 위한 로치오 알고리즘 기반 방법의 성능을 다른 학습기반 방법들의 성능과 비교하였다. 결과에 따르면, 통제어휘 자동색인을 위한 로치오 기반의 프로파일 방법은 구현의 용이성과 컴퓨터 처리시간 측면의 경제성이라는 기존의 장점을 그대로 유지하면서도, 다른 학습기반 방법들(SVM, VPT, NB)과 거의 동등하거나 더 나은 성능을 보여주었다. 특히, 색인전문가의 색인작업을 지원하는 반-자동 색인의 목적으로는 비교적 높은 수준의 재현율을 유지하면서 학습 데이터의 증가에 따라 정확률이 크게 향상되는 로치오 알고리즘을 이용한 방법을 우선적으로 고려할 수 있을 것이다.

keywords
로치오 알고리즘, 자동색인, 통제어휘, 디스크립터, 텍스트 범주화, Rocchio algorithm, automatic indexing, computer assisted indexing, controlled vocabulary, text categorization, descriptors

Abstract

Several performance factors which have applied to the automatic indexing with controlled vocabulary and text categorization based on Rocchio algorithm were examined, and the simple method for performance improvement of them were tried. Also, results of the methods using Rocchio algorithm were compared with those of other learning based methods on the same conditions. As a result, keeping with the strong points which are implementational easiness and computational efficiency, the methods based Rocchio algorithms showed equivalent or better results than other learning based methods(SVM, VPT, NB). Especially, for the semi-automatic indexing(computer-aided indexing), the methods using Rocchio algorithm with a high recall level could be used preferentially.

keywords
로치오 알고리즘, 자동색인, 통제어휘, 디스크립터, 텍스트 범주화, Rocchio algorithm, automatic indexing, computer assisted indexing, controlled vocabulary, text categorization, descriptors

참고문헌

1.

김판준. (2006). 기계학습을 통한 디스크립터 자동부여에 관한 연구.. 23(1), 279-299.

2.

정영미. (2005.). 정보검색연구. , -.

3.

이재윤. (2005). 문헌간 유사도를 이용한 SVM 분류기의 문헌분류성능 향상에 관한 연구. 정보관리학회지, 22(3), 261-287.

4.

(2005b.). 자질 선정 기준과 가중치 할당 방식간의 관계를 고려한 문서 자동분류의 개선에 관한 연구.. 39(2), 123-146.

5.

Cohen, W. W.,. (1999). Context-sensitive learning methods for text categorization ACM Transactions on Information Systems. 17(2), 141-173.

6.

Dattola. (1). A fast algorithm for automatic classification. , 31-48.

7.

Ferber, Reginald.. (reginald.1997). Automated indexing with thesaurus descriptors: a co-occurrence based approach to multilingual retrieval. , 233-251.

8.

Galavotti, Luigi,. (20020000). Experiments on the use of feature selection and negative evidence in automated text categorization. , 59-68.

9.

Gay, Clifford W.,. (20020055). Semi-automatic indexing of full text biomedical articles. , 271-275.

10.

Hull. Improving text retrieval for the routing problem using latent semantic indexing Proceedings of SIGIR 94. , 282-289.

11.

Ittner, D. J. (1995). Text categorization of low quality images. , 301-315.

12.

Joachims, Thorsten.. (1996). A probabilistic analysis of the rocchio algorithm with TFIDF for text categorization. , 143-151.

13.

Joachims, Thorsten.. (1998). Text categorization with support vector machines: learning with many relevant features. , 137-142.

14.

Lancaster, F. W.. (2004). Indexing and Abstracting in Theory and Practice. Third ed.. , -.

15.

Lewis, D. D. (1996). Training algorithms for linear text classifiers. , 298-306.

16.

Moens, Marie-Francine.. (2000). Automatic Indexing and Abstracting of Document Texts. The Kluwer International Series on Information Retrieval. , -.

17.

Montejo-Raez, Arturo.. (2002). Toward conceptual indexing using automatic assignment of descriptors. , -.

18.

Ng, H. T.,. (1997). Feature selection, perceptron learning, and a usability case study for text categorization. , 67-73.

19.

Pouliquen, Bruno. (2003). Automatic annotation of multilingual text collections with a conceptual thesaurus. , -.

20.

Rogati, M., and Y. Yang.. (2002). High-performing feature selection for text classification. , 659-661.

21.

Ruiz, Miguel E.,. (2002). Hierarchical text categorization using neural networks. 5(10), 87-118.

22.

Schapire, R. E.,. (1998). Boosting and rocchio applied to text filtering. , 215-223.

23.

Schapire, R. E.,. (2000). A boosting-based system for text categorization. 39(2/3), 135-168.

24.

Schütze, H. (1995). A comparison of classifiers and document representations for the routing problem. 95, 229-237.

25.

Sebastiani, Fabrizio. (2002). Machine learning in automated text categorization. 34(1), 1-47.

26.

Steinberger, Ralf. (2002). Cross-lingual document similarity calculation using the multilingual thesaurus EUROVOC. , 415-424.

27.

Steinberger, Ralf. (2000). Using thesauri for automatic indexing and for the visualisation of multilingual document collections. , 130-141.

28.

Steinberger. (2001). Cross-lingual keyword assignment. , 273-280.

29.

Weigend, A. S. (1999). Exploiting hierarchy in text categorization. 1(3), -.

30.

Wiener, E. D.,. (1995). A neural network approach to topic spotting. , -.

31.

Yang, Y.. (1999). Evaluation of statistical approaches to text categorization. 1, 69-90.

32.

Yang, Y.. (1999). Evaluation of statistical approaches to text categorization. 1, 69-90.

정보관리학회지