바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: Document Similarity, 검색결과: 2
1
김인후(중앙대학교 문헌정보학과 대학원) ; 김성희(중앙대학교 문헌정보학과) 2022, Vol.39, No.3, pp.293-310 https://doi.org/10.3743/KOSIM.2022.39.3.293
초록보기
초록

본 연구에서는 한국어 데이터로 학습된 BERT 모델을 기반으로 문헌정보학 분야의 문서를 자동으로 분류하여 성능을 분석하였다. 이를 위해 문헌정보학 분야의 7개 학술지의 5,357개 논문의 초록 데이터를 학습된 데이터의 크기에 따라서 자동분류의 성능에 어떠한 차이가 있는지를 분석, 평가하였다. 성능 평가척도는 정확률(Precision), 재현율(Recall), F 척도를 사용하였다. 평가결과 데이터의 양이 많고 품질이 높은 주제 분야들은 F 척도가 90% 이상으로 높은 수준의 성능을 보였다. 반면에 데이터 품질이 낮고 내용적으로 다른 주제 분야들과 유사도가 높고 주제적으로 확실히 구별되는 자질이 적을 경우 유의미한 높은 수준의 성능 평가가 도출되지 못하였다. 이러한 연구는 미래 학술 문헌에서 지속적으로 활용할 수 있는 사전학습모델의 활용 가능성을 제시하기 위한 기초자료로 활용될 수 있을 것으로 기대한다.

Abstract

In this study, we analyzed the performance of the BERT-based document classification model by automatically classifying documents in the field of library and information science based on the KoBERT. For this purpose, abstract data of 5,357 papers in 7 journals in the field of library and information science were analyzed and evaluated for any difference in the performance of automatic classification according to the size of the learned data. As performance evaluation scales, precision, recall, and F scale were used. As a result of the evaluation, subject areas with large amounts of data and high quality showed a high level of performance with an F scale of 90% or more. On the other hand, if the data quality was low, the similarity with other subject areas was high, and there were few features that were clearly distinguished thematically, a meaningful high-level performance evaluation could not be derived. This study is expected to be used as basic data to suggest the possibility of using a pre-trained learning model to automatically classify the academic documents.

2
김희영(연세대학교 일반대학원 문헌정보학과) ; 박지홍(연세대학교 문헌정보학과) 2022, Vol.39, No.1, pp.1-15 https://doi.org/10.3743/KOSIM.2022.39.1.001
초록보기
초록

본 연구는 약물 연구 분야에 속하는 특허 사이에 나타나는 지식의 흐름을 살펴보고 이들 간의 영향력을 파악해보기 위해 특허데이터에서 나타나는 인용 관계를 분석하였다. 특허데이터의 수집은 Google Patents에서 진행하였다. 약물 연구와 관련된 특허 문서를 검색하여 상위 25개의 출원인을 선정하였고, 이를 바탕으로 출원인 사이에서의 인용 관계를 알아보고 각 출원인의 각 문서에 대한 피인용빈도와 순위를 활용하여 h-지수와 h-지수의 파생지표들의 값을 계산하여 비교하였다. 분석 결과를 종합하면, ‘Pfizer, MIT, Abbott’ 등의 출원인이 약물 연구 분야에서 영향력이 높은 출원인으로 드러났다. 5개의 계량서지학적 지표 중에서 g-지수와 hS-지수가 서로 유사한 결과를 보여주었고, 총인용빈도, 최대인용빈도, CPP의 순위를 가장 잘 반영하는 지표로 나타났다. 또한, 총인용빈도, CPP, 최대인용빈도 순으로 5개의 계량서지학적 지표와의 상관관계가 높았다. 한편, 기존의 특허 출원인의 기술적 영향력을 나타내는 것으로 알려진 지표인 CPP만으로는 정확한 비교가 어려운 경우도 나타났다.

Abstract

This study analyzes the relationship of citations appearing in the patent data to understand knowledge transfers and impacts between patent documents in the field of pharmaceutical research. Patent data were collected from a website, Google Patents. The top 25 assignees were selected by searching for patent documents related to pharmaceutical research. We identify the citation relationships between assignees, then calculate and compare the values of h-index and derived indicators by using the number of citations and rank for each document of each assignee. As a result, in the case of pharmaceutical research, the assignee, such as ‘Pfizer, MIT, and Abbott’ shows a high impact. Among the five bibliometric indicators, the g-index and hS-index show similar results, and the indicators are the most related to the rankings of Total Citation Frequency, Cites per Patents, and Maximum Citation Frequency. In addition, it is highly related to the five indicators in the order of Total Citation Frequency, Cites per Patents, and Maximum Citation Frequency. In some cases, it is difficult to make an accurate comparison with Cites per Patents alone, which is previously known to indicate the technological influence of patent assignees.

정보관리학회지