바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: clustering method, 검색결과: 27
초록보기
초록

동일한 인명을 갖는 서로 다른 실세계 사람들이 존재하는 현실은 인터넷 세계에서 인명으로 표현된 개체의 신원을 식별해야 하는 문제를 발생시킨다. 상기의 문제가 학술정보 내의 저자명 개체로 제한된 경우를 저자식별이라 부른다. 저자식별은 식별 대상이 되는 저자명 개체 사이의 유사도 즉 저자유사도를 계산하는 단계와 이후 저자명 개체들을 군집화하는 단계로 이루어진다. 저자유사도는 공저자, 논문제목, 게재지정보 등의 저자식별자질들의 자질유사도로부터 계산되는데, 이를 위해 기존에 교사방법과 비교사방법들이 사용되었다. 저자식별된 학습샘플을 사용하는 교사방법은 비교사방법에 비해 다양한 저자식별자질들을 결합하는 최적의 저자유사도함수를 자동학습할 수 있다는 장점이 있다. 그러나, 기존 교사방법 연구에서는 SVM, MEM 등의 일부 기계학습기법만이 시도되었다. 이 논문은 다양한 기계학습기법들이 저자식별에 미치는 성능, 오류, 효율성을 비교하고, 공저자와 논문제목 자질에 대해 자질값 추출 및 자질 유사도 계산을 위한 여러 기법들의 비교분석을 제공한다.

Abstract

In bibliographic data, the use of personal names to indicate authors makes it difficult to specify a particular author since there are numerous authors whose personal names are the same. Resolving same-name author instances into different individuals is called author resolution, which consists of two steps: calculating author similarities and then clustering same-name author instances into different person groups. Author similarities are computed from similarities of author-related bibliographic features such as coauthors, titles of papers, publication information, using supervised or unsupervised methods. Supervised approaches employ machine learning techniques to automatically learn the author similarity function from author-resolved training samples. So far, however, a few machine learning methods have been investigated for author resolution. This paper provides a comparative evaluation of a variety of recent high-performing machine learning techniques on author disambiguation, and compares several methods of processing author disambiguation features such as coauthors and titles of papers.

22
정영미(연세대학교) ; 유소영(연세대학교) 2009, Vol.26, No.3, pp.7-24 https://doi.org/10.3743/KOSIM.2009.26.3.007
초록보기
초록

학술적 웹 공간을 대상으로 하는 연구는 페이지와 링크의 역동성 때문에 정량적인 방법과 함께 내용 분석 등의 정성적인 방법을 사용하는 것이 필요하다. 따라서 이 연구에서는 내용 분석의 한 방법으로 한국 학술적 웹 공간 내에서 외부 링크로 연결된 페이지 및 링크의 유형을 분류한 후 이를 네트워크 구조 분석에 반영하여 한국 학술적 웹 공간의 특성을 자세히 살펴보았다. 분석 결과 데이터의 수집 시점을 나타내는 기본 네트워크와 내용 분석 시점을 나타내는 활성 네트워크 사이에 구조적으로 큰 차이가 없었으나, 기관 유형별로 다른 기관들을 링크하는 목적이 다르게 나타났다. 그리고 한국 학술적 웹 공간은 여러 중앙성 지수들과 결속계수 간의 설명력이 유사하게 나타나는 형태의 네트워크임을 확인하였다.

Abstract

Since the Web is dynamic, it is necessary to analyze scholarly Web space with both quantitative and qualitative methods for better understanding of communication characteristics. In this study, we analyzed contents of pages and links to ascertain the characteristics of Korean scholarly Web space in terms of network structure and communication behavior. The result shows that the structure of the original network with all the external links remained is not much different from that of the network with activated external links only. However, the purposes of linking vary among scholarly institutions. The centrality measures correlate more strongly with the clustering coefficient than with the constraint index implying the similar explanatory power of the two types of structural indices.

초록보기
초록

학문과 기술의 발달이 전개되면서 학문 간의 융합이 이루어지고 학제적 성향을 띠는 학문이 더욱 등장하게 되었다. 현재까지 계량정보학적 방법으로 학문 분야의 지적구조를 파악한 연구는 있었지만 학제적인 학문의 특성을 규명하여 지적구조를 분석한 시도는 적었다. 따라서 본 연구에서는 학제성을 띠는 의료정보학(Medical Informatics) 분야의 저널 중 IEEE ENG MED BIOL 저널을 선정하여 저자동시인용 분석과 동시출현단어 분석을 통해 본 저널의 지적구조를 파악하였다. 또한 상위 3개 대표 저널의 저자 및 MeSH Term을 추출하여 종합적으로 비교분석하였다. 이를 통해 의료정보학 분야의 융합된 학문들의 관계를 구조적으로 파악하고 의료정보학의 학문적 성향을 분석했다.

Abstract

Due to the development of science and technology, the convergence of various disciplines has been fostered. Accordingly, interdisciplinary studies have increasingly been expanded by integrating knowledge and methodology from different disciplines. The primary focus of biblimetric methods is on investigating the intellectual structure a field, and analysis of the characterization of interdisciplinary studies is overlooked. In this study, we aim to identify the intellectual structure of the field of medical informatics through author co-citation analysis and co-word analysis by the representative journal “IEEE ENG MED BIOL.” In addition, we examine authors and MeSH Terms of top three representative journals for further analysis of the field. We examine the intellectual structure of the medical informatics field by author and word clusters to identify the network structure of medical informatics disciplines.

초록보기
초록

이 연구에서는 토픽 모델링 결과 해석의 용이성을 위하여, 동적 인용 네트워크를 활용하여 LDA 기반 토픽 모델링의 토픽 수를 설정하고 중복 배치된 주요 키워드를 자아 중심 네트워크 분석을 통해 재배치하여 제시하는 방법을 제안하였다. ‘White LED’ 두 분야의 논문 데이터를 이용하여 분석한 결과, 동적 인용 네트워크 분석을 통해 형성된 분석대상 문헌집단에 혼잡도에 따른 토픽수를 사용하고 중복 분류된 토픽 내 주요 키워드를 자아중심 네트워크 분석 기법을 적용하여 재배치한 결과가 토픽 간의 중복도가 가장 낮은 것으로 나타났다. 따라서 동적 인용 네트워크 및 자아 중심 네트워크 분석을 적용함으로써 토픽모델링에 의한 분석 결과를 보완하는 다면적인 연구 동향 분석이 가능할 것으로 보인다.

Abstract

The combined approach of using ego-centric network analysis and dynamic citation network analysis for refining the result of LDA-based topic modeling was suggested and examined in this study. Tow datasets were constructed by collecting Web of Science bibliographic records of White LED and topic modeling was performed by setting a different number of topics on each dataset. The multi-assigned top keywords of each topic were re-assigned to one specific topic by applying an ego-centric network analysis algorithm. It was found that the topical cohesion of the result of topic modeling with the number of topic corresponding to the lowest value of perplexity to the dataset extracted by SPLC network analysis was the strongest with the best values of internal clustering evaluation indices. Furthermore, it demonstrates the possibility of developing the suggested approach as a method of multi-faceted research trend detection.

25
곽선영(이화여자대학교) ; 정은경(이화여자대학교) 2012, Vol.29, No.1, pp.115-134 https://doi.org/10.3743/KOSIM.2012.29.1.115
초록보기
초록

전통적인 저자동시인용분석은 인용색인 데이터베이스가 색인하는 제 1저자만을 대상으로 하기 때문에 제1저자 이외의 저자의 기여도가 제외된다는 한계를 지니고 있다. 본 연구의 목적은 경제학 분야를 대상으로 하여 복수저자기반의 저자동시인용분석을 활용하여 해당 학문분야의 지적구조를 제시하고자 한다. 이를 위하여 네 가지 실험집단을 구성하였다. (1) 인용된 문헌의 제 1저자만을 고려한 저자동시인용분석, (2) 문헌당 총합 제한 없이 복수저자에게 동일한 인용빈도 부여한 저자동시인용분석, (3) 문헌당 총 합을 제한하여 인용빈도를 부여한 저자동시인용분석, (4) 저자기입 순서를 고려하여 인용빈도를 부여한 저자동시인용분석. 본 연구의 결과는 크게 제 1저자만 고려한 방식과 복수저자를 모두 고려한 방식에 따라 군집형성에 있어서 차이를 보였다. 또한 복수저자의 인용빈도를 구하는 방식에 따라서 군집의 소속이 달라지는 변화를 찾아볼 수 있다. 이러한 결과는 공동저작이 증가하는 학문적 추세에 비추어서 학문의 지적구조를 밝히기 위해서는 복수저자가 고려된 저자동시인용분석이 중요하다는 점을 시사한다.

Abstract

The author co-citation analysis is generally based on the frequency of the first author because most citation databases include only the first author in the bibliographic information. In this sense, the purpose of this study is to provide a better knowledge structure by utilizing the multiple authorship of author co-citation analysis. To achieve the purpose of this study, four different data sets are prepared: (1) counting the first author, (2) counting all the author without limiting the total frequency, (3) counting all the author with limiting the total frequency, and (4) counting adjusted frequencies based on the order of author subscription. The findings of this study show that there are clear differences between the knowledge structure counting all the author and the one counting only the first author. In addition, depending on the different methods, there are subtle changes of cluster members for authors.

26
이재윤(경기대학교) 2007, Vol.24, No.3, pp.363-383 https://doi.org/10.3743/KOSIM.2007.24.3.363
초록보기
초록

전 학문 분야를 포괄하는 광역 과학 지도는 학문 분야 사이의 구조적인 관계를 시각적으로 분석하는데 사용되고 있다. 이 연구에서는 광역 과학 지도에 대한 선행 연구를 개관한 후 새로운 방법으로 국내의 학술 활동을 반영하는 광역 과학 지도를 생성하였다. 광역 과학 지도에 대한 연구는 ISI사(현재 Thomson Scientific)의 Garfield와 Small에 의해서 촉발되었고 최근에는 스페인 그라나다 대학의 SCImago 연구팀과 미국 인디애나 대학의 Brner 교수팀이 활발히 연구 결과를 발표하고 있다. 이들은 자신들이 만들어 발표하고 있는 지도를 과학 지도 또는 사이언토그램이라고 부르며, 이에 관련된 활동을 과학지도학(scientography)이라고 하였다. 기존의 광역 과학 지도는 대부분 학술 논문 사이의 인용 분석에 근거하여 제작되었으나, 국내 학술 논문에 대한 인용 데이터베이스는 아직 미비한 상태이다. 따라서 이 연구에서는 국내의 광역 과학 지도를 만들기 위해서 학술진흥재단에 신청된 과제 제안서의 텍스트를 활용하였다. 학문 분야 사이의 연결 정보를 네트워크로 표현하는 수단으로 널리 사용되고 있는 패스파인더 네트워크(PFNet) 알고리즘으로 광역 과학 지도를 생성한 후, 이의 대안으로 개발된 클러스터링 기반 네트워크(CBNet) 알고리즘으로 다시 지도를 생성하였다. 최종적으로 두 지도에 나타난 상반된 관점을 통합하도록 CBNet 지도를 수정하여 국내 광역 과학 지도를 제시하였다.

Abstract

Global map of science, which is visualizing large scientific domains, can be used to visually analyze the structural relationships between major areas of science. This paper reviewed previous efforts on global science map, and then tried to making a science map of Korea with some new methods. There are several research groups on making global map of science including Dr. Small and Dr. Garfield of ISI (now Thompson Scientific), SCImago research group at the University of Granada, and Dr. Brner's InfoVis Lab at the Indiana University. They called their maps as science map or scientogram and called the activity of mapping science as scientography. Most of the previous works are based on citations between scientific articles. However citation database for Korean journal articles is still under construction. This research tried to make a Korean science map with the text in the proposals suggested for funding from Korean Research Foundation. Two kinds of method for generating networks of scientific fields are used. One is Pathfinder network (PFNet) alogorithm which has been used in several published bibliometric studies. The other is clustering-based network (CBnet) algorithm which was proposed recently as an alternative to PFNet. In order to take into account both views of the two algorithms, the resulting maps are combined to a final science map of Korea.

초록보기
초록

최근 들어 다양한 분야에서 딥러닝이 혁신적인 기계학습 기법으로 급속하게 확산되고 있다. 이 연구에서는 딥러닝 연구동향을 분석하기 위해서 자아 중심 주제 인용분석 기법을 변형하여 응용해보았다. 이를 위해 Web of Science에서 ‘deep learning’으로 탐색하여 검색된 문헌 중 소수의 씨앗 문헌으로부터 인용 관계를 통해 분석 대상 문헌을 확보하는 방법을 시도하였다. 씨앗 문헌을 인용하는 최근 논문들을 딥러닝 분야의 현행 연구를 반영하는 자아 문헌집합으로 설정하였다. 자아 문헌으로부터 빈번히 인용된 선행 연구들은 딥러닝 분야의 연구 주제를 나타내는 인용 정체성 문헌집합으로 설정하였다. 자아 문헌집합에 대해서는 공저 네트워크 분석을 비롯한 정량적 분석을 실시하여 주요 국가와 연구 기관을 파악하였다. 인용 정체성 문헌들에 대해서는 동시인용 분석을 실시하고, 도출된 문헌 군집을 인용하는 주요 키워드인 인용 이미지 키워드를 파악하여 주요 문헌과 주요 연구 주제를 밝혀내었다. 마지막으로 특정 주제에 대한 인용 영향력이 성장하는 추세를 반영하는 인용 성장지수 CGI를 제안하고 측정하여 딥러닝 분야의 선도 연구 주제가 변화하는 동향을 밝혔다.

Abstract

Recently, deep learning has been rapidly spreading as an innovative machine learning technique in various domains. This study explored the research trends of deep learning via modified ego centered topic citation analysis. To do that, a few seed documents were selected from among the retrieved documents with the keyword ‘deep learning’ from Web of Science, and the related documents were obtained through citation relations. Those papers citing seed documents were set as ego documents reflecting current research in the field of deep learning. Preliminary studies cited frequently in the ego documents were set as the citation identity documents that represents the specific themes in the field of deep learning. For ego documents which are the result of current research activities, some quantitative analysis methods including co-authorship network analysis were performed to identify major countries and research institutes. For the citation identity documents, co-citation analysis was conducted, and key literatures and key research themes were identified by investigating the citation image keywords, which are major keywords those citing the citation identity document clusters. Finally, we proposed and measured the citation growth index which reflects the growth trend of the citation influence on a specific topic, and showed the changes in the leading research themes in the field of deep learning.

정보관리학회지