바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: dataset, 검색결과: 28
초록보기
초록

국내 학술연구의 동향을 구체적으로 파악하여 연구개발 활동의 체계적인 지원 및 평가는 물론 현재와 미래의 연구 방향을 설정할 수 있는 기초 데이터로서, 개별 학술지 논문에 표준화된 주제 범주(통제키워드)를 부여할 수 있는 효율적인 방안을 모색하였다. 이를 위해 한국연구재단 「학술연구분야분류표」 상의 분류 범주를 국내 학술지 논문에 자동 할당하는 과정에서, 자질선정 기법을 중심으로 자동분류의 성능에 영향을 미치는 주요 요소들에 대한 다각적인 실험을 수행하였다. 그 결과, 실제 환경의 불균형 데이터세트(imbalanced dataset)인 국내 학술지 논문의 자동분류에서는 보다 단순한 분류기와 자질선정 기법, 그리고 비교적 소규모의 학습집합을 사용하여 상당히 좋은 수준의 성능을 기대할 수 있는 것으로 나타났다.

Abstract

As basic data that can systematically support and evaluate R&D activities as well as set current and future research directions by grasping specific trends in domestic academic research, I sought efficient ways to assign standardized subject categories (control keywords) to individual journal papers. To this end, I conducted various experiments on major factors affecting the performance of automatic classification, focusing on feature selection techniques, for the purpose of automatically allocating the classification categories on the National Research Foundation of Korea’s Academic Research Classification Scheme to domestic journal papers. As a result, the automatic classification of domestic journal papers, which are imbalanced datasets of the real environment, showed that a fairly good level of performance can be expected using more simple classifiers, feature selection techniques, and relatively small training sets.

12
한유경(정보통신정책연구원) ; 최원석(정보통신정책연구원) ; 이민철(카카오엔터프라이즈) 2023, Vol.40, No.2, pp.115-135 https://doi.org/10.3743/KOSIM.2023.40.2.115
초록보기
초록

본 연구는 단행본, 학술지, 보고서 등 다양한 종류의 발간물로 구성된 연구보고서의 참고문헌 데이터베이스를 효율적으로 구축하기 위한 것으로 딥러닝 언어 모델을 이용하여 참고문헌의 자동추출 성능을 비교 분석하고자 한다. 연구보고서는 학술지와는 다르게 기관마다 양식이 상이하여 참고문헌 자동추출에 어려움이 있다. 본 연구에서는 참고문헌 자동추출에 널리 사용되는 연구인 메타데이터 추출과 더불어 참고문헌과 참고문헌이 아닌 문구가 섞여 있는 환경에서 참고문헌만을 분리해내는 원문 분리 연구를 통해 이 문제를 해결하였다. 자동 추출 모델을 구축하기 위해 특정 연구기관의 연구보고서 내 참고문헌셋, 학술지 유형의 참고문헌셋, 학술지 참고문헌과 비참고문헌 문구를 병합한 데이터셋을 구성했고, 딥러닝 언어 모델인 RoBERTa+CRF와 ChatGPT를 학습시켜 메타데이터 추출과 자료유형 구분 및 원문 분리 성능을 측정하였다. 그 결과 F1-score 기준 메타데이터 추출 최대 95.41%, 자료유형 구분 및 원문 분리 최대 98.91% 성능을 달성하는 등 유의미한 결과를 얻었다. 이를 통해 비참고문헌 문구가 포함된 연구보고서의 참고문헌 추출에 대한 딥러닝 언어 모델과 데이터셋 유형별 참고문헌 구축 방향을 제안하였다.

Abstract

The purpose of this study is to assess the effectiveness of using deep learning language models to extract references automatically and create a reference database for research reports in an efficient manner. Unlike academic journals, research reports present difficulties in automatically extracting references due to variations in formatting across institutions. In this study, we addressed this issue by introducing the task of separating references from non-reference phrases, in addition to the commonly used metadata extraction task for reference extraction. The study employed datasets that included various types of references, such as those from research reports of a particular institution, academic journals, and a combination of academic journal references and non-reference texts. Two deep learning language models, namely RoBERTa+CRF and ChatGPT, were compared to evaluate their performance in automatic extraction. They were used to extract metadata, categorize data types, and separate original text. The research findings showed that the deep learning language models were highly effective, achieving maximum F1-scores of 95.41% for metadata extraction and 98.91% for categorization of data types and separation of the original text. These results provide valuable insights into the use of deep learning language models and different types of datasets for constructing reference databases for research reports including both reference and non-reference texts.

13
Hae-Young Kim(Yonsei University) ; 정영미(연세대학교) ; Ji-Hye Lee(Yonsei University) 2008, Vol.25, No.2, pp.143-155 https://doi.org/10.3743/KOSIM.2008.25.2.143
초록보기
초록

Abstract

Authoritative as well as objective information on ranking or dominant research areas of academic departments/schools in a certain discipline is essential for the graduate school applicants. In this study, we performed an informetric analysis to identify dominant research areas in the top 10 U.S. LIS schools. We used two different datasets of research productivity and research interests of the LIS faculty. The correspondence analysis method was employed to graphically display the association between research areas and the LIS schools. We found that the research productivity data collected from SSCI database generated a very informative map presenting which research areas were dominant in which LIS schools. We also found that for the two most productive subject areas in LIS over the past 10-year period, the proportion of research articles in information retrieval decreased to a great extent in the recent 5-year period, whereas that of information seeking behavior showed an almost same degree of increase.

초록보기
초록

최근 다양한 주제 분야의 블로그가 이용자의 정보요구를 충족시켜주는 웹 정보원 중 하나로 활용되고 있다. 본 연구에서는 블로그 페이지의 검색 성능을 향상시키기 위하여 이용자가 부여한 태그 및 트랙백을 이용하여 블로그 페이지의 검색 실험을 수행하였다. 실험을 위해 4,908개의 블로그 페이지와 각 페이지에 트랙백으로 연결된 다른 블로그 페이지의 URL을 수집하였다. 검색 자질로 본문의 용어에 이용자 태그를 추가하였을 경우와 네트워크 중심성 값을 반영하였을 경우 모두 검색 성능이 향상되었고, 본문 용어와 이용자 태그를 검색 자질로 함께 사용하고 여기에 중심성 값을 반영하였을 경우 가장 좋은 성능을 보였다.

Abstract

Blogs are now one of the major information resources on the web. The purpose of this study is to enhance the performance of blog retrieval by means of user assigned tags and trackback information. To this end, retrieval experiments were performed with a dataset of 4,908 blog pages together with their associated trackback URLs. In the experiments, text terms, user tags, and network centrality values based on trackbacks were variously combined as retrieval features. The experimental results showed that employing user tags and network centrality values as retrieval features in addition to text words could improve the performance of blog retrieval.

초록보기
초록

네트워크 분석이 확산되면서 매개중심성이나 연결정도중심성과 같은 다양한 중심성 지수가 개발되어 활용되고 있으나, 가중 네트워크에서 지역중심성을 측정할 수 있는 지수로는 최근접이웃중심성 이외에는 거의 알려져 있지 않다. 이 연구에서는 가중 네트워크를 위한 일반화된 지역중심성 지수인 이웃중심성 지수를 새롭게 제안한다. 이웃중심성 지수는 파라미터 α를 사용하여 이진 네트워크를 위한 연결정도중심성 지수와 가중 네트워크를 위한 최근접이웃중심성 지수를 일반화한 것이다. 6가지 실제 네트워크 데이터를 대상으로 하여 제안된 지수의 특징과 적정 파라미터 값을 살펴보는 실험을 수행하고 결과를 보고하였다.

Abstract

While there are several measures for node centralities, such as betweenness and degree, few centrality measures for local centralities in weighted networks have been suggested. This study developed a generalized centrality measure for calculating local centralities in weighted networks. Neighbor centrality, which was suggested in this study, is the generalization of the degree centrality for binary networks and the nearest neighbor centrality for weighted networks with the parameter α. The characteristics of suggested measure and the proper value of parameter α are investigated with 6 real network datasets and the results are reported.

16
김수연(연세대학교) ; 송성전(연세대학교 문헌정보학과) ; 송민(연세대학교) 2015, Vol.32, No.1, pp.135-152 https://doi.org/10.3743/KOSIM.2015.32.1.135
초록보기
초록

Abstract

The goal of this paper is to explore the field of Computer and Information Science with the aid of text mining techniques by mining Computer and Information Science related conference data available in DBLP (Digital Bibliography & Library Project). Although studies based on bibliometric analysis are most prevalent in investigating dynamics of a research field, we attempt to understand dynamics of the field by utilizing Latent Dirichlet Allocation (LDA)-based multinomial topic modeling. For this study, we collect 236,170 documents from 353 conferences related to Computer and Information Science in DBLP. We aim to include conferences in the field of Computer and Information Science as broad as possible. We analyze topic modeling results along with datasets collected over the period of 2000 to 2011 including top authors per topic and top conferences per topic. We identify the following four different patterns in topic trends in the field of computer and information science during this period: growing (network related topics), shrinking (AI and data mining related topics), continuing (web, text mining information retrieval and database related topics), and fluctuating pattern (HCI, information system and multimedia system related topics).

17
박성은(성균관대학교 문헌정보학과 박사과정) ; 고영만(성균관대학교 문헌정보학과) 2022, Vol.39, No.2, pp.159-202 https://doi.org/10.3743/KOSIM.2022.39.2.159
초록보기
초록

‘국가 연구데이터플랫폼’과 ‘바이오 연구데이터플랫폼’은 비교적 최근 구축되어 활발하게 각각의 생태계를 만들어 가고 있다. 따라서 다른 메타데이터 표준을 기반으로 독립적으로 구축되어 향후 상호운용성의 문제가 발생할 수 있다. 본 연구의 목적은 각 플랫폼의 메타데이터 요소를 매핑하고, 이를 검증하여 상호운용성을 확보하기 위한 기반을 제안하는 것이다. 이를 위해 각 플랫폼의 메타데이터 표준을 분석하고 크로스워크 대상을 선정하여 매핑한 후, 바이오 분야 전문가를 통해 매핑된 요소의 적합성을 검증하고 더 적절한 매핑 요소를 추천받아 데이터셋 및 파일에 대한 메타데이터 요소를 도출하였다. 이를 통해 각 플랫폼의 메타데이터가 의미적으로 연결될 수 있는 가능성과 상호운용성 확보를 위한 기반을 확인할 수 있었다.

Abstract

The ‘National Research Data Platform’ and the ‘Bio Research Data Platform’ were recently built and each is actively creating an ecosystem. It is built independently based on other metadata standards, which may cause future interoperability issues. The purpose of this study is to propose a basis for metadata interoperability between the two platforms. To this end, the metadata standards of each platform were analyzed, crosswork targets were selected and mapped, and the suitability of the mapped elements was verified through experts in the bio field. And more appropriate mapping elements were recommended to derive metadata elements for datasets and files. Through this, it was possible to confirm the possibility that the metadata of each platform could be semantically linked and the basis for securing interoperability.

초록보기
초록

이 연구에서는 공개된 가중 네트워크 분석용 소프트웨어인 Opsahl의 tnet과 이재윤의 WNET에서 지원하는 가중 네트워크 중심성 지수를 비교 분석해보았다. tnet은 가중 연결정도중심성, 가중 근접중심성, 가중 매개중심성을 지원하고, WNET은 최근접이웃중심성, 평균연관성, 평균프로파일연관성, 삼각매개중심성을 지원한다. 가상 데이터를 대상으로 한 분석에서 tnet의 중심성 지수는 링크 가중치의 선형 변화에 민감한 반면 WNET의 중심성 지수는 선형 변화에 영향을 받지 않았다. 실제 네트워크 6종을 대상으로 가중 네트워크 중심성을 측정하고 결과를 비교하여 두 소프트웨어의 가중 네트워크 중심성 지수들의 특징을 파악하고 중심성 지수 간 관계를 살펴보았다.

Abstract

This study compared and analyzed weighted network centrality measures supported by Opsahl’s tnet and Lee’s WNET, which are free softwares for weighted network analysis. Three node centrality measures including weighted degree, weighted closeness, and weighted betweenness are supported by tnet, and four node centrality measures including nearest neighbor centrality, mean association, mean profile association, triangle betweenness centrality are supported by WNET. An experimental analysis carried out on artificial network data showed tnet’s high sensitiveness on linear transformations of link weights, however, WNET’s centrality measures were insensitive to linear transformations. Seven centrality measures from both tools, tnet and WNET, were calculated on six real network datasets. The results showed the characteristics of weighted network centrality measures of tnet and WNET, and the relationships between them were also discussed.

19
장령령(전남대학교 문헌정보학과) ; 장우권(전남대학교) 2016, Vol.33, No.1, pp.317-336 https://doi.org/10.3743/KOSIM.2016.33.1.317
초록보기
초록

오늘날 폭발적인 정보의 증가로 이용자들은 자신이 원하는 정보를 찾기 위해 엄청난 시간과 노력을 기울여야 한다. 이 문제를 해결하기 위하여 이용자의 정보요구를 분석하고 이용자에게 적합한 논문을 추천해주는 논문추천시스템이 등장하고 있다. 그러나 대부분의 논문추천시스템은 논문추천시스템의 핵심인 이용자 프로파일을 간과하고 있다. 따라서 이 연구는 논문추천시스템의 성능을 좌우하는 이용자 프로파일을 기존의 평균으로 계산하지 않고 새로운 TPIPF(Topic Proportion-Inverse Paper Frequency)로 계산하는 방법을 제안하였다. 제안된 방법과 기존의 방법을 모두 논문추천시스템에 적용하여 각각의 성능을 온라인 참고문헌 관리도구인 CiteULike에서 제공된 데이터 실험을 통하여 비교하였다. 그 결과 제안된 TPIPF 방법을 적용한 논문추천시스템의 성능이 더 높다는 것을 알 수 있었다.

Abstract

Nowadays users spend more time and effort to find what they want because of information overload. To solve the problem, scientific article recommendation system analyse users’ needs and recommend them proper articles. However, most of the scientific article recommendation systems neglected the core part, user profile. Therefore, in this paper, instead of mean which applied in user profile in previous studies, New TPIPF (Topic Proportion-Inverse Paper Frequency) was applied to scientific article recommendation system. Moreover, the accuracy of two scientific article recommendation systems with above different methods was compared with experiments of public dataset from online reference manager, CiteULike. As a result, the proposed scientific article recommendation system with TPIPF was proven to be better.

20
유재복(한국원자력연구원) ; 정영미(연세대학교) 2010, Vol.27, No.1, pp.103-118 https://doi.org/10.3743/KOSIM.2010.27.1.103
초록보기
초록

최근 특허기술의 가치평가가 크게 강조되고 있으며, 그 평가의 수단으로 특허의 피인용횟수가 매우 유용한 척도 중의 하나로 받아들여지고 있다. 그에 따라 이 연구에서는 특허의 피인용횟수와 이에 영향을 미칠만한 형태적․기술적․개념적 요인의 17개 변수들 간의 상관관계를 미국특허를 대상으로 5개 주제분야에 걸쳐 분석하였다. 분석결과 특허의 피인용횟수와 일정 수준 이상의 상관관계, 즉 5% 이상의 설명력을 갖는 변수는 페이지 수, 청구항 수, 참고문헌 평균 피인용횟수, 기술분야 특허증감율, 서지결합도, 동시인용도 및 문헌간유사도 등 7개로 나타났다. 또한 이들 변수에 대한 분산분석 결과 7개 변수 모두 전반적으로 대부분의 주제분야 간에 있어서 평균값의 차이가 있는 것으로 나타났다.

Abstract

Recently, the valuation of patented technology has been greatly emphasized, and patent citation has been accepted as a very useful index of this technology. In this study, we performed correlation analyses between the patent citation counts and 17 explanatory variables of morphological, technological, and conceptual factors with a test dataset of U.S. patents in five subject fields. Seven variables having 5% or more standardized variances(r2) with patent citation counts were identified; number of pages, number of claims, reference-average-citation rate, patent increase/decrease rate, strength of bibliographic coupling, co-citation counts and document similarity. The result of the ANOVA test shows that the mean values of these variables vary among most subject fields.

정보관리학회지