바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: 연구 데이터, 검색결과: 20
11
김영범(전남대학교 대학원 기록관리학 석사) ; 장우권(전남대학교 문헌정보학과 교수) 2023, Vol.40, No.3, pp.99-118 https://doi.org/10.3743/KOSIM.2023.40.3.099
초록보기
초록

이 연구의 목적은 기록물의 맥락정보를 담고 있는 메타데이터를 활용하여 기록물 자동분류 과정에서의 성능요소를 파악하는데 있다. 연구를 위해 2022년 중앙행정기관 원문정보 약 97,064건을 수집하였다.수집한 데이터를 대상으로 다양한 분류 알고리즘과 데이터선정방법, 문헌표현기법을 적용하고 그 결과를 비교하여 기록물 자동 분류를 위한 최적의 성능요소를 파악하고자 하였다. 연구 결과 분류 알고리즘으로는 Random Forest가, 문헌표현기법으로는 TF 기법이 가장 높은 성능을 보였으며, 단위과제의 최소데이터 수량은 성능에 미치는 영향이 미미하였고 자질은 성능변화에 명확한 영향을 미친다는 것이 확인되었다.

Abstract

The objective of this study is to identify performance factors in the automatic classification of records by utilizing metadata that contains the contextual information of records. For this study, we collected 97,064 records of original textual information from Korean central administrative agencies in 2022. Various classification algorithms, data selection methods, and feature extraction techniques are applied and compared with the intent to discern the optimal performance-inducing technique. The study results demonstrated that among classification algorithms, Random Forest displayed higher performance, and among feature extraction techniques, the TF method proved to be the most effective. The minimum data quantity of unit tasks had a minimal influence on performance, and the addition of features positively affected performance, while their removal had a discernible negative impact.

12
김선욱(경북대학교 사회과학대학 문헌정보학과) ; 이혜경(경북대학교 문헌정보학과) ; 이용구(경북대학교) 2023, Vol.40, No.2, pp.183-209 https://doi.org/10.3743/KOSIM.2023.40.2.183
초록보기
초록

이 연구의 목적은 ChatGPT가 도서의 표지, 표제지, 판권기 데이터를 활용하여 생성한 더블린코어의 품질 평가를 통하여 ChatGPT의 메타데이터의 생성 능력과 그 가능성을 확인하는 데 있다. 이를 위하여 90건의 도서의 표지, 표제지와 판권기 데이터를 수집하여 ChatGPT에 입력하고 더블린 코어를 생성하게 하였으며, 산출물에 대해 완전성과 정확성 척도로 성능을 파악하였다. 그 결과, 전체 데이터에 있어 완전성은 0.87, 정확성은 0.71로 준수한 수준이었다. 요소별로 성능을 보면 Title, Creator, Publisher, Date, Identifier, Right, Language 요소가 다른 요소에 비해 상대적으로 높은 성능을 보였다. Subject와 Description 요소는 완전성과 정확성에 대해 다소 낮은 성능을 보였으나, 이들 요소에서 ChatGPT의 장점으로 알려진 생성 능력을 확인할 수 있었다. 한편, DDC 주류인 사회과학과 기술과학 분야에서 Contributor 요소의 정확성이 다소 낮았는데, 이는 ChatGPT의 책임표시사항 추출 오류 및 데이터 자체에서 메타데이터 요소용 서지 기술 내용의 누락, ChatGPT가 지닌 영어 위주의 학습데이터 구성 등에 따른 것으로 판단하였다.

Abstract

The purpose of this study is to evaluate the Dublin Core metadata generated by ChatGPT using book covers, title pages, and colophons from a collection of books. To achieve this, we collected book covers, title pages, and colophons from 90 books and inputted them into ChatGPT to generate Dublin Core metadata. The performance was evaluated in terms of completeness and accuracy. The overall results showed a satisfactory level of completeness at 0.87 and accuracy at 0.71. Among the individual elements, Title, Creator, Publisher, Date, Identifier, Rights, and Language exhibited higher performance. Subject and Description elements showed relatively lower performance in terms of completeness and accuracy, but it confirmed the generation capability known as the inherent strength of ChatGPT. On the other hand, books in the sections of social sciences and technology of DDC showed slightly lower accuracy in the Contributor element. This was attributed to ChatGPT’s attribution extraction errors, omissions in the original bibliographic description contents for metadata, and the language composition of the training data used by ChatGPT.

13
정우경(숙명여자대학교 문헌정보학과 석사) ; 신동희(숙명여자대학교 문헌정보학과) 2023, Vol.40, No.4, pp.1-31 https://doi.org/10.3743/KOSIM.2023.40.4.001
초록보기
초록

본 연구는 여성의 건강과 밀접한 관련이 있는 모바일 월경주기 측정 애플리케이션을 대상으로 토픽모델링 기법과 함께 다양한 텍스트 마이닝 기법을 도입하여 사용자 경험 평가를 실시하였으며 그 결과를 허니콤(Honeycomb)모델과 결합하여 분석하였다. 월경주기측정 애플리케이션 리뷰에서 드러난 사용자 경험을 평가하기 위해 월경주기측정 애플리케이션의 한국어 리뷰 47,117개를 수집하였다. 리뷰에서 드러난 사용자 경험에 관한 전체적인 담론 확인을 위해 토픽모델링 분석을 실시하였고, 각 토픽 별 구체적인 경험을 확인하고자 동시출현 네트워크 관계로 구축한 텍스트 네트워크 분석을 실시하였다. 또한 사용자의 정서적 경험을 파악하기 위해 감정분석(Sentiment Analysis)을 실시하였다. 이를 기반으로 월경주기측정 애플리케이션의 개발 전략을 정확도, 디자인, 모니터링, 데이터관리 및 사용자관리 측면에서 제시하였다. 연구 결과, 애플리케이션의 월경주기측정 정확도 및 모니터링 기능을 개선해야 함이 확인되었으며 다양한 디자인적 시도가 필요함이 관찰되었다. 또한 개인정보와 사용자의 생체 데이터 관리방법에 대한 보완의 필요성도 확인되었다. 본 연구는 월경주기측정 애플리케이션의 사용자 경험(UX)을 심층적으로 탐색하여 이용자들이 경험한 다양한 요인을 밝히고 더 나은 경험을 제공하기 위한 실질적인 개선점을 제시하였다. 또한 사용자 경험을 평가하는 과정에서 방대한 양의 리뷰 데이터를 연구자가 면밀하게 파악할 수 있도록 토픽모델링과 텍스트 네트워크 분석 기법을 결합하여 방법론을 제시하였다는 점에서 의의가 있다.

Abstract

This study conducted user experience evaluation by introducing various text mining techniques along with topic modeling techniques for mobile menstrual cycle measurement applications that are closely related to women’s health and analyzed the results by combining them with a honeycomb model. To evaluate the user experience revealed in the menstrual cycle measurement application review, 47,117 Korean reviews of the menstrual cycle measurement application were collected. Topic modeling analysis was conducted to confirm the overall discourse on the user experience revealed in the review, and text network analysis was conducted to confirm the specific experience of each topic. In addition, sentimental analysis was conducted to understand the emotional experience of users. Based on this, the development strategy of the menstrual cycle measurement application was presented in terms of accuracy, design, monitoring, data management, and user management. As a result of the study, it was confirmed that the accuracy and monitoring function of the menstrual cycle measurement of the application should be improved, and it was observed that various design attempts were required. In addition, the necessity of supplementing personal information and the user’s biometric data management method was also confirmed. By exploring the user experience (UX) of the menstrual cycle measurement application in-depth, this study revealed various factors experienced by users and suggested practical improvements to provide a better experience. It is also significant in that it presents a methodology by combines topic modeling and text network analysis techniques so that researchers can closely grasp vast amounts of review data in the process of evaluating user experiences.

14
한유경(정보통신정책연구원) ; 최원석(정보통신정책연구원) ; 이민철(카카오엔터프라이즈) 2023, Vol.40, No.2, pp.115-135 https://doi.org/10.3743/KOSIM.2023.40.2.115
초록보기
초록

본 연구는 단행본, 학술지, 보고서 등 다양한 종류의 발간물로 구성된 연구보고서의 참고문헌 데이터베이스를 효율적으로 구축하기 위한 것으로 딥러닝 언어 모델을 이용하여 참고문헌의 자동추출 성능을 비교 분석하고자 한다. 연구보고서는 학술지와는 다르게 기관마다 양식이 상이하여 참고문헌 자동추출에 어려움이 있다. 본 연구에서는 참고문헌 자동추출에 널리 사용되는 연구인 메타데이터 추출과 더불어 참고문헌과 참고문헌이 아닌 문구가 섞여 있는 환경에서 참고문헌만을 분리해내는 원문 분리 연구를 통해 이 문제를 해결하였다. 자동 추출 모델을 구축하기 위해 특정 연구기관의 연구보고서 내 참고문헌셋, 학술지 유형의 참고문헌셋, 학술지 참고문헌과 비참고문헌 문구를 병합한 데이터셋을 구성했고, 딥러닝 언어 모델인 RoBERTa+CRF와 ChatGPT를 학습시켜 메타데이터 추출과 자료유형 구분 및 원문 분리 성능을 측정하였다. 그 결과 F1-score 기준 메타데이터 추출 최대 95.41%, 자료유형 구분 및 원문 분리 최대 98.91% 성능을 달성하는 등 유의미한 결과를 얻었다. 이를 통해 비참고문헌 문구가 포함된 연구보고서의 참고문헌 추출에 대한 딥러닝 언어 모델과 데이터셋 유형별 참고문헌 구축 방향을 제안하였다.

Abstract

The purpose of this study is to assess the effectiveness of using deep learning language models to extract references automatically and create a reference database for research reports in an efficient manner. Unlike academic journals, research reports present difficulties in automatically extracting references due to variations in formatting across institutions. In this study, we addressed this issue by introducing the task of separating references from non-reference phrases, in addition to the commonly used metadata extraction task for reference extraction. The study employed datasets that included various types of references, such as those from research reports of a particular institution, academic journals, and a combination of academic journal references and non-reference texts. Two deep learning language models, namely RoBERTa+CRF and ChatGPT, were compared to evaluate their performance in automatic extraction. They were used to extract metadata, categorize data types, and separate original text. The research findings showed that the deep learning language models were highly effective, achieving maximum F1-scores of 95.41% for metadata extraction and 98.91% for categorization of data types and separation of the original text. These results provide valuable insights into the use of deep learning language models and different types of datasets for constructing reference databases for research reports including both reference and non-reference texts.

초록보기
초록

본 연구에서는 성격유형과 흥미유형에 따른 독서 감상문에 나타난 독서에 대한 반응의 차이를 탐구하였다. 이를 위해 대전의 D과학고등학교 3학년 학생 81명을 대상으로 성격유형분석 데이터, 흥미유형분석 데이터, 교과독서 활동으로 작성된 독서 감상문 데이터를 수집하였다. 수집된 독서 감상문의 토픽 분석을 수행하고, 성격유형(사고형, 감정형)과 흥미유형(탐구형, 탐구형 외)에 따른 독서 감상문의 토픽 발현 확률을 통계적으로 검증하였다. 이어서 키워드 네트워크 분석을 통해 단어들의 개념 연결 구조를 측정하고, 중심성 지표를 통해 토픽모델링의 분석 결과를 보완하였다. 연구 결과, 토픽 회귀분석을 통해 토픽2(이해와 공부)와 토픽3(읽기와 사고)에서 사고형(T)과 감정형(F) 간에 통계적으로 유의한 차이를 확인할 수 있었으며, 토픽2(이해와 공부)에서 탐구형과 탐구형 외 간에 통계적으로 유의한 차이가 확인되었다. 본 연구의 결과는 맞춤형 도서 추천이나 개인화를 고려한 독서교육의 기초자료로 활용될 수 있을 것이다.

Abstract

This study aimed to investigate the difference in response to reading as shown in book reports by personality type and interest type. For this purpose, personality type analysis data, interest type analysis data, and book report data written in subject reading activities were collected from 81 third graders at D Science High School in Daejeon. Topic analysis was conducted on the collected book reports, and the probability of a topic being mentioned was statistically tested according to personality type (thinking type, feeling type) and interest type (investigative type, types other than investigative). Subsequently, the conceptual connection structure of words was measured by keyword network analysis, and the analysis results of topic modeling were complemented by the centrality index. As a result of the study, the topic regression analysis showed statistically significant differences between thinking type (T) and feeling type (F) in topic 2 (understanding and studying) and topic 3 (reading and thinking), and statistically significant differences between investigative type and non-investigative type in topic 2 (understanding and studying). The results of this study can be used as a basis for tailored book recommendations and personalized reading education.

16
심지영(연세대학교 대학도서관발전연구소) 2023, Vol.40, No.4, pp.279-306 https://doi.org/10.3743/KOSIM.2023.40.4.279
초록보기
초록

본 연구는 다양한 관점의 이용요구가 혼재되어있는 독서자료의 속성을 파악하기 위해, 도서의 동시이용(동시대출, 동시구매) 데이터에 기반하여 독서자료의 선택 및 이용과 관계된 서지적 속성을 분석하였다. KDC 주제, 독자대상, 이용자 연령 관련 26개 하위 속성 단위로 구분하여 서지적 속성 용어의 동시출현행렬을 생성하고 네트워크 분석을 수행한 결과, 독서자료의 서지적 속성의 세부 내용 및 두드러진 매개 역할을 파악하였다. 본 연구의 결과는 향후 도서관 OPAC을 비롯한 독서정보 시스템의 패싯 설계에 도움이 될 것이다.

Abstract

This study analyzed bibliographic attributes related to the selection and use of reading materials based on data on books borrowed or purchased together in order to understand the properties of reading materials that have complex user needs from various perspectives. As a result of creating co-occurrence matrices of bibliographic attribute terms by dividing them into 26 sub-attribute units related to KDC main class, target reader, and user age, and performing network analyses, the details and prominent mediating role of bibliographic attributes of reading materials were identified. The results of this study will be helpful in designing facets of reading information systems, including library OPAC, in the future.

17
박민정(중앙대학교 일반대학원 문헌정보학과) ; 이승민(중앙대학교 문헌정보학과 교수) 2023, Vol.40, No.3, pp.197-219 https://doi.org/10.3743/KOSIM.2023.40.3.197
초록보기
초록

자료를 기술하기 위해 일반적으로 활용하는 AACR 계열의 목록규칙과 서지구조는 한국의 고문헌만이 지니고 있는 서지적 특성을 구체적으로 반영하는 것에 한계를 보이고 있다. 이에 본 연구에서는 고문헌의 서지적 측면을 분석하고 FRBR LRM 개념적 모형을 기반으로 기술항목 사이의 관계를 형성하여 고문헌의 고유한 특성에 최적화된 서지구조를 제안하였다. 이때 관계의 설정은 관련된 고문헌을 서지적으로 연결시켜 줄 수 있는 방향으로 이루어져야 하며, 이를 위해서는 고문헌, 특히 우리나라의 고문헌이 지닌 서지적 특성과 형태적, 내용적 변형을 충분하게 반영할 수 있는 관계의 형성이 설정되어야 한다. 단위저록 형태의 단편적인 서지레코드만을 생성하는 기존의 서지 환경에서 벗어나 LRM 구조를 적용함으로써 서지데이터 단위로 기술항목을 분리 및 통합하는 것이 가능해진다. 이를 통해 새로운 서지적 환경을 마련함으로써 고문헌의 조직, 관리, 활용을 보다 효율적으로 할 수 있게 되며, 향후 BIBFRAME 형식의 서지데이터 생성 기반을 마련할 수 있다.

Abstract

The cataloging rules of AACR families and bibliographic structure, which are broadly used in describing resources, show limitations in reflecting the unique bibliographic characteristics of Korean old materials. Thus this research proposed a bibliographic structure optimized to the unique bibliographic characteristics of Korean old materials by establishing bibliographic relationships between bibliographic entities based on the FRBR LRM conceptual model. The bibliographic relationships should be established in the way of connecting related materials in the bibliographic structure. These relationships should sufficiently reflect the bibliographic characteristics of the materials, physical variations, and content variations. Through this structure, the bibliographic description can be separated and integrated into the bibliograhpic unit by applying LRM conceptual model. By using the proposed structure, the organization, management, and utilization of Korean old materials can be more efficient. Also, it can provide a new bibliographic environment that can be the foundation of creating BIBFRAME records for Korean old materials.

18
김아현(중앙대학교 일반대학원 문헌정보학과 석사과정) ; 이승민(중앙대학교 사회과학대학 문헌정보학과 교수) 2023, Vol.40, No.3, pp.55-76 https://doi.org/10.3743/KOSIM.2023.40.3.055
초록보기
초록

본 연구는 대학도서관의 주제가이드 개발 및 개선을 위한 고려사항을 도출하기 위해 대학도서관의 주 이용자인 대학생을 중심으로 학술정보 탐색행태를 분석하였다. 분석 결과, 대학생들은 자신의 주관적 정보탐색능력 수준을 높게 평가하고 있었으나, 구체적인 검색어의 설정을 어려워하는 것으로 나타났다. 학술정보 이용 목적은 구체적이며, 하나의 데이터베이스에서 모든 정보탐색행위를 수행하고자 하는 경향을 보이고 있다. 또한 정보자원 선택 시 신뢰성, 적합성, 최신성을 주로 고려하고 있으며, 대학도서관 및 주제가이드에 대한 인식은 전반적으로 낮게 나타났으나 이에 대한 신뢰성은 높은 것으로 분석되었다. 이를 기반으로 향후 대학도서관에서 주제가이드를 개발하거나 개선할 때는 구체적인 정보탐색 목적에 따른 정보원 분류, 정보자원의 유형별 구성, 정보자원 선택 기준 관련 설명 요소 기술, 종합 데이터베이스에 대한 안내, 주제 키워드 추천, 도서관 마케팅 및 내부 기관과의 긴밀한 협업 관계를 고려하는 것이 필요하다.

Abstract

This study analyzed academic information seeking behavior, focusing on university students, the main users of the university library, to derive considerations for the development and improvement of the subject guide of the university library. As a result of the analysis, university students highly evaluated their subjective information seeking ability, but it was found that it was difficult to set specific search terms. The purpose of using academic information is specific, and it has been shown that there is a tendency to perform all information search activities in one database. In addition, when selecting information resources, reliability, suitability, and recency are primarily taken into consideration. Awareness of university libraries and subject guides was generally low, but their reliability was found to be high. Based on this, it is necessary to consider the classification of information sources according to specific information seeking purposes, the composition of information resources, explanatory element technology related to information resource selection criteria, comprehensive database, topic keyword recommendation, library marketing, and close cooperation with internal institutions.

초록보기
초록

기존의 연구자 유형 구분 모델은 대부분 연구성과 지표를 활용해왔다. 이 연구에서는 인용 영향력이 공동연구와 관련이 있다는 점을 감안하여 인용 데이터를 활용하지 않고 공동연구 지표만으로 연구자 유형을 분석하는 새로운 방법을 모색해보았다. 공동연구 패턴과 공동연구 범위를 기준으로 연구자를 Sparse & Wide (SW) 유형, Dense & Wide (DW) 유형, Dense & Narrow (DN) 유형, Sparse & Narrow (SN) 유형의 4가지로 구분하는 모델을 제안하였다. 제안된 모델을 양자계측 분야에 적용해본 결과, 구분된 연구자 유형별로 인용지표와 공저 네트워크 지표에 차이가 있음이 통계적으로 검증되었다. 이 연구에서 제시한 공동연구 특성에 따른 연구자 유형 구분 모델은 인용정보를 필요로 하지 않으므로 연구관리 정책과 연구지원서비스 측면에서 폭넓게 활용할 수 있을 것으로 기대된다.

Abstract

Traditional models for categorizing researcher types have mostly utilized research output metrics. This study proposes a new model that classifies researchers based on the characteristics of research collaboration. The model uses only research collaboration indicators and does not rely on citation data, taking into account that citation impact is related to collaborative research. The model categorizes researchers into four types based on their collaborative research pattern and scope: Sparse & Wide (SW) type, Dense & Wide (DW) type, Dense & Narrow (DN) type, Sparse & Narrow (SN) type. When applied to the quantum metrology field, the proposed model was statistically verified to show differences in citation indicators and co-author network indicators according to the classified researcher types. The proposed researcher type classification model does not require citation information. Therefore, it is expected to be widely used in research management policies and research support services.

초록보기
초록

정보관리기관은 기관의 디지털 성숙도를 효과적으로 평가하고 개선 방향을 명확히 하여 급속도로 발전하는 정보기술환경에 대응할 필요가 있다. 본 연구는 급변하는 정보환경 속에서 정보관리기관의 효과적인 평가 및 방향설정이 용이하도록 디지털 전환의 관점에서 KISTI가 개발한 디지털 큐레이션 성숙도 모델의 가중치를 도출하였다. AHP기법을 통해 모델의 대분류와 중분류에서 상대적 중요도를 가중치로서 도출하였다. 그 결과를 정리해 보면, 전체 모형의 대분류를 100점 기준으로 측정할 때 기술은 27점, 데이터는 24점, 전략은 19점, 조직(인력)은 16점, (사회적)영향력은 14점으로 계산 가능하였다. 그리고 각 대분류 내 중분류에 대해서도 세부항목 별 가중치를 각각 100점 만점을 기준으로 제시하였다. 본 연구에서 도출한 영역별 가중치를 디지털전환 성숙도 평가 모델에 적용함으로써 보다 객관적이고 합리적인 평가가 가능할 것으로 기대된다.

Abstract

In the rapidly developing information technology environment, information management organizations need to effectively evaluate their digital maturity and clarify the direction of improvement to effectively respond to rapidly changing environments. This study derived weights for the digital curation maturity model developed by KISTI from the perspective of digital transformation to facilitate effective evaluation and direction setting of information management organizations. Relative importance was derived as a weight in the major and middle categories of the model through the AHP technique. Summarizing the results, when the major categories of the entire model are measured on the basis of 100 points, technology is 27 points, data is 24 points, strategy is 19 points, organization (manpower) is 16 points, and (social) influence is calculated as 14 points. In addition, weights for each subcategory were presented for each major classification based on a perfect score of 100 points. It is expected that a more objective and reasonable evaluation will be possible by applying the weights for each area derived from this study to the digital transformation maturity evaluation model.

정보관리학회지