바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: extraction method, 검색결과: 28
초록보기
초록

이 연구에서는 토픽 모델링 결과 해석의 용이성을 위하여, 동적 인용 네트워크를 활용하여 LDA 기반 토픽 모델링의 토픽 수를 설정하고 중복 배치된 주요 키워드를 자아 중심 네트워크 분석을 통해 재배치하여 제시하는 방법을 제안하였다. ‘White LED’ 두 분야의 논문 데이터를 이용하여 분석한 결과, 동적 인용 네트워크 분석을 통해 형성된 분석대상 문헌집단에 혼잡도에 따른 토픽수를 사용하고 중복 분류된 토픽 내 주요 키워드를 자아중심 네트워크 분석 기법을 적용하여 재배치한 결과가 토픽 간의 중복도가 가장 낮은 것으로 나타났다. 따라서 동적 인용 네트워크 및 자아 중심 네트워크 분석을 적용함으로써 토픽모델링에 의한 분석 결과를 보완하는 다면적인 연구 동향 분석이 가능할 것으로 보인다.

Abstract

The combined approach of using ego-centric network analysis and dynamic citation network analysis for refining the result of LDA-based topic modeling was suggested and examined in this study. Tow datasets were constructed by collecting Web of Science bibliographic records of White LED and topic modeling was performed by setting a different number of topics on each dataset. The multi-assigned top keywords of each topic were re-assigned to one specific topic by applying an ego-centric network analysis algorithm. It was found that the topical cohesion of the result of topic modeling with the number of topic corresponding to the lowest value of perplexity to the dataset extracted by SPLC network analysis was the strongest with the best values of internal clustering evaluation indices. Furthermore, it demonstrates the possibility of developing the suggested approach as a method of multi-faceted research trend detection.

초록보기
초록

기록관리학은 전통적인 기록학과 문서관리, 디지털 데이터의 처리에 이르기까지 복합학적인 학문으로 재정립하였다. 본 연구에서는 국내 기록관리학 대표 학술지인 「한국기록관리학회지」와 「기록학연구」에 2000년부터 2015년까지 게재된 681편의 논문을 조사하여 기록관리 분야의 학제성과 주제 변화 추이에 대해 분석하였다. 이를 위해 두 학술지에 발표된 모든 논문으로부터 저자의 소속기관, 직업, 학문분야, 공저자, 그리고 주제 분야를 추출하였다. 분석방법으로 빈도분석과 네트워크 분석을 사용하였다. 분석 내용은 다음과 같다. 첫째, 두 학회지는 연구자 배경(소속 기관, 직업, 학문문야)에서 분명한 차이를 보인다. 둘째, 공동연구는 점차 증가하는 추세이며, 대학이 중심이 되어 연구가 이루어졌다. 셋째, 각 학회지별 주제 변화 추이를 살펴보았다. 마지막으로 각 기관별로 중심이 되는 주제 영역에 차이를 확인할 수 있었다.

Abstract

In recent years, Korea’s archives management is reestablished as an academic subject. This study presents the interdisciplinarity and the research trend of Archives management in Korea. For the study, 681 articles from Journal of Records Management & Archives Society of Korea and The Korean Journal of Archival Studies published between 2000 and 2015 is analyzed. In this articles, author’s background (agency, job, discipline) and subject is extracted. Cross- tabulation analysis and network analysis are used as major methods. The summary of the study is as follows: First, there are distinct difference between two journals about researcher’s backgrounds. Second, joint-research is gradually increasing and the majority of co-authors are belong to the university. Third, two journals show different research trend. Finally, each institution have different interest about specific subjects.

23
윤재혁(성균관대학교 일반대학원 문헌정보학과) ; 도슬기(성균관대학교 일반대학원 문헌정보학과) ; 오삼균(성균관대학교 문헌정보학과) 2020, Vol.37, No.2, pp.197-223 https://doi.org/10.3743/KOSIM.2020.37.2.197
초록보기
초록

본 연구는 통합서지용 한국문헌자동화목록(KORMARC)으로 작성된 서지레코드를 FRBR의 저작(Work) 단위로 군집화 하는 과정에서 나타난 이슈사항들을 분석하고, 이에 대한 해결방안을 고안하였다. 특히 기존의 연구에서는 대표저작자를 식별하고 처리하는 기준이 명확하게 드러나지 않거나 파생저작 레코드의 대표저작자를 선정하는 방법에 대한 논의가 충분히 이루어지지 않았다. 따라서 본 연구는 저작을 창작하는 데 기여한 사람이 다수일 때 대표저작자를 명확하게 식별하기 위한 방법을 고안하는 데 초점을 맞추었다. 이를 위해 책임표시사항(245) 필드의 책임표시 태그(▼d, ▼e)에서 추출한 역할용어를 토대로 표준화된 저자역할용어사전을 개발하여 대표저작자 판별에 활용하는 방안을 마련하였다. 또한 저자명의 유사도와 표제의 유사도를 각각 계산하여 유사도가 일정 수준 이상인 경우 동일한 저작으로 군집화 하는 방법을 채택하였다. 각각의 유사도를 계산하여 동일 저작을 판단하므로 공백, 관제처리, 괄호제거와 같은 데이터 정제 조건을 조정하여 6가지 패턴에 따른 군집화의 정확도를 비교하였고, 저자명과 표제의 유사도가 모두 80퍼센트 이상일 때의 정확도가 가장 높게 나타났다. 본 연구는 대표저작자 선정을 위한 역할용어사전 개발, 대표저작자와 표제의 유사도를 별도로 측정하여 저작군집화를 시도한 실험연구이며 후속 연구에서는 표제 간 유사도 측정의 정확도를 향상시키는 방안과 FRBR 1그룹의 다른 개체(표현형, 구현형, 개별자료) 수준으로 확대하여 활용하는 방안, 국내에서 사용하고 있는 다른 형태의 MARC 데이터에 적용하는 방안을 고안할 예정이다.

Abstract

The purpose of this study is to analyze the issues resulted from the process of grouping KORMARC records using FRBR WORK concept and to suggest a new method. The previous studies did not sufficiently address the criteria or processes for identifying representative authors of records and their derivatives. Therefore, our study focused on devising a method of identifying the representative author when there are multiple contributors in a work. The study developed a method of identifying representative authors using an author role dictionary constructed by extracting role-terms from the statement of responsibility field (245). We also designed another way to group records as a work by calculating similarity measures of authors and titles. The accuracy rate of WORK grouping was the highest when blank spaces, parentheses, and controling processes were removed from titles and the measured similarity rates of authors and titles were higher than 80 percent. This was an experiment study where we developed an author-role dictionary that can be utilized in selecting a representative author and measured the similarity rate of authors and titles in order to achieve effective WORK grouping of KORMARC records. The future study will attempt to devise a way to improve the similarity measure of titles, incorporate FRBR Group 1 entities such as expression, manifestation and item data into the algorithm, and a method of improving the algorithm by utilizing other forms of MARC data that are widely used in Korea.

24
성희혜(숙명여자대학교 문헌정보학과 석사졸업) ; 이혜은(숙명여자대학교 문헌정보학과 부교수) 2021, Vol.38, No.3, pp.239-262 https://doi.org/10.3743/KOSIM.2021.38.3.239
초록보기
초록

「조선의보」는 일제강점기에 일본의 의사단체에 대항하여 조선인 의학자들이 창립한 단체인 조선의사협회에서 발간된 최초의 우리말 의학학술지이다. 본 연구는 계량서지학적 연구방법을 사용하여 「조선의보」를 분석하였다. 먼저, 112편의 논문 제목에서 MeSH (Medical Subject Headings) 용어를 추출하여 주제 경향을 분석하고, 저자의 특성, 논문에 사용된 언어를 파악하였다. 이어서 참고문헌의 발행국과 발행 연도를 분석하고 좌담회의 제목에서 추출한 키워드의 빈도분석을 통하여 당시 연구자들의 관심사를 살펴보았다. 연구의 결과 감염 및 전염병, 병리학적 증상, 소화기 질환을 주제로 하는 연구가 많이 수행되었고, 연구자의 소속은 세브란스연합의학전문학교가 가장 많았으며 주로 내과와 외과 교실에 속해있었다. 논문의 제목과 본문은 국한문혼용으로 표기된 것이 가장 많았고, 131편의 논문 중 40편만 초록이 있었으며, 이 중 영문 초록이 22편으로 가장 많았다. 연구자들이 인용한 1,103개의 참고문헌을 분석한 결과 주로 일본, 독일, 미국에서 발행된 최신 학술지를 인용하였음을 확인하였다. 좌담회의 주요 논제는 결핵, 신경쇠약, 임질 순이었다. 이 연구를 통하여 우리말로 된 의학학술지 간행의 역사를 고찰하였으며, 1930년대 조선인 의학자들이 「조선의보」에 연구 성과를 축적하고, 의학 학술 커뮤니티를 통하여 의학 수준을 높이는데 기여하였음을 확인하였다.

Abstract

The Korean Medical Journal (1930-1937) is the first Korean medical journal published by The Korean Medical Association, which Korean doctors established to resist Japanese medical organizations during the Japanese colonial period. Using the bibliometric research method for The Korean Medical Journal, this study aimed to analyze the journal as follows. First, the study analyzed the subject trends of medical research by extracting the MeSH terms from the title of the articles. Next, the study identified characteristics of authors, type of language used in the papers, publication year and countries of references included in the papers. Also, this study identified the researchers’ interests by analyzing the frequency of keywords appearing in the roundtable titles. As a result of the research, infections, pathological symptoms and diseases of the digestive system were studied most often. Most authors belonged to Severance Union Medical College, and internal medicine and general surgery departments had the most authors. Most of the titles and texts of the papers were written in Korean and Chinese characters in combination. Of the 131 papers, only 40 contained abstracts, 22 of which were English abstracts, the most number. The study analyzed 1,103 references in the papers and found that the authors mainly cited the latest journals published in Japan, Germany, and the United States. The topics discussed the most in the roundtable talks were tuberculosis, neurasthenia, and gonorrhea in order. This research examined the history of the publication of The Korean medical journal. Also, it showed that Korean doctors accumulated their academic medical research results and contributed to improving medical conditions.

25
김선욱(경북대학교 사회과학대학 문헌정보학과) ; 양기덕(영남고문헌아카이브센터) 2022, Vol.39, No.3, pp.99-132 https://doi.org/10.3743/KOSIM.2022.39.3.099
초록보기
초록

본 연구의 목적은 LDA 토픽모델링 결과와 BERTopic 토픽모델링 결과를 합성하는 방법론인 Augmented and Extended Topics(AET)를 제안하고, 이를 사용해 문헌정보학 분야의 연구주제를 분석하는 데 있다. AET의 실제 적용결과를 확인하기 위해 2001년 1월부터 2021년 10월까지의 Web of Science 내 문헌정보학 학술지 85종에 게재된 학술논문 서지 데이터 55,442건을 분석하였다. AET는 서로 다른 토픽모델링 결과의 관계를 WORD2VEC 기반 코사인 유사도 매트릭스로 구축하고, 매트릭스 내 의미적 관계가 유효한 범위 내에서 매트릭스 재정렬 및 분할 과정을 반복해 증강토픽(Augmented Topics, 이하 AT)을 추출한 뒤, 나머지 영역에서 코사인 유사도 평균값 순위와 BERTopic 토픽 규모 순위에 대한 조화평균을 통해 확장토픽(Extended Topics, 이하 ET)을 결정한다. 최적 표준으로 도출된 LDA 토픽모델링 결과와 AET 결과를 비교한 결과, AT는 LDA 토픽모델링 토픽을 한층 더 구체화하고 세분화하였으며 ET는 유효한 토픽을 발견하였다. AT(Augmented Topics)의 성능은 LDA 이상이었으며 ET(Extended Topics)는 일부 경우를 제외하고 대부분 LDA와 유사한 수준의 성능을 나타내었다.

Abstract

The purpose of this study is to propose AET (Augmented and Extended Topics), a novel method of synthesizing both LDA and BERTopic results, and to analyze the recently published LIS articles as an experimental approach. To achieve the purpose of this study, 55,442 abstracts from 85 LIS journals within the WoS database, which spans from January 2001 to October 2021, were analyzed. AET first constructs a WORD2VEC-based cosine similarity matrix between LDA and BERTopic results, extracts AT (Augmented Topics) by repeating the matrix reordering and segmentation procedures as long as their semantic relations are still valid, and finally determines ET (Extended Topics) by removing any LDA related residual subtopics from the matrix and ordering the rest of them by (BERTopic topic size rank, Inverse cosine similarity rank). AET, by comparing with the baseline LDA result, shows that AT has effectively concretized the original LDA topic model and ET has discovered new meaningful topics that LDA didn’t. When it comes to the qualitative performance evaluation, AT performs better than LDA while ET shows similar performances except in a few cases.

26
변영태(홍익대학교) ; 황상규(홍익대학교) ; 정찬기(국방대학교) 2010, Vol.27, No.4, pp.33-47 https://doi.org/10.3743/KOSIM.2010.27.4.033
초록보기
초록

정보기술혁명 및 네트워크 기반 정보공유 대중화는 국방 분야 디지털콘텐츠 수를 증가시켰다. 이에 따라 급격하게 그 수가 증가한 장기 보존된 디지털화된 공공정보 가운데 사용자 본인에게 적합한 공공정보를 찾는 것은 매우 중요한 문제로 대두되고 있다. 디지털콘텐츠는 원 자료의 출처 및 생산 시기에 따라 그 형태가 매우 다양하고, 디지털콘텐츠 간에는 많은 상호 연관 관계가 존재한다. 비즈니스 서비스 온톨로지는 공공분야 디지털 아카이브 정보 생산자와 정보 이용자 간의 상호 지식을 명시화하고 지식을 공유할 수 있는 방안을 제공함으로써 디지털 공공정보 검색능력을 증진시키는데 많은 도움을 줄 수 있다. 비즈니스 서비스 온톨로지는 정보 생산자와 정보 이용자 간의 교량과 같은 인터페이스 역할을 수행하는 것이다. 그러나 업무 처리절차에 대한 의미 지식 추출의 어려움으로 인하여, 비정형의 업무 활동들로부터 정형화된 비즈니스 서비스로의 매핑 정보를 제공하는 비즈니스 서비스 온톨로지 자동화는 실용화하기가 매우 힘든 실정이다. 이러한 문제점을 해결하고자 본 연구에서는 비즈니스 서비스 온톨로지 구축을 위한 첫 단계로써 전사적 아키텍처(ITA/EA)로부터 단위 비즈니스 서비스 식별 자동화 방안을 제안한다.

Abstract

The growth of IT technology and the popularity of network based information sharing increase the number of digital contents in military area. Thus, there arise issues of finding suitable public information with the growing number of long-term preservation of digital public information. According to the source of raw data and the time of compilation may be variable and there can be existed in many correlations about digital contents. The business service ontology makes knowledge explicit and allows for knowledge sharing among information provider and information consumer for public digital archive engaged in improving the searching ability of digital public information. The business service ontology is at the interface as a bridge between information provider and information consumer. However, according to the difficulty of semantic knowledge extraction for the business process analysis, it is hard to realize the automation of constructing business service ontology for mapping from unformed activities to a unit of business service. To solve the problem, we propose a new business service auto-acquisition method for the first step of constructing a business service ontology based on Enterprise Architecture.

27
김은진(한국법제연구원 기록물관리전문요원) ; 구정화(한남대학교 문헌정보학과) 2022, Vol.39, No.4, pp.159-189 https://doi.org/10.3743/KOSIM.2022.39.4.159
초록보기
초록

본 연구는 인류의 자산이자 중요기록물인 세계기록유산의 홍보활동을 활성화하기 위한 초기 연구로, 국내 세계기록유산의 웹사이트를 통한 온라인 홍보현황을 파악하고 개선방안을 제안하였다. 세계기록유산의 홍보의 의미를 정의하고 문헌연구를 통해 현황 분석을 위한 기준을 도출하였다. 홍보활동 분석영역을 홍보내용, 홍보유형, 홍보매체으로 나누고 세부 홍보항목과 내용을 설정하였다. 도출된 분석기준을 바탕으로 국내 세계기록유산을 소장 관리하고 있으며 온라인홍보 활동을 수행하고 있는 11개 기관의 21개 웹사이트를 분석하였다. 분석 결과 내용을 바탕으로 첫째, 세계기록유산의 홍보내용에는 보존가치와 활용가치가 상호 강조되어야 하며 둘째, 이용자 세분화를 통한 홍보가 이루어져야 하며 셋째, 관련 기록유산을 통합하거나 연결하는 시스템 및 서비스 구축하여 기록유산에 대한 이용자의 접근성을 높여야 하며 끝으로, 세계기록유산 홍보 관련 지침 또는 매뉴얼을 마련해야 할 것을 개선방안으로 제언하였다.

Abstract

The research aims to recommend strategies to promote PR activities of ‘the Memory of the World(MoW)’ on the websites. To achieve the goal, the researchers analyzed the current conditions of online PRs of the MoW in S. Korea by developing the standards/elements for analysis. The research examined the two main concepts of MoW and extracted the three core standards/elements for evaluating current online PRs of MoW through reviewing earlier studies: contents of PRs, ways of PRs, and features of media. The research examined PR activities on the 21 websites of 11 institutions which manage MoW in South Korea. The research found the significant features of the online PRs and suggested detailed strategies for improving the online PRs of MoW: first, it is required to emphasize the values of both preservation and utilization of MoW equally. Second, it is necessary to promote the PRs of MoW by using the way of ‘user segmentation’. Third, it needs to develop the unit systems and/or services to integrate with related documentary heritages so that users can access documentary heritages effectively and efficiently. Finally, it is required to develop the guidelines or/and manuals to conduct and promote the PRs of the MoW by providing specific directions and methods of publicities.

28
이재윤(명지대학교 문헌정보학과) ; 정은경(이화여자대학교 문헌정보학과) 2022, Vol.39, No.1, pp.309-330 https://doi.org/10.3743/KOSIM.2022.39.1.309
초록보기
초록

학문의 구조, 특성, 하위 분야 등을 계량적으로 규명하는 지적구조 분석 연구가 최근 급격히 증가하는 추세이다. 지적구조 분석 연구를 수행하기 위하여 전통적으로 사용되는 분석기법은 서지결합분석, 동시인용분석, 단어동시출현분석, 저자서지결합분석 등이다. 이 연구의 목적은 키워드서지결합분석(KBCA, Keyword Bibliographic Coupling Analysis)을 새로운 지적구조 분석 방식으로 제안하고자 한다. 키워드서지결합분석 기법은 저자서지결합분석의 변형으로 저자 대신에 키워드를 표지로 하여 키워드가 공유한 참고문헌의 수를 두 키워드의 주제적 결합 정도로 산정한다. 제안된 키워드서지결합분석 기법을 사용하여 Web of Science에서 검색된 ‘Open Data’ 분야의 1,366건의 논문집합을 대상으로 분석하였다. 1,366건의 논문집합에서 추출된 7회 이상 출현한 63종의 키워드를 오픈데이터 분야의 핵심 키워드로 선정하였다. 63종의 핵심 키워드를 대상으로 키워드서지결합분석 기법으로 제시된 지적구조는 열린정부와 오픈사이언스라는 주된 영역과 10개의 소주제로 규명되었다. 이에 반해 단어동시출현분석의 지적구조 네트워크는 전체 구성과 세부 영역 구조 규명에 있어 미진한 것으로 나타났다. 이러한 결과는 키워드서지결합분석이 키워드 간의 서지결합도를 사용하여 키워드 간의 관계를 풍부하게 측정하기 때문이라고 볼 수 있다.

Abstract

Intellectual structure analysis, which quantitatively identifies the structure, characteristics, and sub-domains of fields, has rapidly increased in recent years. Analysis techniques traditionally used to conduct intellectual structure analysis research include bibliographic coupling analysis, co-citation analysis, co-occurrence analysis, and author bibliographic coupling analysis. This study proposes a novel intellectual structure analysis method, Keyword Bibliographic Coupling Analysis (KBCA). The Keyword Bibliographic Coupling Analysis (KBCA) is a variation of the author bibliographic coupling analysis, which targets keywords instead of authors. It calculates the number of references shared by two keywords to the degree of coupling between the two keywords. A set of 1,366 articles in the field of ‘Open Data’ searched in the Web of Science were collected using the proposed KBCA technique. A total of 63 keywords that appeared more than 7 times, extracted from 1,366 article sets, were selected as core keywords in the open data field. The intellectual structure presented by the KBCA technique with 63 key keywords identified the main areas of open government and open science and 10 sub-areas. On the other hand, the intellectual structure network of co-occurrence word analysis was found to be insufficient in the overall structure and detailed domain structure. This result can be considered because the KBCA sufficiently measures the relationship between keywords using the degree of bibliographic coupling.

정보관리학회지