바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: text mining, 검색결과: 24
21
정도헌(덕성여자대학교) ; 주황수(덕성여자대학교) 2018, Vol.35, No.3, pp.77-100 https://doi.org/10.3743/KOSIM.2018.35.3.077
초록보기
초록

본 연구는 텍스트 마이닝 기법을 활용하여 대량의 데이터로부터 학제 간 융합 기술을 발굴하는 일련의 과정을 제시하는 것을 목표로 한다. 바이오공학 기술(BT) 분야와 정보통신 기술(ICT) 분야 간의 융합 연구를 위해 (1) BT 분야의 기술용어 목록을 작성하여 대량의 학술논문 메타데이터를 수집한 후 (2) 패스파인더 네트워크 척도 알고리즘을 이용해 유망 기술의 지식 구조를 생성하고 (3) 토픽 모델링 기법을 사용하여 BT분야 중심의 내용 분석을 수행하였다. 다음 단계인 BT-ICT 융합 기술 아이템 도출을 위해, (4) BT-ICT 관련 정보를 얻기 위해 BT 기술용어 목록을 상위 개념으로 확장한 후 (5) OpenAPI 서비스를 이용하여 두 분야가 관련된 학술 정보의 메타데이터를 자동 수집하여 (6) BT-ICT 토픽 모델의 내용 분석을 실시하였다. 연구를 통해 첫째, 융합 기술의 발굴을 위해서는 기술 용어 목록의 작성이 중요한 지식 베이스가 된다는 점과 둘째, 대량의 수집 문헌을 분석하기 위해서는 데이터의 차원을 줄여 분석을 용이하게 해주는 텍스트 마이닝 기법이 필요하다는 점을 확인하였다. 본 연구에서 제안한 데이터 처리 및 분석 과정이 학제 간 융합 연구의 가능성이 있는 기술 요소들을 발굴하는 데 효과적이었음을 확인할 수 있었다.

Abstract

The objectives of this study is to present a discovering process of interdisciplinary convergence technology using text mining of big data. For the convergence research of biotechnology(BT) and information communications technology (ICT), the following processes were performed. (1) Collecting sufficient meta data of research articles based on BT terminology list. (2) Generating intellectual structure of emerging technologies by using a Pathfinder network scaling algorithm. (3) Analyzing contents with topic modeling. Next three steps were also used to derive items of BT-ICT convergence technology. (4) Expanding BT terminology list into superior concepts of technology to obtain ICT-related information from BT. (5) Automatically collecting meta data of research articles of two fields by using OpenAPI service. (6) Analyzing contents of BT-ICT topic models. Our study proclaims the following findings. Firstly, terminology list can be an important knowledge base for discovering convergence technologies. Secondly, the analysis of a large quantity of literature requires text mining that facilitates the analysis by reducing the dimension of the data. The methodology we suggest here to process and analyze data is efficient to discover technologies with high possibility of interdisciplinary convergence.

22
유종덕(경기대학교) ; 최은주(경기대학교) 2011, Vol.28, No.1, pp.123-144 https://doi.org/10.3743/KOSIM.2011.28.1.123
초록보기
초록

본 연구는 학문의 지적 구조를 분석하는 새로운 분석기법인 저자프로파일링분석과 전통적인 분석기법인 저자동시인용분석을 비교하여 분석함으로써 국내 연구환경에 맞는 지적 구조 분석 방법을 제안하는 데 목적을 두고 있다. 이를 위하여 본 연구에서는 인용색인을 이용하지 않고 학문의 지적 구조를 분석할 수 있는 텍스트마이닝을 이용한 저자프로파일링분석을 통하여 새로운 지적 구조 방법의 유용성을 확인하고자 하였다. 분석대상 학술지는 대한건축학회 논문집 - 계획계를 대상으로 하였다.

Abstract

This study compared Author Profiling Analysis(APA) to Author Co-Citation Analysis (ACA). The former is a new analytic technique on the intellectual structure of a science whereas the latter is a traditional analytic technique. The purpose of this study was to propose appropriate methods to analyze intellectual structure of a science in the Korean research environment. In order to achieve the goal, this study adopted APA using Text Mining for analysis on the intellectual structure of a science rather than relying on citation index in order to determine a potential utility of the new analytic technique that can identify the intellectual structure.

초록보기
초록

본 연구의 목적은 1) 소설 속 지명 데이터베이스(DB)를 구축하고, 2) 확장 가능한 지명 DB를 위해 자동으로 지명을 추출하여 데이터베이스를 갱신하며, 3) 데이터베이스 내의 소설지명과 용례를 검색하고 시각화하는 파일럿시스템을 구현하는 데 있다. 특히, 학습자료(training)에 해당하는 말뭉치(corpus)를 확보하기 어려운, 소설지명과 같이 현재 잘 쓰이지 않는 개체명을 자동으로 추출하는 것은 매우 어려운 문제이다. 효과적인 지명 정보 추출용 학습자료 말뭉치 확보 문제를 해결하기 위해 본 논문에서는 이미 수작업으로 구축된 웹 지식(어휘사전)을 활용하여 학습에 필요한 충분한 양의 학습말뭉치를 확보하는 방안을 적용하였다. 이렇게 확보된 학습용 코퍼스와 학습된 자동추출 모듈을 가지고, 새로운 지명 용례를 찾아 추가하는 지명 데이터베이스 확장 도구를 만들었으며, 소설지명을 지도 위에 시각화하는 시스템을 설계하였다. 또한, 시범시스템을 구현함으로써 실험적으로 그 타당성을 입증하였다. 끝으로, 현재 시스템의 보완점을 제시하였다.

Abstract

This study aimed to design a semi-automatic web-based pilot system 1) to build a Korean novel geo-name, 2) to update the database using automatic geo-name extraction for a scalable database, and 3) to retrieve/visualize the usage of an old geo-name on the map. In particular, the problem of extracting novel geo-names, which are currently obsolete, is difficult to solve because obtaining a corpus used for training dataset is burden. To build a corpus for training data, an admin tool, HTML crawler and parser in Python, crawled geo-names and usages from a vocabulary dictionary for Korean New Novel enough to train a named entity tagger for extracting even novel geo-names not shown up in a training corpus. By means of a training corpus and an automatic extraction tool, the geo-name database was made scalable. In addition, the system can visualize the geo-name on the map. The work of study also designed, implemented the prototype and empirically verified the validity of the pilot system. Lastly, items to be improved have also been addressed.

24
강대신(한국과학기술연구원) ; 문성빈(연세대학교) 2009, Vol.26, No.3, pp.377-394 https://doi.org/10.3743/KOSIM.2009.26.3.377
초록보기
초록

본 연구는 기존의 연구성과 분석의 한계를 극복하고 영향력이나 파급효과 등 질적 중심의 연구성과 분석을 위해 텍스트 마이닝, 인용 분석 등을 활용한 새로운 계량정보학적 분석지표를 제안하였다. 즉, 논문품질지수, 인용 영향력지수, 지식확산지수, 국제협력연구지수, 우수논문 생산지수 등 새로운 연구성과 분석지표를 제안하여 질적인 측면을 중심으로 한 연구성과 분석이 가능하도록 하였다. 그리고 제안된 지표를 활용하여 사례분석을 수행하여 그 가능성을 확인하였다.

Abstract

There are some limitations in the existing bibliometric methods to satisfy the various requests of the interest parties including researchers, managers, policy makers to identify 1) which research group or researcher is the key player, and the overall trends of the particular technological sub-fields, 2) which research groups, institutions or countries mainly use their research outputs, 3) what are the spin-offs from research outputs to some scientific and technological fields, 4) in which levels they are when comparing their quantitative and qualitative research outputs to those of other competitive institutions. It is essential to develop new informetric indicators and methodologies in order to satisfy stakeholder's various demands and to strengthen qualitative analysis in measuring research performance. This study suggested informetric indicators such as article quality index, citation impact index, international cooperation index, excellent article production index and methodologies including citation analysis, text mining.

정보관리학회지