바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

검색어: K-means, 검색결과: 6
1
김효윤(연수청학도서관) ; 조재인(인천대학교) 2017, Vol.34, No.1, pp.51-71 https://doi.org/10.3743/KOSIM.2017.34.1.051
초록보기
초록

본 연구는 초등학교 저학년과 고학년, 학부모로 구성된 어린이 도서관 이용자들 200여명이 인지하는 별치 자료간 희망 인지 거리를 다차원척도법(Multi-Dimensional Scaling: MDS)과 K-means 군집분석을 활용해 비교 분석하고 이들의 인지 거리가 실제 어린이 도서관에 어떻게 투영되어 있는지 몇 가지 사례를 통하여 검토해 보았다. 다차원척도법은 분석 대상의 유사성이나 속성 등을 평가하여 공간상에 투영시키는 기법으로 마케팅에서 주로 시장 진단을 위해 활용되지만, 제품이나 시설에 대한 이용자의 인지적 거리를 분석하여 이상적인 물리적 배치 방안을 제시하는 데에도 적용할 수 있다. 분석 결과, 별치 자료간 인지 거리에 있어 초등학교 저학년과 고학년 그리고 학부모 집단간에 각각 차이가 나타났으며, 특히 유․아동자료와 컴퓨터자료 그리고 유아자료와 아동자료간의 인지 거리에 있어 큰 차이가 존재하는 것으로 분석되었다. 한편, Y구의 3개 어린이도서관을 대상으로 분석된 인지 거리 체계가 어떻게 투영되어 있는지 확인해 본 결과, 특정 집단의 인지 체계에 완벽히 부합하는 공간 구조를 지닌 도서관은 존재하지 않았으나, 공통적으로 유․아동자료와 컴퓨터자료, 그리고 유아자료와 아동자료가 분리 배치되어 있다는 점에서 학부모와 초등학생들의 인지 거리가 부분적으로 투영되어 있는 것으로 검토되었다.

Abstract

This study conducted a survey to measure recognition distance between the materials which are located separately in a children’s library targeting 200 elementary school lower grade students, higher grade students, and school parents(adults). And compared recognition distance between the elements of materials of individual visitor group with multidimensional scaling and K-mean group analysis. Multidimensional Scaling (MDS) is a technique for projecting the cognitive state in space by evaluating the similarity or attribute of the analysis target. Even though it is mainly used for market diagnosis in marketing, It can also be applied to present an ideal physical layout plan by analyzing the distance. As a result of analysis, the main discoveries are as follows. First, elementary school students cognize child, baby and computer materials should be adjacent as a same group. But recognition of adults(school parents) is reflected by differing from elementary school students vastly. They cognize that computer materials should be formed as a special group separated from child and baby’s materials. Second, elementary school higher graders and adults(school parents) groups also want to separate their main reading materials from baby’s book, therefore They both want to secure silent reading space separating from baby. Third, as a result to confirming how this recognition distance system of materials is reflected in a real children’s library through three children’s libraries in Y-gu, Incheon, there is no library with structure according perfectly with a recognition system of a particular class, but a recognition system of adults and elementary school students is partially reflected because baby, child and computer materials, and baby and child materials are commonly separated and placed. It is difficult to insist that a recognition system of a visitor group, especially a recognition system of children is absolute consideration conditions in material placement of a children’s library. However, understanding cognition of the user groups can be an important evidentiary factors to offer differentiated service space according to visitors and effective placement of the elements of library resources.

2
이신원(중원대학교) ; 안동언(전북대학교) ; 정성종(전북대학교) 2004, Vol.21, No.4, pp.173-185 https://doi.org/10.3743/KOSIM.2004.21.4.173
초록보기
초록

정보통신의 기술이 발달하면서 정보의 양이 많아지고 사용자의 질의에 대한 검색 결과 리스트도 많이 추출되므로 빠르고 고품질의 문서 클러스터링 알고리즘이 중요한 역할을 하고 있다. 많은 논문들이 계층적 클러스터링 방법을 이용하여 좋은 성능을 보이지만 시간이 많이 소요된다. 반면 K-means 알고리즘은 시간 복잡도를 줄일 수 있는 방법이다. 본 논문에서는 계층적 클러스터링 시스템인 콘도르(Condor) 시스템에서 간단하고 고품질이며 효율적으로 정보 검색 할 수 있도록 구현하였다. 이 시스템은 K-Means Algorithm을 이용하였으며 클러스터 계층 깊이와 초기값을 조절하여 88%의 정확율을 보였다.

Abstract

Fast and high-quality document clustering algorithms play an important role in providing data exploration by organizing large amounts of information into a small number of meaningful clusters. Many papers have shown that the hierarchical clustering method takes good-performance, but is limited because of its quadratic time complexity. In contrast, with a large number of variables, K-means has a time complexity that is linear in the number of documents, but is thought to produce inferior clusters. In this paper, Condor system using K-Means algorithm Compares with regular method that the initial centroids have been established in advance, our method performance has been improved a lot.

3
한승희(일본 Keio University) ; 정영미(연세대학교) 2004, Vol.21, No.3, pp.251-267 https://doi.org/10.3743/KOSIM.2004.21.3.251
초록보기
초록

The purpose of this study is to generate the local level knowledge structure of a single document, similar to end-of-the-book indexes and table of contents of printed material, through the use of term clustering and cluster representative term selection. Furthermore, it aims to analyze the functionalities of the knowledge structure, and to confirm the applicability of these methods in user-friendly information services. The results of the term clustering experiment showed that the performance of the Ward's method was superior to that of the fuzzy K-means clustering method. In the cluster representative term selection experiment, using the highest passage frequency term as the representative yielded the best performance. Finally, the result of user task-based functionality tests illustrate that the automatically generated knowledge structure in this study functions similarly to the local level knowledge structure presented in printed material.攀*** 본 연구는 연세대학교 대학원 박사학위논문의 일부를 요약한 것임.*** 日本 慶應義塾大學(Keio University) 圖書館情報學科 訪問硏究員(libinfo@yonsei.ac.kr)****연세대학교 문헌정보학과 교수(ymchung@yonsei.ac.kr) 논문접수일자 : 2004년 8월 17일 게재확정일자 : 2004년 9월 10일攀攀

Abstract

4
김선우(경기대학교 문헌정보학과) ; 고건우(경기대학교 문헌정보학과) ; 최원준(한국과학기술정보연구원 콘텐츠 큐레이션센터) ; 정희석(한국과학기술정보연구원 콘텐츠 큐레이션센터) ; 윤화묵(한국과학기술정보연구원 콘텐츠큐레이션센터) ; 최성필(경기대학교) 2018, Vol.35, No.4, pp.141-164 https://doi.org/10.3743/KOSIM.2018.35.4.141
초록보기
초록

최근 학술문헌의 양이 급증하고, 융복합적인 연구가 활발히 이뤄지면서 연구자들은 선행 연구에 대한 동향 분석에 어려움을 겪고 있다. 이를 해결하기 위해 우선적으로 학술논문 단위의 분류 정보가 필요하지만 국내에는 이러한 정보가 제공되는 학술 데이터베이스가 존재하지 않는다. 이에 본 연구에서는 국내 학술문헌에 대해 다중 분류가 가능한 자동 분류 시스템을 제안한다. 먼저 한국어로 기술된 기술과학 분야의 학술문헌을 수집하고 K-Means 클러스터링 기법을 활용하여 DDC 600번 대의 중분류에 맞게 매핑하여 다중 분류가 가능한 학습집합을 구축하였다. 학습집합 구축 결과, 메타데이터가 존재하지 않는 값을 제외한 총 63,915건의 한국어 기술과학 분야의 자동 분류 학습집합이 구축되었다. 이를 활용하여 심층학습 기반의 학술문헌 자동 분류 엔진을 구현하고 학습하였다. 객관적인 검증을 위해 수작업 구축한 실험집합을 통한 실험 결과, 다중 분류에 대해 78.32%의 정확도와 72.45%의 F1 성능을 얻었다.

Abstract

Recently, as the amount of academic literature has increased rapidly and complex researches have been actively conducted, researchers have difficulty in analyzing trends in previous research. In order to solve this problem, it is necessary to classify information in units of academic papers. However, in Korea, there is no academic database in which such information is provided. In this paper, we propose an automatic classification system that can classify domestic academic literature into multiple classes. To this end, first, academic documents in the technical science field described in Korean were collected and mapped according to class 600 of the DDC by using K-Means clustering technique to construct a learning set capable of multiple classification. As a result of the construction of the training set, 63,915 documents in the Korean technical science field were established except for the values ​​in which metadata does not exist. Using this training set, we implemented and learned the automatic classification engine of academic documents based on deep learning. Experimental results obtained by hand-built experimental set-up showed 78.32% accuracy and 72.45% F1 performance for multiple classification.

초록보기
초록

본 논문에서는 온라인 뉴스 기사에서 자동으로 추출된 키워드 집합을 활용하여 특정 시점에서의 세부 주제별 토픽을 추출하고 정형화하는 새로운 방법론을 제시한다. 이를 위해서, 우선 다량의 텍스트 집합에 존재하는 개별 단어들의 중요도를 측정할 수 있는 복수의 통계적 가중치 모델들에 대한 비교 실험을 통해 TF-IDF 모델을 선정하였고 이를 활용하여 주요 키워드 집합을 추출하였다. 또한 추출된 키워드들 간의 의미적 연관성을 효과적으로 계산하기 위해서 별도로 수집된 약 1,000,000건 규모의 뉴스 기사를 활용하여 단어 임베딩 벡터 집합을 구성하였다. 추출된 개별 키워드들은 임베딩 벡터 형태로 수치화되고 K-평균 알고리즘을 통해 클러스터링 된다. 최종적으로 도출된 각각의 키워드 군집에 대한 정성적인 심층 분석 결과, 대부분의 군집들이 레이블을 쉽게 부여할 수 있을 정도로 충분한 의미적 집중성을 가진 토픽들로 평가되었다.

Abstract

In this paper, we propose a new methodology for extracting and formalizing subjective topics at a specific time using a set of keywords extracted automatically from online news articles. To do this, we first extracted a set of keywords by applying TF-IDF methods selected by a series of comparative experiments on various statistical weighting schemes that can measure the importance of individual words in a large set of texts. In order to effectively calculate the semantic relation between extracted keywords, a set of word embedding vectors was constructed by using about 1,000,000 news articles collected separately. Individual keywords extracted were quantified in the form of numerical vectors and clustered by K-means algorithm. As a result of qualitative in-depth analysis of each keyword cluster finally obtained, we witnessed that most of the clusters were evaluated as appropriate topics with sufficient semantic concentration for us to easily assign labels to them.

초록보기
초록

한국의 dCollection이 학위논문 수집기로 활용되고 있는데 반해, 일본의 레포지토리는 다양한 학술 컨텐츠를 수집, 보존, 확산하고 오픈 엑세스를 실현하기 위한 개별 기관의 자발적인 운영 도구로 발전되고 있다. 본 연구는 일본의 기관 레포지토리 통계 DB인 IRDB를 통해 레포지토리의 특성을 통계적으로 분석하고 구축된 컨텐츠량, 종별 구축 비율, 그리고 종간 상관성을 살펴보았다. 또한 등록된 컨텐츠 특성을 변수로 K-means 군집 분석을 수행함으로써, 일본에 형성된 기관 레포지토리가 어떻게 유형화될 수 있는지 분석하였다. 분석 결과, 일본의 기관 레포지토리는 교내학술논문, 학위논문, 기술보고서, 의학자료, 학술잡지논문 등 다양한 컨텐츠를 수용하고 있을 뿐 아니라, 컨텐츠의 특징에 따라 5개의 차별화된 군집으로 유형화됨으로써 다양한 모습으로 발전되어 가고 있었다.

Abstract

While dCollections of Korea have been initiated by a government for metadata harvesting, institutional repositories of Japan have been managed as instituion’s independent tool for not only collectiong, archiving and distributing their intellecture assets, but also realizing open access. This study analyzes IRDB of Japanese statistically for understanding features of institutional repositories and by clustering the repository on the basis of types of contents, the differences have been brightened. According to analysis result, Japanese repository contains diverse types of contents, such as journal articles, scholarly papers, text books and technical reports. etc. and clustered by five distinguished group with different contents type.

정보관리학회지