메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

박종인 (국민대학교, 국민대학교 비즈니스IT전문대학원)

지도교수
김남규
발행연도
2020
저작권
국민대학교 논문은 저작권에 의해 보호받습니다.

이용수2

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (4)

초록· 키워드

오류제보하기
최근 비정형 텍스트 데이터에 대한 다양한 분석 기법의 적용을 위해 텍스트 데이터의 구조화 방안에 대한 연구가 활발하게 이루어지고 있다. doc2Vec을 비롯한 기존의 문서 임베딩 방법은 문서 내 모든 용어를 사용하여 문서 벡터를 생성하기 때문에, 문서의 핵심 내용을 가리키는 용어뿐 아니라 비 핵심 용어의 영향도 받는다는 한계를 갖는다. 더불어 하나의 문서를 하나의 벡터로 나타내는 기존의 문서 임베딩 방식은 다양한 주제를 다루고 있는 복합 문서를 정확하게 표현하기 어렵다는 한계를 갖고 있다. 본 논문에서는 이러한 두 가지 한계를 극복하기 위한 다중 벡터 문서 임베딩 방법론을 새롭게 제안한다. 구체적으로 제안 방법론은 문서의 핵심 단어만을 이용하여 문서를 벡터화하고, 문서 내 다양한 주제를 의미적으로 분해하여 하나의 문서를 여러 개의 벡터 집합으로 표현한다. 한국학술정보 사이트에서 수집한 총 3,147개의 논문을 이용한 실험을 통해 복합 문서를 하나의 벡터로 표현할 경우 벡터의 왜곡 현상이 발생함을 확인하였으며, 주제를 의미적으로 분해하여 다중 벡터로 표현하는 제안 방법론으로 이러한 왜곡 현상을 보정하고 각 문서를 보다 정확하게 임베딩할 수 있다는 사실을 확인하였다.

목차

1. 서론 1
2. 관련 연구 7
2.1. 텍스트 분석 7
2.2. 텍스트 임베딩 8
3. 제안 방법론 12
3.1. 연구 모형 12
3.2. 단어의 벡터화 13
3.3. 다중 벡터 임베딩 16
4. 실험 22
4.1. 실험 개요 22
4.2. 복합 문서 생성 24
4.3. 문서 벡터 생성 26
4.4. 성능 평가 27
4.4.1. 성능 평가 척도 27
4.4.2. 성능 분석 결과 29
4.4.3. 다중 벡터 표현의 효과 분석 32
5. 결론 36
참고문헌 38
Abstract 41

최근 본 자료

전체보기

댓글(0)

0