메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색
질문

논문 기본 정보

자료유형
학술저널
저자정보
전성해 (청주대학교)
저널정보
한국지능시스템학회 한국지능시스템학회 논문지 한국지능시스템학회 논문지 제29권 제6호
발행연도
2019.12
수록면
476 - 481 (6page)
DOI
10.5391/JKIIS.2019.29.6.476

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
🏆
연구결과
AI에게 요청하기
추천
검색
질문

초록· 키워드

오류제보하기
빅데이터 분석에서 텍스트 문서는 매우 큰 비중을 차지한다. 텍스트 기반의 빅데이터를 분석하기 위해서는 전처리 기법을 이용하여 텍스트 문서 데이터를 정형화된 데이터 형태로 만들어야 한다. 왜냐하면 통계학 및 머신러닝에서 제공하는 데이터 분석기법은 정형화된 데이터를 대상으로 하기 때문이다. 정형화된 데이터는 주로 행(문서, 관측치)과 열(단어, 변수)로 이루어진 행렬 구조를 갖는다. 이 행렬의 개별 원소값은 하나의 문서에 나타난 특정 단어의 출현 빈도가 된다. 일반적으로 이 과정에서 0 과잉 문제가 발생한다. 0 과잉 문제란 전체 데이터 값에서 0의 값이 차지하는 비율이 지나치게 큰 경우이다. 0 과잉 문제는 분석모형의 설명력을 떨어뜨리고 예측의 정확도를 감소시킨다. 본 연구에서는 빅데이터의 과도한 0 과잉 문제에 대처하기 위하여 통계학과 머신러닝에서 제공하는 다양한 데이터 분석 기법 간의 비교를 통하여 0 과잉 문제 해결을 위한 효율적인 대처 방안에 대하여 제안한다. 특허 빅데이터를 이용한 실험 및 결과를 통하여 제안 방법의 성능평가를 수행한다.

목차

요약
Abstract
1. 서론
2. 영 과잉 문제
3. 영 과잉 문제를 위한 빅데이터 분석 기법
4. 실험 및 결과
5. 결론 및 향후 연구
References

참고문헌 (23)

참고문헌 신청

함께 읽어보면 좋을 논문

논문 유사도에 따라 DBpia 가 추천하는 논문입니다. 함께 보면 좋을 연관 논문을 확인해보세요!

이 논문의 저자 정보

이 논문과 함께 이용한 논문

최근 본 자료

전체보기

댓글(0)

0