텍스트 마이닝(Text Mining) 개념정리(스마트인재개발원)

스마트인재개발원 머신러닝수업을 들으면서 그동안 분류모델, 회귀모델 수업이 진행되었으며 이번주에는 텍스트 마이닝(Text Mining) 교육이 시작되었습니다.

첫날이라 텍스트 마이닝에 대한 기본개념, 텍스트 마이닝 활용사례, 텍스트 마이닝 기술영역, 텍스트 데이터 구조, 텍스트 마이닝 분석 프로세스 등 이론교육이 진행되었습니다.

텍스트마이닝 활용사례를 구글링 하다보니 다양한 분야에서 활용이 되고 있어서 교육을 잘 받고 활용해보고 싶어지네요

텍스트 마이닝(Text Mining) 개념

텍스트 마이닝은 정형 및 비정형 데이터를 자연어 처리방식(Natural Language Processing)과 문서처리 방법을 적용하여 유용한 정보를 추출하여 가공하는 것을 목적으로 하는 기술

텍스트 마이닝은 데이터로부터 유용한 인사이트를 발굴하는 데이터 마이닝(Data Mining), 언어를 정보로 변화하기 위한 자연어처리, 정보검색 등 다양한 분야가 접목되어 발전한 학문, 기술

텍스트 마이닝 사례

1. 구글학술검색

Google 학술 검색

예: 대한안과학회지 또는 한국물리학회지

scholar.google.com

- 텍스트 마아닝을 이용한 국내 기록관리학 분야 지적구조 분석

- 뉴스 기사 텍스트 마이닝과 네트워크 분석을 통한 폭염의 사회, 경제적 영향유형 도출

- 텍스트 마아닝을 이용한 중,고등학생의 온라인 진로상담 호소문제 분석

- 텍스트 마이닝을 활용한 신문사에 따른 내용 및 논조 차이점 분석

- 온라인 고객리뷰 문석을 통한 시장세분화에 텍스트마이닝 기술 적용

- 텍스트 마이닝을 활용한 공유경제 해외사례 분석

- 텍스트 마이닝을 이용한 윤동주 연구의 개체계량학적 분석

- 뉴스 텍스트 마이닝과 시계열 분석을 이용한 주가예측

- 텍스트 마이닝 기법을 활용한 KTX 차량고장 지능형 조치지원시스템

- 텍스트 마이닝 기반 사용자 경험분석 및 관리 : 스마트 스피커 사례

- 텍스트 마이닝 분석기법을 활용한 부산-상하이 도시 브랜딩 사례연구

2. 인공지능 비서

3. 지식경영, 사이버 범죄 예방, 고객관리서비스

4. AI 활용한 '빼빼로'

롯데제과, AI 활용한 '빼빼로' 신규 제품 출시... '왓슨'으로 소비자 분석

롯데제과, AI 활용한 빼빼로 신규 제품 출시... 왓슨으로 소비자 분석

biz.chosun.com

텍스트 마이닝 기술 영역

텍스트 데이터의 구조

예시) 일기데이터를 분석을 활용하여 감성분석

말뭉치 : 100일간의 일기전체

문서 : 하루 일기

형태소 : 더이상 쪼개면 의미가 없어지는 것 (가방 --> 가 / 방 --> 의미가 없어짐)

텍스트 마이닝 분석 프로세스

텍스트 마이닝 분석 프로세스(데이터수집)

텍스트 마이닝 분석 프로세스(텍스트 전처리)

코퍼스(말뭉치)
말뭉치 또는 코퍼스(영어: corpus, 복수형: corpora)는 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합이다. 컴퓨터의 발달로 말뭉치 분석이 용이해졌으며 분석의 정확성을 위해 해당 자연언어를 형태소 분석하는 경우가 많다.
확률/통계적 기법과 시계열적인 접근으로 전체를 파악한다. 언어의 빈도와 분포를 확인할 수 있는 자료이며, 현대 언어학 연구에 필수적인 자료이다. 인문학에 자연과학적 방법론이 가장 성공적으로 적용된 경우로 볼 수 있다. [출처 - 위키백과]

불용어의 의미는 데이터에서 큰 의미가 없는 단어 토큰을 뜻하며 문장 내에서 자주 등장하지만 문장을 분석하는데 있어서 큰 의미가 없는 단어로 예를 들어 영문 데이터에서 I, my, me, a, an, the, over 등과 같이 문장에서 자주 등장하는 단어지만 실제 의미 분석에 큰 도움을 주지 않는 단어들을 말한다.

텍스트 마이닝 분석 프로세스(토큰화)

텍스트 마이닝 분석 프로세스(특정 값 추출)

텍스트 마이닝 분석 프로세스(데이터 분석)

불용어에 대한 검색을 하다보니 개인 블로거가 포스팅 해놓은 "한국어 불용어 리스트 100개"를 찾았는데 잘 정리되있어서 나중에 불용어 처리시 참고해봐야겠다.

한국어 불용어 리스트 100개

블로그 텍스트를 분석하는 과제를 하던 도중, 한국어 불용어를 제거해야할 일이 생겼어요. komoran으로 형태소 분석후에 어미나 조사는 싹 빼버렸지만, 명사/동사/형용사 등에서 불용어를 제거할

bab2min.tistory.com

스마트인재개발원 : https://www.smhrd.or.kr/

스마트인재개발원

4차산업혁명시대를 선도하는 빅데이터, 인공지능, 사물인터넷 전문 '0원' 취업연계교육기관

www.smhrd.or.kr

저작자표시 (새창열림)

'Learn Coding > AI(인공지능)' 카테고리의 다른 글

텍스트마이닝(Text Mining)-영화 리뷰 데이터#1(스마트인재개발원) (0)	2021.12.08
텍스트마이닝(Text Mining)-영화 리뷰 데이터(스마트인재개발원) (0)	2021.12.07
스마트인재개발원 - 전자상거래 물품 배송예측 대회 (0)	2021.12.06

project_E

텍스트 마이닝(Text Mining) 개념정리(스마트인재개발원)

'Learn Coding > AI(인공지능)' 카테고리의 다른 글

댓글

티스토리툴바

텍스트 마이닝(Text Mining) 개념정리(스마트인재개발원)

'Learn Coding > AI(인공지능)' 카테고리의 다른 글

관련글

댓글

티스토리툴바