스마트인재개발원 머신러닝수업을 들으면서 그동안 분류모델, 회귀모델 수업이 진행되었으며 이번주에는 텍스트 마이닝(Text Mining) 교육이 시작되었습니다.
첫날이라 텍스트 마이닝에 대한 기본개념, 텍스트 마이닝 활용사례, 텍스트 마이닝 기술영역, 텍스트 데이터 구조, 텍스트 마이닝 분석 프로세스 등 이론교육이 진행되었습니다.
텍스트마이닝 활용사례를 구글링 하다보니 다양한 분야에서 활용이 되고 있어서 교육을 잘 받고 활용해보고 싶어지네요
텍스트 마이닝(Text Mining) 개념
텍스트 마이닝은 정형 및 비정형 데이터를 자연어 처리방식(Natural Language Processing)과 문서처리 방법을 적용하여 유용한 정보를 추출하여 가공하는 것을 목적으로 하는 기술
텍스트 마이닝은 데이터로부터 유용한 인사이트를 발굴하는 데이터 마이닝(Data Mining), 언어를 정보로 변화하기 위한 자연어처리, 정보검색 등 다양한 분야가 접목되어 발전한 학문, 기술
텍스트 마이닝 사례
1. 구글학술검색
- 텍스트 마아닝을 이용한 국내 기록관리학 분야 지적구조 분석
- 뉴스 기사 텍스트 마이닝과 네트워크 분석을 통한 폭염의 사회, 경제적 영향유형 도출
- 텍스트 마아닝을 이용한 중,고등학생의 온라인 진로상담 호소문제 분석
- 텍스트 마이닝을 활용한 신문사에 따른 내용 및 논조 차이점 분석
- 온라인 고객리뷰 문석을 통한 시장세분화에 텍스트마이닝 기술 적용
- 텍스트 마이닝을 활용한 공유경제 해외사례 분석
- 텍스트 마이닝을 이용한 윤동주 연구의 개체계량학적 분석
- 뉴스 텍스트 마이닝과 시계열 분석을 이용한 주가예측
- 텍스트 마이닝 기법을 활용한 KTX 차량고장 지능형 조치지원시스템
- 텍스트 마이닝 기반 사용자 경험분석 및 관리 : 스마트 스피커 사례
- 텍스트 마이닝 분석기법을 활용한 부산-상하이 도시 브랜딩 사례연구
2. 인공지능 비서
3. 지식경영, 사이버 범죄 예방, 고객관리서비스
4. AI 활용한 '빼빼로'
텍스트 마이닝 기술 영역
텍스트 데이터의 구조
예시) 일기데이터를 분석을 활용하여 감성분석
말뭉치 : 100일간의 일기전체
문서 : 하루 일기
형태소 : 더이상 쪼개면 의미가 없어지는 것 (가방 --> 가 / 방 --> 의미가 없어짐)
텍스트 마이닝 분석 프로세스
텍스트 마이닝 분석 프로세스(데이터수집)
텍스트 마이닝 분석 프로세스(텍스트 전처리)
코퍼스(말뭉치)
말뭉치 또는 코퍼스(영어: corpus, 복수형: corpora)는 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합이다. 컴퓨터의 발달로 말뭉치 분석이 용이해졌으며 분석의 정확성을 위해 해당 자연언어를 형태소 분석하는 경우가 많다.
확률/통계적 기법과 시계열적인 접근으로 전체를 파악한다. 언어의 빈도와 분포를 확인할 수 있는 자료이며, 현대 언어학 연구에 필수적인 자료이다. 인문학에 자연과학적 방법론이 가장 성공적으로 적용된 경우로 볼 수 있다. [출처 - 위키백과]
불용어의 의미는 데이터에서 큰 의미가 없는 단어 토큰을 뜻하며 문장 내에서 자주 등장하지만 문장을 분석하는데 있어서 큰 의미가 없는 단어로 예를 들어 영문 데이터에서 I, my, me, a, an, the, over 등과 같이 문장에서 자주 등장하는 단어지만 실제 의미 분석에 큰 도움을 주지 않는 단어들을 말한다.
텍스트 마이닝 분석 프로세스(토큰화)
텍스트 마이닝 분석 프로세스(특정 값 추출)
텍스트 마이닝 분석 프로세스(데이터 분석)
불용어에 대한 검색을 하다보니 개인 블로거가 포스팅 해놓은 "한국어 불용어 리스트 100개"를 찾았는데 잘 정리되있어서 나중에 불용어 처리시 참고해봐야겠다.
'Learn Coding > AI(인공지능)' 카테고리의 다른 글
텍스트마이닝(Text Mining)-영화 리뷰 데이터#1(스마트인재개발원) (0) | 2021.12.08 |
---|---|
텍스트마이닝(Text Mining)-영화 리뷰 데이터(스마트인재개발원) (0) | 2021.12.07 |
스마트인재개발원 - 전자상거래 물품 배송예측 대회 (0) | 2021.12.06 |
댓글