파이썬 머신러닝 - Titanic 생존자 예측하기(Kaggle)#1
머신러닝(Machine Learing) 학습과정 순서 1. 문제정의 2. 데이터수집(크롤링, 공공데이터, IOT센서데이터, 설문조사) 3. 데이터전처리(결측치,특성공학) 4. 탐색적 데이터분석(시각화, EDA) 5. 모델선택(머신러닝(지도학습:분류,회귀), (비지도학습:군집,연관), 딥러닝, 강화학습) 6. 모델학습 7. 모델평가(오차,R2,F1,엔트로피) 8. 예측, 추론 1) 문제정의 실제 kaggle 데이터인 타이타닉 데이터를 이용해 머신러닝을 진행 타이타닉 데이터의 승객들 정보를 가지고 이 승객의 사망여부를 예측 이진분류 문제(생존/사망) 2) 데이터수집 Kaggel사이트에서 데이터파일 다운로드(Download All) Titanic - Machine Learning from Disaster | ..
2021. 11. 25.
머신러닝을 위한 기초통계 개념정리
1. 통계학이란? 사람들은 불확실한 미래를 예측하고 싶어한다. 사람이나 사물, 사건 등을 조사해 결과를 구체적인 숫자로 나타내고 사회적 현상과 자연 현상을 규명하기 위해 수집된 각종 데이터를 요약하여 적절한 방법을 통해 1차 가공되어 도출된 정보(숫자, 차트, 평균, 상관계수)를 분석하여 올바른 탑을 구하는 학문이다. 과거부터 현재까지 통계 적용분야 전쟁, 일식, 무역, 질병(흑사병), 기상, 농업(농작물작황, 쌀 생산량), 주식투자, 환경과학(쓰레기의 양), 생명과학, 산업연구, 품질보증, 시장조사 등 통계청 사이트 (https://kostat.go.kr/portal/korea/index.action) 통계청 자주찾는 서비스펼쳐보기+ kostat.go.kr 2. 통계관련 용어 모집단(Population..
2021. 11. 18.