ASAC 빅데이터 분석가 4기/Machine Learning

⚙️ Kaggle [ House Prices ] 도전하기 📌 데이터 전처리 # 필요한 패키지들 import pandas as pd import numpy as np # 간단한 EDA import matplotlib.pyplot as plt import seaborn as sns # 통계 관련 부분 import scipy.stats as stats # 데이터 처리 from sklearn.model_selection import train_test_split # 데이터 로드 train_path = "train.csv" test_path = "test.csv" train_df = pd.read_csv(train_path) test_df = pd.read_csv(test_path) # 데이터 확인 train_d..
⚙️ Regression 📌 Linear Regression 개념 : 학습의 관점에서, Cost Function을 작게하는 기울기와 절편을 찾는 문제이다. 좋은 변수 : Feature 간에는 상관된 정도가 작으면서, y와의 관련은 큰 것들 만으로 이루어진 것 현재 데이터를 잘 설명하는 모델 : Training Error를 최소화하는 모델 선형 회귀의 정규화 방법 L1 Regularization L2 Regularization 가중치의 절댓값 합에 페널티를 준다. 가중치의 제곱합에 페널티를 준다. 단순하고 반복 가능한 모델을 생성한다. 복잡한 데이터 패턴에 대한 학습이 가능하다. outliers에 대해 민감하지 않다. outliers에 민감하다. 전통적인 선형 회귀 방식 Ridge Lasso L2 정규화를..
⚙️ Clustering 📌 Clustering 개념 : 유사한 성격을 가진 객체를 묶어 그룹으로 구성하는 것이다. 참고사항 : 훈련에 대한 정답이 없는 비지도 학습이다. 📌 K-means 기본 과정 랜덤하게 초기값을 중심으로 일단 거리를 계산해 그룹을 정한다. 그 그룹들의 거리를 다시 계산하고 그룹을 재편하는 과정을 그룹의 변화가 없을 때까지 반복한다 특징 초기값에 따라 결과가 다양하게 나타날 수 있다. 클러스터의 사이즈 및 데이터의 분포에 영향을 받는다. 📌 K-Medoid 개념 : K-means와 비슷하지만, 계산에 시간이 더 많이 걸린다. 📌 Hierarchical Clustering 개념 : 거리를 중심으로 하나씩 자신의 그룹으로 포섭해가는 방식이다. 기본 과정 각 데이터들 사이의 거리를 계산한..
⚙️ 실습 📝 Random Forest를 통한 검증 from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(n_jobs = -1, random_state = 1234) scores = cross_val_score(rf, X_train,y_train, cv = kfold, scoring = "accuracy", n_jobs = -1) print(scores) for iter_count, acc in enumerate(scores): print("RF의 {0}번째 검증 ACC: {1:4f}".format(iter_count, acc)) print("RF 모델의 Accuracy Mean: ", scores.mean()) p..
⚙️ Models 📌 Gradient Boosting 개념 : 잔차를 이용하여 모델의 잔차를 점점 줄여나가는 방식 📌 Xgboost 개념 : Gradient Boosting을 최대한 빠르게 구현한 것 주요 파라미터 objective : linear, logistic, softmax, softprob중 어떤 것을 사용할지에 대한 파라미터 eval_metric : rmse, mae, logloss, error, merror, mlogloss, auc중 무엇으로 계산할지에 대한 파라미터 random_state : 재현성을 위한 파라미터 booster : gbtree, gblinear중 어떤 종류의 부스트를 쓸건지에 대한 파라미터 silent : 동작 메시지 출력에 관한 파라미터 N_estimators : 트리..
⚙️ Models 📌 SVM(Support Vector Machine) 개념 : 고차원 또는 무한 차원의 공간에서 초평면을 찾아 분류 또는 회귀를 수행하고자 하는 모델이다. 참고사항 : 훈련 과정에서 마진이 최대인 것을 찾는다. (에러 최소화) 📌 결정트리(Decision Tree) 개념 : 기본적으로 하나하나 모두 기준을 가지고 분류해낼 수 있는 모델이다. 참고사항 : 분류와 회귀에 모두 사용 가능하다. 📌 앙상블(Ensemble) 개념 : 여러개의 모델들을 가지고 Diversity를 기반으로 최종 성능을 올리고자 한다. 종류 Voting : 다수 classifier들의 투표 또는 확률 평균을 통해 결정 Bagging : 샘플을 여러 번 뽑아 학습시켜 결과물을 집계 Boosting : 각 모델의 예측 ..
zzzini
'ASAC 빅데이터 분석가 4기/Machine Learning' 카테고리의 글 목록