ASAC 빅데이터 분석가 4기

⚙️ Regression 📌 Linear Regression 개념 : 학습의 관점에서, Cost Function을 작게하는 기울기와 절편을 찾는 문제이다. 좋은 변수 : Feature 간에는 상관된 정도가 작으면서, y와의 관련은 큰 것들 만으로 이루어진 것 현재 데이터를 잘 설명하는 모델 : Training Error를 최소화하는 모델 선형 회귀의 정규화 방법 L1 Regularization L2 Regularization 가중치의 절댓값 합에 페널티를 준다. 가중치의 제곱합에 페널티를 준다. 단순하고 반복 가능한 모델을 생성한다. 복잡한 데이터 패턴에 대한 학습이 가능하다. outliers에 대해 민감하지 않다. outliers에 민감하다. 전통적인 선형 회귀 방식 Ridge Lasso L2 정규화를..
⚙️ Clustering 📌 Clustering 개념 : 유사한 성격을 가진 객체를 묶어 그룹으로 구성하는 것이다. 참고사항 : 훈련에 대한 정답이 없는 비지도 학습이다. 📌 K-means 기본 과정 랜덤하게 초기값을 중심으로 일단 거리를 계산해 그룹을 정한다. 그 그룹들의 거리를 다시 계산하고 그룹을 재편하는 과정을 그룹의 변화가 없을 때까지 반복한다 특징 초기값에 따라 결과가 다양하게 나타날 수 있다. 클러스터의 사이즈 및 데이터의 분포에 영향을 받는다. 📌 K-Medoid 개념 : K-means와 비슷하지만, 계산에 시간이 더 많이 걸린다. 📌 Hierarchical Clustering 개념 : 거리를 중심으로 하나씩 자신의 그룹으로 포섭해가는 방식이다. 기본 과정 각 데이터들 사이의 거리를 계산한..
⚙️ 실습 📝 Random Forest를 통한 검증 from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(n_jobs = -1, random_state = 1234) scores = cross_val_score(rf, X_train,y_train, cv = kfold, scoring = "accuracy", n_jobs = -1) print(scores) for iter_count, acc in enumerate(scores): print("RF의 {0}번째 검증 ACC: {1:4f}".format(iter_count, acc)) print("RF 모델의 Accuracy Mean: ", scores.mean()) p..
⚙️ Models 📌 Gradient Boosting 개념 : 잔차를 이용하여 모델의 잔차를 점점 줄여나가는 방식 📌 Xgboost 개념 : Gradient Boosting을 최대한 빠르게 구현한 것 주요 파라미터 objective : linear, logistic, softmax, softprob중 어떤 것을 사용할지에 대한 파라미터 eval_metric : rmse, mae, logloss, error, merror, mlogloss, auc중 무엇으로 계산할지에 대한 파라미터 random_state : 재현성을 위한 파라미터 booster : gbtree, gblinear중 어떤 종류의 부스트를 쓸건지에 대한 파라미터 silent : 동작 메시지 출력에 관한 파라미터 N_estimators : 트리..
⚙️ Models 📌 SVM(Support Vector Machine) 개념 : 고차원 또는 무한 차원의 공간에서 초평면을 찾아 분류 또는 회귀를 수행하고자 하는 모델이다. 참고사항 : 훈련 과정에서 마진이 최대인 것을 찾는다. (에러 최소화) 📌 결정트리(Decision Tree) 개념 : 기본적으로 하나하나 모두 기준을 가지고 분류해낼 수 있는 모델이다. 참고사항 : 분류와 회귀에 모두 사용 가능하다. 📌 앙상블(Ensemble) 개념 : 여러개의 모델들을 가지고 Diversity를 기반으로 최종 성능을 올리고자 한다. 종류 Voting : 다수 classifier들의 투표 또는 확률 평균을 통해 결정 Bagging : 샘플을 여러 번 뽑아 학습시켜 결과물을 집계 Boosting : 각 모델의 예측 ..
📌 선형대수 Span : 벡터공간 V를 V의 모든 벡터 v1,v2,...vn의 선형결합으로 나타낼 수 있으면, v1,v2,...vn이 벡터공간 V를 생성(span)한다고 한다. Rank : 간단히 Column이나 Row의 벡터의 수(차원)를 나타낸다. Null Space : 선형방정식 Ax = 0을 이루는 모든 해 x에 대한 집합이다. 📌 선형변환 변환 일대일 변환 : 변환 T : R1 → R2에 대하여 b ∈ R2에 대해 T(x) = b를 만족하는 R1의 원소가 기껏해야 하나 있는 경우 위로의 변환 : 변환 T : R1 → R2에 대하여 b ∈ R2에 대해 T(x) = b를 만족하는 R1의 원소가 적어도 하나 있는 경우 닮음 변환 : 점 (x, y)를 x방향, y방향으로 모두 k배한 점 (kx, ky)..
zzzini
'ASAC 빅데이터 분석가 4기' 카테고리의 글 목록 (3 Page)