📌 주어진 데이터로 Data Handling 하기 데이터 불러오기 & 데이터 들여다보기 import pandas as pd import numpy as np path = 'datasamples/telecom_churn.csv' data = pd.read_csv(path) data.head() 데이터의 구조 & 데이터의 index, column 정보 확인하기 data.shape data.info() data.index data.columns 데이터의 수치 정보 확인하기 & 다른 형식의 정보도 확인하기 data.describe() data.describe(include=["object", "bool"]) 찾고자 하는 column의 위치 확인하기 cols = ["Area code", "Customer serv..
ASAC 빅데이터 분석가 4기/Data Handling
⚙️ Data Handling 📌 Pivot Table 피벗 테이블 생성 import pandas as pd pd.pivot_table(data, index=[기준 인덱스 리스트], values=[필요한 데이터 리스트], columns=[항목별로 볼 데이터], aggfunc=[값에 취할 함수], fill_value = 결측치 대체값) #ex) pd.pivot_table(data, index=["Manager","Rep"], values=["Price"], columns=["Product"], aggfunc=[np.sum], fill_value = 0) #ex pd.pivot_table(data, index=["Manager","Rep"], values=["Price", "Quantity"], column..
⚙️ 정규식 📌 정규식 정규식이란? : 텍스트 문자열을 어떤 패턴으로 파악하여 식별하는데 사용된다. 파이썬의 정규식 라이브러리 import re 정규식의 대표적인 패턴 패턴 설명 예제 * 기호 바로 앞의 패턴이 0개 이상이어야 한다. \d* : 숫자가 없거나 하나 이상이어야 한다. + 기호 바로 앞의 패턴이 1개 이상이어야 한다. \d+ : 숫자가 하나 이상이어야 한다. [문자들] [문자들]에 포함된 문자들 중 하나여야 한다. [Pp]ython : "Python" or "python" () 괄호 안의 정규식을 하위 표현식 그룹으로 만들어 준다. . \n을 제외한 모든 문자 .{3} : 문자 3개 (예: F15, 0x0) ^ 기호 바로 뒤의 패턴으로 문자열이 시작해야 한다. ^abc : abc로 시작해야 ..
⚙️ 정렬 📌 정렬 알고리즘 스왑 정렬 : 임시 변수의 사용 없이 바로 값을 교환한다. arr = [3, 10] arr[0], arr[1] = arr[1], arr[0] 선택 정렬 : 맨 처음 인덱스부터 시작하여, 가장 작은 값을 찾아 앞쪽으로 정렬한다. (큰 값으로 할때는 반대) for i_step in range(len(arr)): min_step = i_step for i in range(i_step+1, len(arr)): if arr[i] < arr[min_step]: min_step = i arr[min_step], arr[i_step] = arr[i_step], arr[min_step] 삽입 정렬 : 두번째 인덱스부터 시작하여, 자신 앞쪽의 원소들과 비교해서 적절한 위치로 정렬한다. arr ..
⚙️ 정렬 📌 정렬에 관한 메서드 reverse() : 순서를 역순으로 재배치 sort('reverse=True/False') : 값을 기준으로 정렬 sorted(list, 'reverse=True/False', 'key=""') : 원본을 유지하며 값을 기준으로 정렬 ⚙️ Pandas 📌 Series 연산 Series + Series : 같은 인덱스의 값끼리 더해준다. 인덱스 값이 없다면 NaN으로 처리된다. s_data = {"APPL":1000, "MS":2000, "TSLA":1500} ticker = ["GOOGLE","APPL","MS","META"] s_1 = pd.Series(s_data, index= ticker) s_2 = pd.Series(s_data) s_1 + s_2 📌 결측값 처..
⚙️ NumPy 📌 NumPy 개요 NumPy란? : 고성능 과학계산 컴퓨팅과 데이터 분석에 필요한 기본적인 패키지 NumPy의 특징 리스트에 비해 빠름 반복문 없이 전체 데이터에 일괄적인 연산 적용이 가능하며, 표준 수학 함수를 제공 상당히 유연하게 사용이 가능 데이터 분석에서 NumPy의 중요성 벡터 상에서 계산이 가능하며, 이를 변형/가공하는 것이 용이함 정렬, 유일한 값, 집합연산 등 일반적인 배열 처리 알고리즘을 쉽게 사용가능 기본적인 수학 및 통계기능을 활용하여 데이터 요약 및 확인이 가능 array 자료형의 특징 모든 원소에 일괄 적용되는 벡터 연산이 가능함 모든 원소의 구성이 깔끔(오와 열이 맞아야 수학적으로 동작) Tensorflow / PyTorch의 DeepLearning에서 ndim..