본문 바로가기

📂 Engineering83

Label Encoding, One-Hot Encoding / Scikit-learn 레이블 인코딩, 원핫인코딩 Label Encoding from sklearn.preprocessing import LabelEncoder le = LabelEncoder() # 데이터에서 특징 찾기(범주의 수 le.fit(label) #데이터 변환 label_encoded_label = le.transfrom(label) 다시 원래대로 바꿀 수 있는 inverse_transform도 있따. One-hot Encoding from sklearn.preprocessing import OneHotEncoder ohe = OneHotEncdoer() # 특징 찾고 데이터 변환 one_fit_transform(label) # 특징 찾기 ohe.fit(data) # 데이터 변환 one_hot_encoded = ohe.transform(data) 2020. 7. 19.
Scikit-learn Sampling 싸이킷런 샘플링 랜덤 샘플링의 종류 적은 클래스의 데이터 수를 증가시키는 Oversampling 많은 클래스의 데이터 수를 감소시키는 Undersampling # 클래스 불균형 처리를 해주는 imbalanced-learn를 호출 from imblearn.over_sampling import RandomOverSampler from imblearn.under_sampling import RandomUnderSampler # ros, rus 객체 ros = RandomOverSampler() rus = RandomUnderSampler() ㅇㄹ # 데이터에서 특징을 학습함과 동시에 데이터를 샘플링한다. # Over 샘플링 oversampled_data, oversampled_label = ros.fit_resample(da.. 2020. 7. 18.
싸이킷런 스케일링, Scikit-learn Scailing 스케일링 하는 이유 너무 작거나 너무 크면 영향력(가중치, 회귀계수 등)이 제대로 표현 안 됨 -> over fitting 오버피팅의 가능성이 높아짐 Min-Max Scaling from sklearn.preprocessing import MinMaxScaler mMscaler = MinMaxScaler() # mMscaler.fit(data) # 이러면 데이터의 범위가 0~1로 됨 mMsacled_data = mMscaler.fit_transform(data) Standard Scailing # Standard Scailing from sklearn.preprocessing import StandardScaler # 모델 생성 stdscaler = StandardScaler() # 특징 찾기 stdsc.. 2020. 7. 18.
다양한 무료 공부소스들 (데이터 사이언스, 통계, 인공지능...) 안녕하세요. 오늘은 제가 지금까지 이 분야 공부를 시작하면 알게 된 곳들을 소개하려고 합니다. 각 사이트마다 가지고 있는 강의들이 많으니 이곳저곳 찾아보시고 본인이 원하는 과목만 골라서 들으시면 되겠습니다. K-MOOC http://www.kmooc.kr/ | K-MOOC 닫기 강좌 정보 Excel www.kmooc.kr 다양한 대학의 강의가 들어있습니다. 우리나라 대학교 하면 가장 먼저 뽑는 SKY (Sejong, Korea, Yonsei)대학의 강의도 있고 다양한 학교, 다양한 과목이 있습니다. 이곳에서 수강을 완료하면 수강증도 제공해주고 본인 학교에서 학점 인정을 해주는 경우도 있습니다. 한과목만 들어봐서 어떻다 말하긴 어렵지만, 모바일 어플도 제공하고 강의 다운로드도 가능해 좋습니다. 저는 류근관.. 2020. 7. 18.