분류 전체보기218 싸이킷런 스케일링, Scikit-learn Scailing 스케일링 하는 이유 너무 작거나 너무 크면 영향력(가중치, 회귀계수 등)이 제대로 표현 안 됨 -> over fitting 오버피팅의 가능성이 높아짐 Min-Max Scaling from sklearn.preprocessing import MinMaxScaler mMscaler = MinMaxScaler() # mMscaler.fit(data) # 이러면 데이터의 범위가 0~1로 됨 mMsacled_data = mMscaler.fit_transform(data) Standard Scailing # Standard Scailing from sklearn.preprocessing import StandardScaler # 모델 생성 stdscaler = StandardScaler() # 특징 찾기 stdsc.. 2020. 7. 18. 다양한 무료 공부소스들 (데이터 사이언스, 통계, 인공지능...) 안녕하세요. 오늘은 제가 지금까지 이 분야 공부를 시작하면 알게 된 곳들을 소개하려고 합니다. 각 사이트마다 가지고 있는 강의들이 많으니 이곳저곳 찾아보시고 본인이 원하는 과목만 골라서 들으시면 되겠습니다. K-MOOC http://www.kmooc.kr/ | K-MOOC 닫기 강좌 정보 Excel www.kmooc.kr 다양한 대학의 강의가 들어있습니다. 우리나라 대학교 하면 가장 먼저 뽑는 SKY (Sejong, Korea, Yonsei)대학의 강의도 있고 다양한 학교, 다양한 과목이 있습니다. 이곳에서 수강을 완료하면 수강증도 제공해주고 본인 학교에서 학점 인정을 해주는 경우도 있습니다. 한과목만 들어봐서 어떻다 말하긴 어렵지만, 모바일 어플도 제공하고 강의 다운로드도 가능해 좋습니다. 저는 류근관.. 2020. 7. 18. [데이터 청년 캠퍼스] 경남대학교 빅리더 AI 아카데미 - Day 12 오전 머신러닝시간입니다. 선형회귀의 뒷부분을 배웠는데요, Scikit-learn의 데이터(아이리스, boston 집값)를 회귀분석하고 시각화해보았습니다. random_state = x #(랜덤 seed를 지정해서 똑같은 무작위성을 갖게 합니다.) from sklearn.linear_model import Linear Regression model = LinearRegression(fit_intercept=True) model.fit(X,y) model.coef_ # 회귀계수 model.intercept_ # y절편 - 사이킷런의 지표평가 기준은 높은 지표값일 수록 좋은 모델이라 MSE값에 -1을 곱해서 반환하므로 반환 값에 -1을 다시 곱해야 원래의 양의 값인 MSE값이 됨 - 여기에 sqrt를 해서 R.. 2020. 7. 18. [데이터 청년 캠퍼스] 경남대학교 빅리더 AI 아카데미 - Day 11 오전 - 자연어처리(NLP) 용어 DTM: 문서 행렬 (Documnet Term Matrirx) tf: 현재 문서에 출현한 단어의 빈도(횟수) (Term Frequency) idf : 역문서 빈도, 전제 문서의 수를 해당 단어가 나오는 문서수로 나눈 것(Inverse Document Frequency) td-idf : 단어빈도 * 역문서 빈도 문서행렬은 문서에 나타나는 어휘를 모아 one-hot 인코딩으로 표현한 벡터다. 모든 어휘들이 columns가 되는데 columns에서 저빈도 어휘들은 빼고 고빈도 어휘들로 채운다. 고빈도 어휘들 중에서도 불용어(을/를, 은/는 ....)는 제외한다. 이때 빈도는 tf나 tf-idf가 될 수 있다. tf가 단순히 출현 횟수만을 카운트한다. if-idf는 특정 문서들.. 2020. 7. 17. 이전 1 ··· 45 46 47 48 49 50 51 ··· 55 다음