전체 글218 [Dacon] 대출 상점 총 매출 예측 경진대회 1등 솔루션 분석 1등 솔루션 (Yongjip님) 1등 수상자이신 Yongjip님께서는 경제학을 전공하고 빅데이터 관련 프로젝트들을 하다가 미국 버지니아에 있는 테크회사에서 data analyst로 일하시다가 귀국해 쿠팡의 business analyst로 근무를 하고 있으시다고 한다. 아무래도 경제학이라는 백그라운드 덕분에 시계열 예측 문제에서 지식을 발휘하여 1등을 할 수 있던 것 같다. (그렇다고 내 전공이 호텔머시기라고 쉴드치는 것 아님) 목표 이번 포스팅에서는 1등 솔루션을 분석하면서 시계열 문제에서 자주 쓰이는 ARIMA모델, 다운샘플링에 대해 가볍게나마 이해해보자. EDA, 전처리 Negative transaction elimination 매출량인 amount 칼럼에 가끔 음수가 있어, 하루 매출 자체가 음수가.. 2021. 3. 25. 공부할 것 보호되어 있는 글 입니다. 2021. 3. 21. [pandas]판다스 df.info()를 했는데 non-null counts가 안 보여요 train.info() 해결방법 train.info(verbose=True, null_counts=True) # verbose는 안 넣어도 된다. verbose 파라미터는 안 넣어줘도 된다. stackoverflow.com/questions/43427564/display-all-informations-with-data-info-in-python Display all informations with data.info() in Python I would display all informations of my data frame which contains more than 100 columns with .info() from panda but it won't : data_train.info() RangeIn... 2021. 3. 17. [Dacon] 병원 개/폐업문제 2등 솔루션 분석 전처리 train은 괜찮았지만, test 셋의 employee1,2가 자료형이 달라 str로 바꾼 후 replace를 적용했어야 됐음 EDA를 하면서 침대 정보나 병원 정보가 잘못 입력된 값이 있었다고 한다. 사용한 기법 앙상블 Random Forest GradientBoostingClassifer XGBoost 0.5를 임계값으로 하는 custom loss fuction을 사용했음 Finally, 3개의 모델의 평균값을 구해 0.7을 임계값으로 두고 0,1 분류 정리 모델의 값을 모두 합치는 간단한 앙상블 기법을 사용했지만 2등을 차지하였다. ensemble['OC'] = (ensemble['ens'] > 0.7).astype('int') 못보던 문법 " >는 부등호를 의미하는데 0.7과 비교하여 논리.. 2021. 3. 12. 이전 1 ··· 27 28 29 30 31 32 33 ··· 55 다음