๐ Overview
๐ ์ฒจ๋ถํ์ผ
๐จ๐ปโ๐ป Role
์ด 20,666,133๊ฑด์ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ, ํต๊ณ์ง๋ฆฌ์ ๋ณด์๋น์ค์์ ์ง๋ฆฌ์ ๋ณด ๋ฐ์ดํฐ ์์ง
imbalanced data ์ ๊ฒฐ์ธก์น๋ฅผ ์ปฌ๋ผ๋ณ๋ก ๊ตฌ๋ถ, ๊ฒฐ์ธก์น ๋น์จ์ ๋ฐ๋ผ single imputation, model based imputation ์ํ
์ผ๋ถ ์ปฌ๋ผ ์ ์ด์์น ์ฒ๋ฆฌ
ex) ์๋ ์์ผ์ด 9999. xx. oo์ผ๋ก ํ๊ธฐ๋ ๊ฒฝ์ฐ, ์ต๋ฐ๊ฐ ๋์น
๋์ฐจ, ์ถ๊ฐ๊ตฌ๋งค ์ ํ ๊ตฌ๋ถ์ ์ํด ๋ค์ ์ฐจ๋ ์ถ๊ณ ์ผ์์ ์ฐจ๋ ๋ณด์ ์ข ๋ฃ ์ผ์๊ฐ์ ์ผ์ ์ฐจ์ด ๊ณ์ฐ
โ ๋ค๋์ ๋ฐ์ดํฐ ์์์ ๋น ๋ฅธ Pandas ์ฐ์ฐ ์ํ์ ์ํด apply() ์ฌ์ฉ.
โ np.array ํํ๋ก ๋ณํ ํ ์ฌ์ฉ์ ์ ์ํจ์๋ก ๊ณ์ฐ ์ดํ explode()๋ฅผ ์ฌ์ฉํ์ฌ ์๋ฐ์ดํฐ ๋ณต๊ตฌ
๋ค์ ์ฐจ๋ ์ถ๊ณ ์ผ์์ ์ฐจ๋ ๋ณด์ ์ข ๋ฃ ์ผ์๊ฐ์ ์ผ์ ์ฐจ์ด ์ค ๋ณ๊ณก์ ์ผ๋ก ํ๋จ๋๋ ์ง์ ์ ๋์ฐจ, ์ถ๊ฐ๊ตฌ๋งค ์ ํ ๋ถ๋ฆฌ ์ง์ ์ผ๋ก ์ค์
Matplotlib, Seaborn, folium์ ํ์ฉํ ์๊ฐํ
๊ณ ๊ฐ/์ฐจ๋/๊ตฌ๋งค์ ํ ๊ด์ ๋ณ EDA ์งํ
LGBM, XGBoost, Catboost, NN ๋ชจ๋ธ๋ง์ ๊ฐ๊ฐ ์ํํ์ฌ ๊ณ ๊ฐ๋ณ 6๊ฐ์ ๋ด ์ถ๊ฐ๊ตฌ๋งค ๊ฐ๋ฅ์ฑ ์์ธก ๋ชจ๋ธ ๊ฐ๋ฐ
imbalanced data๋ฅผ Accuracy๋ก ํ๊ฐํ๊ธฐ์๋ ๋ฌด๋ฆฌ๊ฐ ์๋ค๊ณ ํ๋จ. F1 Score๋ฅผ ํ๊ฐ์งํ๋ก ์ ์
Soft Voting Ensemble๋ก ๊ฐ ๋ชจ๋ธ ์กฐํฉ์ F1 Score ํ๊ฐ. ์ต์ข F1 Score 0.7988 ๊ธฐ๋ก
๐ Stack