- ๊ฐ๋ฐ๊ธฐ๊ฐ
- 2022.07.22 ~ 2022.07.27
- ์ฌ์ฉ ์ธ์ด ๋ฐ ๋ผ์ด๋ธ๋ฌ๋ฆฌ
python,pandas,sklearn,matplot,seaborn
- DASS ์ค๋ฌธ์กฐ์ฌ ๊ฒฐ๊ณผ๋ฅผ ํ์ฉํ์ฌ ์ธ ๊ฐ์ง์ ๋ถ์ ์ ์ธ ๊ฐ์ ์ฒ๋๋ฅผ ์์ธกํ๋ ์์คํ
- AI ๋ถํธ์บ ํ Section2 Project
ํ๋ ์ฌํ์ ์ฐ์ธ์ฆ, ๋ถ์, ์คํธ๋ ์ค์ ๊ฐ์ ๋ถ์ ์ ์ธ ๊ฐ์ ์ ๊ฐ์ง๊ณ ์ด์๊ฐ๋ ์ฌ๋๋ค์ด ๋ง๋ค. 2020๋ ์๋ฐ๊ธฐ 20๋ ์ฌ์ฑ ์ฐ์ธ์ฆ ํ์๊ฐ 39.5% ์ฆ๊ฐํ์๊ณ , 20๋ ๋ถ์ ์ฅ์ ํ์๋ 86%, ์คํธ๋ ์ค ์ฅ์ ํ์๋ 5๋ ๊ฐ 45.4% ์ฆ๊ฐํ์๋ค.
๋ถ์ ์ ์ธ ๊ฐ์ ์ผ๋ก ์ธํด ๋์ฑ ๋ฌด๊ธฐ๋ ฅํด์ง๊ณ ํ๋ค์ด ์ง๊ฒ ๋๋ ๊ฒ์ ๋ฐฉ์งํ๊ณ ์ ์์ ์ ๊ฐ์ ์ํ๋ฅผ ์์ธกํ๊ณ ๊ด๋ฆฌํ ์ ์๋ ์์คํ ์ด ํ์ํ๋ค๊ณ ์๊ฐํ๋ค.
- ํ๋ก์ ํธ ๊ธฐํ ๋ฐ ๋ฌธ์ ์ ์
- ๋ฐ์ดํฐ ์์ง
- ๋ฐ์ดํฐ ํ์ ๋ฐ ์ ์ฒ๋ฆฌ
- ๋ชจ๋ธ๋ง
Depression Anxiety Stress Scales Responses
- ์ฐ์ธ, ๋ถ์, ๊ธด์ฅ ๋๋ ์คํธ๋ ์ค์ ๊ด๋ จ๋ ๋ถ์ ์ ์ธ ๊ฐ์ ์ํ๋ฅผ ์ธก์ ํ๋๋ก ์ค๊ณ๋ DASS ์ค๋ฌธ์กฐ์ฌ ๊ฒฐ๊ณผ ๋ฐ์ดํฐ
- DASS์ 42๊ฐ์ง ์ค๋ฌธ, 10๊ฐ ํญ๋ชฉ์ ์ฑ๊ฒฉ ๋ชฉ๋ก, ์ ์๋ฅผ ์๊ณ ์๋ค๊ณ ํ์ ํ๋ ๋จ์ด๋ฅผ ์ ํํ๋ ๋ชฉ๋ก, ๊ธฐํ ๊ฐ์ธ ์ ๋ณด ๋ฑ์ ๋ด๊ณ ์๋ 172๊ฐ์ columns์ 39775๊ฐ์ row๋ก ๊ตฌ์ฑ๋ csv ํ์ผ ๋ฐ์ดํฐ
-
Data Description
- ๋ฐ์ดํฐ์ ๊ฐ ํญ๋ชฉ๊ณผ ์ฒ๋๊ฐ ์๋ฏธํ๋ ๋ฐ๋ฅผ ํ์
-
๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ
- Data Descripation ๊ณผ์ ์ ํตํด ํ์์๋ค๊ณ ํ๋จ๋๋ ์ปฌ๋ผ์ ์ ๊ฑฐ.
- ๋ชจ๋ ์ปฌ๋ผ์ ๋ฐ์ดํฐํ, ๊ฒฐ์ธก๊ฐ์ ํ์ธํ ํ ์ปฌ๋ผ ์ด๋ฆ์ ์๊ธฐ ์ฝ๊ฒ ๋ณ๊ฒฝ.
- 42๊ฐ์ง์ ์ค๋ฌธ ์ค ์ฐ์ธ, ๋ถ์, ์คํธ๋ ์ค์ ํด๋นํ๋ ๋ฌธํญ ๋ฒํธ๋ฅผ dictionary๋ก ๋ง๋ค์ด์ฃผ์ด ์ฐ์ธ, ๋ถ์, ์คํธ๋ ์ค ๋ฌธํญ์ ๋ฐ๋ฅธ ์ ์์ ํฉ๊ณ๋ฅผ ์ถ์ถ.
- ์ฐ์ธ, ๋ถ์, ์คํธ๋ ์ค๋ฅผ Scoreing Guide์ ๋ฐ๋ผ Normal, Mild, Moderate, Severe, Extremely Severe ์ด 5๊ฐ์ ์งํ๋ก ์นดํ ๊ณ ๋ฆฌ ํจ.
-
EDA
- ์๊ฐํ๋ฅผ ์งํํ์ฌ ๋ฐ์ดํฐ Feature์ ๋ถํฌ๋ฅผ ํ์
- ๋ถํฌ๋ฅผ ๋ณด๋ฉฐ ์ด์์น์ ๊ฐ์ ๊ฐ์ง Feature๋ ๊ธฐ์ค์ ๊ฐ์ง๊ณ ์ด์์น๋ฅผ ์ ๊ฑฐํจ.
-
๊ฐ์ค ๊ฒ์ฆ
-
๋ฌธ์ ๋ฅผ ์ ์ํ๋ฉฐ ์ค์ ํ 2๊ฐ์ง์ ๊ฐ์ค์ ๊ฒ์ฆ
-
๊ฐ์ค 1 : ์ฐ๋ น๋ณ ๋ถ์ ์ ์ธ ๊ฐ์ ์ด ๋ํ๋๋ ๋น๋์ ์ฐจ์ด๊ฐ ์์ ๊ฒ์ด๋ค.
- ์ฐ์ธ์ฆ ์ฒ๋๊ฐ โExtremely serveโ์ธ ์ฌ๋๋ค์ ํ๊ท ๋์ด๊ฐ โModerateโ์ธ ์ฌ๋๋ค์ ํ๊ท ๋์ด๋ณด๋ค ํฐ์ง๋ฅผ ๊ท๋ฌด๊ฐ์ค๊ณผ ๋๋ฆฝ๊ฐ์ค์ ์ธ์ ํ๋จํ๊ณ ์ ํจ.
๊ท๋ฌด๊ฐ์ค : ์ฐ์ธ์ฆ ์ฒ๋๊ฐ โExtremely serve'์ธ ์ฌ๋๋ค์ ํ๊ท ๋์ด๋ 'Moderate'์ธ ์ฌ๋๋ค์ ํ๊ท ๋์ด๋ณด๋ค ์๊ฑฐ๋ ๊ฐ๋ค.
๋๋ฆฝ๊ฐ์ค : ์ฐ์ธ์ฆ ์ฒ๋๊ฐ โExtremely serve'์ธ ์ฌ๋๋ค์ ํ๊ท ๋์ด๋ 'Moderate'์ธ ์ฌ๋๋ค์ ํ๊ท ๋์ด๋ณด๋ค ํฌ๋ค.
์ผ์ชฝ์ ํ๋์ ๋ถํฌ๋ ์ฐ์ธ์ฆ ์ฒ๋๊ฐ โExtremely Serveโ์ธ ์ฌ๋๋ค์ ํ๊ท ๋์ด ํ๋ณธ ๋ถํฌ์ด๊ณ , ์ค๋ฅธ์ชฝ์ ์ฃผํฉ์ ๋ถํฌ๋ ์ฐ์ธ์ฆ ์ฒ๋๊ฐ โModerateโ์ธ ์ฌ๋๋ค์ ํ๊ท ๋์ด ํ๋ณธ ๋ถํฌ์. ์ฐ์ธ์ฆ ์ฒ๋๊ฐ โExtremely Serveโ์ธ ์ฌ๋๋ค์ ํ๊ท ๋์ด๋ ์ฒ๋๊ฐ โModerateโ์ธ ์ฌ๋๋ค์ ํ๊ท ๋์ด๋ณด๋ค ์๋ค๋ ๊ฒ์ ์ ์ ์์ผ๋ฏ๋ก ๊ท๋ฌด ๊ฐ์ค์ ์ฑํํจ.
-
๊ฐ์ค 2 : ์ฐ์ธ์ฆ, ๋ถ์, ์คํธ๋ ์ค์ ๊ฐ์ ๊ฐ์ ๋ค์ ๊ฐ์ด ์ฌ ๊ฒ์ด๋ค.
- ๋ฐ์ดํฐ๋ค์ ๋น์จ์ ํตํด ํ๋จํ๊ณ ์ ํจ.
์ฐ์ธ์ฆ๊ณผ ๋ถ์, ๋ถ์๊ณผ ์คํธ๋ ์ค, ์ฐ์ธ์ฆ๊ณผ ์คํธ๋ ์ค๊ฐ โExtremely Serveโํ ๊ฒฝ์ฐ์ ๋ฐ์ดํฐ ์๋ ์ ์ฒด ๋ฐ์ดํฐ ์์ 0.5~0.6%์ ๋น์จ์ ๊ฐ์ง๊ณ ์์. ์ฐ์ธ์ฆ๊ณผ ๋ถ์์ ๊ฐ์ ์ ๊ฐ์ด ์ฌ ๊ฐ๋ฅ์ฑ์ด ๋๊ณ , ์ฐ์ธ์ฆ๊ณผ ์คํธ๋ ์ค๋ ๊ฒฝ์ฐ์ ๋ฐ๋ผ ๋ค๋ฅด์ง๋ง ์ ๋ฐ ์ด์์ ๋ฐ์ดํฐ์์ ๊ฐ์ด ์ค๋ ๊ฒ์ผ๋ก ๋ณด์ ์ธ ๊ฐ์ ์ ๊ฐ์ด ์ฌ ๊ฒ์ด๋ผ ํ๋จํจ.
-
-
Target Feature ์ค์
- ๊ฐ์ค ๊ฒ์ฆ์ ํตํด ์ธ ๊ฐ์ง ๊ฐ์ ์ด ๊ฐ์ด ์ฌ ๊ฒ์ผ๋ก ํ๋จํ์์ผ๋ฏ๋ก ์ฐ์ธ, ๋ถ์, ์คํธ๋ ์ค ์ ์์ ํฉ๊ณ์ธ โtotal_countโ ์ปฌ๋ผ์ ์์ฑ.
- total_count ์ปฌ๋ผ์ 4๋ถ์ ์๋ฅผ ๊ธฐ์ค์ผ๋ก 5๊ฐ์ ๋ฒ์ฃผ๋ก ์นดํ ๊ณ ๋ฆฌํํ์ฌ target feature๋ฅผ ์ค์ ํจ.
-
๋ชจ๋ธ๋ง
-
ํ๊ฒ์ ๊ฐ ์ค ์ต๋น๊ฐ์ ๊ธฐ์ค๋ชจ๋ธ๋ก ์ค์ ํจ.
-
๋๋คํฌ๋ ์คํธ์ XGBoost์ ๊ฐ๋ ๊ณผ ์ฐจ์ด์ ์ ์ดํด๋ณธ ํ ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋น๊ต
-
๋๋คํฌ๋ ์คํธ๋ฅผ ์ฌ์ฉํ ๊ฒ์ฆ ๋ฐ์ดํฐ์ ์ ํ๋ 0.750393, XGBoost๋ฅผ ์ฌ์ฉํ ๊ฒ์ฆ ๋ฐ์ดํฐ์ ์ ํ๋ 0.822271
-
XGBoost ๊ฒ์ฆ ๋ฐ์ดํฐ ์ ํ๊ฐ์งํ
-
XGBoost ๊ฒ์ฆ ๋ฐ์ดํฐ ์ Confusion Matrix
-
XGBoost๋ฅผ ์ฌ์ฉํ์ฌ Test Set Accuracy : 0.820457
-
ํน์ฑ ์ค์๋๋ฅผ ํตํด ๋ชจ๋ธ์ด ์ค์ํ๊ฒ ๋ณธ ํน์ฑ์ ํ์ ํจ
-
- ๋ฌธ์ ์ ๋ํด
๊ฐ์ค์ ์ธ์ฐ๊ณ ๊ฒ์ฆํ๋ฉด์ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ๋ ๋ฐฉ๋ฒ์ ์ตํ๊ฒ ๋์์. - ๋ชจ๋ธ์ ์ต์ํ์ ์ฑ๋ฅ์ ๋ํ๋ด๋ ๊ธฐ์ค์ธ
baseline์ ์ธ์ฐ๋ ๊ฒ์ ์ค์์ฑ์ ์๊ฒ ๋์์. ๋๋คํฌ๋ ์คํธ์XGBoost๋ชจ๋ธ์ ์ฌ์ฉํด๋ณด๋ฉด์ ๋ ๋ชจ๋ธ์ ๊ฐ๋ ์ ๋ฐฐ์ธ ์ ์์์.- ๋ชจ๋ธ์
ํน์ฑ์ค์๋๋ฅผ ์ดํด๋ณด๋ฉฐ๋ชจ๋ธ์ ํด์ํ๋ ๊ณผ์ ์ ๋ฐฐ์ธ ์ ์์์.

