๐Ÿ“ ํŒ€ ํ”„๋กœ์ ํŠธ: [์•„ํŒŒํŠธ ์‹ค๊ฑฐ๋ž˜๊ฐ€ ์˜ˆ์ธก]

๐Ÿ“ ํ”„๋กœ์ ํŠธ ๊ฐœ์š”

์„œ์šธ์‹œ ์•„ํŒŒํŠธ ์‹ค๊ฑฐ๋ž˜ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค์–‘ํ•œ ํšŒ๊ท€ ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ ๋งค๋งค๊ฐ€๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ํ”„๋กœ์ ํŠธ์ž…๋‹ˆ๋‹ค. ๋ถ€๋™์‚ฐ ๋„๋ฉ”์ธ ์ง€์‹์„ ๋ฐ˜์˜ํ•œ ํ”ผ์ฒ˜ ์—”์ง€๋‹ˆ์–ด๋ง๊ณผ ์ด์ƒ์น˜ ์ œ๊ฑฐ, ๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ ๋“ฑ์„ ํ†ตํ•ด ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ถ”๊ตฌํ–ˆ์Šต๋‹ˆ๋‹ค.

โฑ๏ธ ๊ธฐ๊ฐ„ ๋ฐ ์ธ์›

๊ธฐ๊ฐ„: 2024.12.23 ~ 2025.01.07

์ธ์›: ์ด 5๋ช…

๐Ÿ›  ๊ธฐ์ˆ  ์Šคํƒ

ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด ๋ฐ ๋„๊ตฌ: Python, Jupyter Notebook, Pandas, OpenCV

์‚ฌ์šฉ ๋ชจ๋ธ: LightGBM, XGBoost, CatBoost, TabNet

(๋ชจ๋ธ ์„ค๋ช… ๋ณด๊ธฐ)

๐Ÿ”ง ํ•ต์‹ฌ ๊ธฐ๋Šฅ

๐Ÿง‘โ€๐Ÿ’ป ๋‚ด๊ฐ€ ๊ธฐ์—ฌํ•œ ๋ถ€๋ถ„

๐Ÿ› ํŠธ๋Ÿฌ๋ธ”์ŠˆํŒ…

๐Ÿ“Œ ์ตœ๋‹จ ๊ฑฐ๋ฆฌ ๊ณ„์‚ฐ ์‹œ ์ง€๋ฐฉ ์•„ํŒŒํŠธ์—์„œ ์ด์ƒ์น˜๊ฐ€ ๊ณผ๋„ํ•˜๊ฒŒ ๋ฐœ์ƒํ•œ ๋ฌธ์ œ

- ๋ฌธ์ œ ๋ฐฐ๊ฒฝ: ์ง€ํ•˜์ฒ ์—ญ ๋ฐ ๋ฒ„์Šค ์ •๋ฅ˜์žฅ์˜ ์ขŒํ‘œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ ์•„ํŒŒํŠธ์—์„œ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ๊ตํ†ต ์ธํ”„๋ผ๊นŒ์ง€์˜ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๊ณผ์ •์—์„œ ์ผ๋ถ€ ์•„ํŒŒํŠธ๋Š” ๋น„์ •์ƒ์ ์œผ๋กœ ๋จผ ๊ฑฐ๋ฆฌ ๊ฐ’์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋Œ€๋ถ€๋ถ„์˜ ๊ตํ†ต ์ธํ”„๋ผ ๋ฐ์ดํ„ฐ๊ฐ€ ์„œ์šธ ๋ฐ ์ˆ˜๋„๊ถŒ ์ง€์—ญ์—๋งŒ ํŽธ์ค‘๋˜์–ด ์žˆ์—ˆ๊ณ , ์ง€๋ฐฉ ์•„ํŒŒํŠธ์˜ ๊ฒฝ์šฐ ์‹ค์ œ์™€๋Š” ๊ด€๊ณ„์—†๋Š” ๋งค์šฐ ํฐ ๊ฑฐ๋ฆฌ๊ฐ’์ด ๊ณ„์‚ฐ๋˜์–ด ์ด์ƒ์น˜๋กœ ์ž‘์šฉํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

- ํ•ด๊ฒฐ ๋ฐฉ๋ฒ•: ์ „์ฒด ๋ฐ์ดํ„ฐ์—์„œ ์ˆ˜๋„๊ถŒ ์™ธ ์ง€์—ญ์„ ํ•„ํ„ฐ๋งํ•˜๊ณ , ์ˆ˜๋„๊ถŒ ๋‚ด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ๋งŒ ๊ตํ†ต ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ˜ ํŒŒ์ƒ ๋ณ€์ˆ˜๋ฅผ ์ ์šฉํ•˜๋Š” ๋ฐฉ์‹์„ ํƒํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด โ€˜๊ตฌโ€™ ์ปฌ๋Ÿผ์„ ๊ธฐ์ค€์œผ๋กœ ๊ฐ•๋‚จ/๊ฐ•๋ถ ์—ฌ๋ถ€๋ฅผ ํŒ๋‹จํ•œ ๋กœ์ง์„ ํ™•์žฅํ•˜์—ฌ ์„œ์šธ์‹œ 25๊ฐœ ๊ตฌ ์ด์™ธ ์ง€์—ญ์— ๋Œ€ํ•ด ๋ณ„๋„์˜ ์˜ˆ์™ธ ์ฒ˜๋ฆฌ๋ฅผ ํ•˜์˜€๊ณ , ์ด์ƒ์น˜๊ฐ€ ๋ฐœ์ƒํ•œ ๊ฑฐ๋ฆฌ๊ฐ’์€ ์ค‘์•™๊ฐ’์œผ๋กœ ๋Œ€์ฒดํ•˜๊ฑฐ๋‚˜ ํ•ด๋‹น ํŒŒ์ƒ๋ณ€์ˆ˜๋ฅผ ์ œ์™ธํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ฒ˜๋ฆฌํ•˜์—ฌ ๋ชจ๋ธ ์•ˆ์ •์„ฑ์„ ํ™•๋ณดํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ“Œ ๊ฒฐ์ธก์น˜ ๋ฐ ์ด์ƒ์น˜๊ฐ€ ๋งค์šฐ ๋งŽ์€ ์นผ๋Ÿผ๋“ค๋กœ ์ธํ•ด ๋ชจ๋ธ ํ•™์Šต์ด ๋ถˆ์•ˆ์ •ํ•ด์ง€๋Š” ๋ฌธ์ œ

- ๋ฌธ์ œ ๋ฐฐ๊ฒฝ: ์ œ๊ณต๋œ ์‹ค๊ฑฐ๋ž˜๊ฐ€ ๋ฐ์ดํ„ฐ์—๋Š” ์ผ๋ถ€ ์นผ๋Ÿผ์ด 80% ์ด์ƒ์˜ ๊ฒฐ์ธก์น˜๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ์—ˆ์œผ๋ฉฐ, ์ผ๋ถ€ ์—ฐ์†ํ˜• ๋ณ€์ˆ˜๋Š” ์ƒ์‹์ ์ธ ๋ฒ”์œ„๋ฅผ ๋ฒ—์–ด๋‚œ ๊ทน๋‹จ์ ์ธ ๊ฐ’๋“ค์„ ๋‹ค์ˆ˜ ํฌํ•จํ•˜๊ณ  ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ โ€˜์ „์šฉ๋ฉด์ โ€™ ๋ฐ โ€˜๊ฑฐ๋ž˜๊ธˆ์•กโ€™ ๊ด€๋ จ ์นผ๋Ÿผ์€ ์ด์ƒ์น˜๋กœ ์ธํ•ด ๋ชจ๋ธ ํ•™์Šต ์‹œ ์†์‹ค๊ฐ’์ด ๊ธ‰์ฆํ•˜๊ฑฐ๋‚˜ ๊ณผ์ ํ•ฉ์œผ๋กœ ์ด์–ด์ง€๋Š” ํ˜„์ƒ์ด ๋ฐœ์ƒํ–ˆ์Šต๋‹ˆ๋‹ค.

- ํ•ด๊ฒฐ ๋ฐฉ๋ฒ•: ๊ฒฐ์ธก์น˜๊ฐ€ 100๋งŒ ๊ฐœ ์ด์ƒ์ธ ์นผ๋Ÿผ์€ ์‚ญ์ œํ•˜๊ณ , ๋‚˜๋จธ์ง€๋Š” ๋ฒ”์ฃผํ˜• ๋ณ€์ˆ˜๋Š” โ€˜NULLโ€™๋กœ, ์—ฐ์†ํ˜• ๋ณ€์ˆ˜๋Š” ์„ ํ˜• ๋ณด๊ฐ„(Linear Interpolation)์œผ๋กœ ์ฒ˜๋ฆฌํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด์ƒ์น˜๋Š” IQR(Interquartile Range)์„ ๊ธฐ์ค€์œผ๋กœ ์ƒยทํ•˜์œ„ 1.5๋ฐฐ๋ฅผ ๋ฒ—์–ด๋‚œ ๊ฐ’์„ ์ œ๊ฑฐํ•˜์˜€์œผ๋ฉฐ, ๋ชจ๋ธ ํ•™์Šต ์ „ํ›„์˜ RMSE ๋น„๊ต๋ฅผ ํ†ตํ•ด ์ •์ œ ํšจ๊ณผ๋ฅผ ์ˆ˜์น˜์ ์œผ๋กœ ๊ฒ€์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

๐ŸŒŸ ํŒ€ ์„ฑ๊ณผ

ํ”„๋กœ์ ํŠธ ์Šคํฌ๋ฆฐ์ƒท

๐Ÿง‘โ€๐Ÿ’ป ๊ฐœ์ธ ๊ธฐ์—ฌ

๐Ÿ’ก ๊นจ๋‹ฌ์€ ์ 

๋„๋ฉ”์ธ ๊ธฐ๋ฐ˜ ํŒŒ์ƒ ๋ณ€์ˆ˜ ์„ค๊ณ„๊ฐ€ ๋ชจ๋ธ ์„ฑ๋Šฅ์— ํฐ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค๋Š” ๊ฒƒ์„ ์ฒด๊ฐํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๊ฒฐ์ธก์น˜์™€ ์ด์ƒ์น˜์˜ ์˜ํ–ฅ์ด ์˜ˆ์ธก ๋ชจ๋ธ์— ์–ผ๋งˆ๋‚˜ ํฐ ์˜ํ–ฅ์„ ์ค„ ์ˆ˜ ์žˆ๋Š”์ง€ ์ง์ ‘ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋Š” ์ข‹์€ ๊ฒฝํ—˜์ด์—ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”— ์ฐธ๊ณ  ๋งํฌ