Bias vs Variance

Bias vs Variance

Deep dive into data

ํ•ด๋‹น ์ธ๋„ค์ผ์€ Wonkook Lee ๋‹˜์ด ๋งŒ๋“œ์‹  Thumbnail-Maker ๋ฅผ ์ด์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค

์š”์ฆ˜ ๊ฐ€์žฅ ๋งŽ์ด ๋“œ๋Š” ์ƒ๊ฐ์€ ๊ฐœ๋ฐœ์„ ๋„ˆ๋ฌด ๋ชปํ•˜๊ณ  ์žˆ๋‹ค๋Š” ์ƒ๊ฐ์ด๋‹ค. ์€ํ–‰ ์—…๋ฌด๋ฅผ ํ•˜๋‹ค๋ณด๋‹ˆ ์ˆ™์ง€ํ•ด์•ผ๋  ์—…๋ฌด๋“ค์ด ๋งŽ์•„์ง€๊ณ  ์ด์— ๋”ฐ๋ผ์„œ ํ”„๋กœ์ ํŠธ๋‚˜ ์–ด๋–ค ๊ณต๋ถ€๋ฅผ ํ•˜๊ธฐ๊ฐ€ ์ฐธ ์–ด๋ ต๋‹ค๋Š” ์ƒ๊ฐ์ด ๋“ค์—ˆ๋‹ค. ๊ทธ๋ ‡๊ฒŒ ํ‡ด๊ทผํ•˜๋ฉด์„œ ์ข…์ข… ํ…Œํฌ ๊ด€๋ จ ์œ ํŠœ๋ธŒ๋“ค์„ ๋ณด๋Š”๋ฐ ์š”์ฆ˜ ํฅ๋ฏธ๋กญ๊ฒŒ ๋ณธ ์ฑ„๋„์€ CODER X DOX ๋ผ๋Š” ๋ถ„์ด๋‹ค. (์ด๋Ÿด ๋•Œ ๋˜ ํ•œ๋ฒˆ ์œ ํŠœ๋ธŒ์˜ ์ถ”์ฒœ์ด ๋Œ€๋‹จํ•˜๋‹ค๊ณ  ๋Š๋‚€๋‹คโ€ฆ Youtube Recommendations ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ๋„ ๊ฐ™์ด ๋ณด๋ฉด ์ข‹๋‹ค!)

์ด๋ถ„์€ Meta์˜ ML ์—”์ง€๋‹ˆ์–ด์ด์‹ ๋ฐ Leetcode ํ•ด์„ค๊ณผ ML์— ๊ด€ํ•œ ์˜์ƒ์„ ๋งŽ์ด ์ฐ์–ด์ฃผ์‹ ๋‹ค. ๊ทธ ์ค‘ ์กฐ๊ธˆ ์žฌ๋ฏธ์žˆ๊ฒŒ ๋ดค๋˜ ๋‚ด์šฉ์ด ๋ชจ๋ธ์˜ ํŽธํ–ฅ๊ณผ ๋ถ„์‚ฐ ์„ ๋‹ค๋ฃฌ ๋‚ด์šฉ์ด์—ˆ๋‹ค. ๋‚˜๋„ ๊ณต๋ถ€๋ฅผ ํ•  ๋•Œ ๋ญ”๊ฐ€ ํ‘œ๋ฉด์ ์œผ๋กœ๋งŒ ๋‹น์—ฐํ•˜์ง€~ ํ–ˆ๋˜ ๋‚ด์šฉ์ด์—ˆ์ง€๋งŒ ๊ณฑ์”น์„์ˆ˜๋ก ์ค‘์š”ํ•˜๋‹ค๋Š” ์ƒ๊ฐ์„ ๋งŽ์ด ํ–ˆ์—ˆ๋‹ค. ํŠนํžˆ ML์€ ๋ฐ์ดํ„ฐ๊ฐ€ ๋”์šฑ ์ค‘์š”ํ•œ ๋ถ„์•ผ์ธ๋งŒํผ ํ•œ ๋ฒˆ ์งš๊ณ  ๊ฐ€๋ คํ•œ๋‹ค.

๊ณต๋ถ€ํ•  ๋‹น์‹œ ํ—ท๊ฐˆ๋ ธ๋˜ ๋‚ด์šฉ, ์™œ trade-off ๊ด€๊ณ„์ธ์ง€ ๊ฐ™์ด ๋ณด๋„๋ก ํ•˜์ž.

๐Ÿช– What is Bias?

Bias๋Š” ํ•œ๊ตญ์–ด๋กœ ํŽธํ–ฅ์„ ๋œปํ•œ๋‹ค. ํ•ด๋‹น ์˜์ƒ์—์„œ๋Š” ์ข€ ๋” ๊ตฌ์ฒด์ ์œผ๋กœ ๋ฐ์ดํ„ฐ์—์„œ์˜ Bias / ๋ชจ๋ธ์—์„œ์˜ Bias๋ฅผ ์„ค๋ช…ํ•ด์ฃผ์‹ ๋‹ค. ๋ณดํ†ต Bias๋ฅผ ๋งํ•  ๋•Œ๋Š” ๋ชจ๋ธ ๊ด€์ ์—์„œ ์ด์•ผ๊ธฐ๋ฅผ ํ•˜์ง€๋งŒ ๋ฐ์ดํ„ฐ์˜ bias๋„ ์•Œ์•„๋ณด์ž

Data Bias

์ด๊ฑด ์˜ˆ์‹œ๋ฅผ ํ†ตํ•ด ์„ค๋ช…ํ•˜๋ฉด ์ดํ•ดํ•˜๊ธฐ ์‰ฝ๋‹ค. ์šฐ๋ฆฌ๊ฐ€ ์Œ์‹ ์‚ฌ์ง„์„ ๋ถ„๋ฅ˜ํ•˜๋Š” ํƒœ์Šคํฌ๋ฅผ ๋งก์•˜๋‹ค๊ณ  ํ•˜์ž. ๊ทผ๋ฐ ํ™•๋ณดํ•œ ๋ฐ์ดํ„ฐ์…‹์„ ๋ณด๋‹ˆ ๊ณ ๊ธฐ ๊ด€๋ จ ์‚ฌ์ง„์ด ์ฃผ๋ฅผ ์ด๋ฃฌ๋‹ค๋ฉด ๋ชจ๋ธ์€ ๋ฌด์—‡์„ ํ•™์Šตํ• ๊นŒ? ๊ทธ๋ ‡๋‹ค. ๋ฐ”๋กœ ๊ณ ๊ธฐ์˜ ํŠน์ง•์ ๋“ค์„ ํ•™์Šตํ•ด์„œ ๊ณ ๊ธฐ ์‚ฌ์ง„์€ ๊ธฐ๋˜ฅ์ฐจ๊ฒŒ ์ž˜ ๋งž์ถ”์ง€๋งŒ ๋œ์žฅ์ฐŒ๊ฐœ, ๊น€์น˜์ฐŒ๊ฐœ ๋“ฑโ€ฆ ์ด๋Ÿฐ ๊ฒƒ๋“ค์„ ๋ชป ๋งž์ถœ ํ™•๋ฅ ์ด ์ปค์ง€๋Š” ๊ฒƒ์„ ๋งํ•œ๋‹ค.

์ง๊ด€์ ์œผ๋กœ ๋ฐ์ดํ„ฐ๊ฐ€ ๊ณ ๊ธฐ์— ํŽธํ–ฅ๋˜์žˆ๋‹ค. ๋ผ๊ณ  ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋‹ค.

Model Bias

๊ทธ๋ ‡๋‹ค๋ฉด ๋ชจ๋ธ์—์„œ์˜ ํŽธํ–ฅ๋˜์žˆ๋‹ค ๋ผ๋Š” ๋ง์€ ์–ด๋–ค ์˜๋ฏธ์ผ๊นŒ? ์˜์ƒ์—์„œ ์„ค๋ช…ํ•˜๋Š” ํ•œ ์ค„ ์š”์•ฝ์€ ๋ชจ๋ธ์ด ์ •ํ™•ํ•˜์ง€ ์•Š๋‹ค ๋ผ๊ณ  ๋ง์”€์„ ํ•˜์‹ ๋‹ค. ์šฐ๋ฆฌ๊ฐ€ Bias & Variance ๋ฅผ ๊ณต๋ถ€ํ•  ๋•Œ ๊ผญ ๋ณด๋Š” ๊ทธ๋ฆผ์ด ์žˆ๋‹ค. ๊ทธ๊ฑด ๋ฐ”๋กœ ๊ณผ๋…์—์„œ์˜ ๊ทธ๋ฆผ์ธ๋ฐ ์‚ฌ์‹ค ์ด๋ฒˆ ๊ธ€์—์„œ๋Š” ๊ทธ ๊ทธ๋ฆผ์„ ์•ˆ ๋„ฃ๊ณ  ์„ค๋ช…ํ•˜๋ ค ํ•œ๋‹ค. ๊ทธ๋ฆผ์„ ์•ˆ๋ด๋„ ๋ฐ”๋กœ ์ดํ•ด๊ฐ€ ๋  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

Bias๊ฐ€ ๋†’๋‹ค๋Š” ๊ฒƒ์€ ์ง€๊ธˆ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด ์ž˜ ๋‚˜์˜ค์ง€ ์•Š์•„ ๋‹ต์„ ๋ชป ๋งž์ถ”๊ณ  ์žˆ๋Š” ์ƒํƒœ๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ์ด๊ฒƒ์˜ ์›์ธ์œผ๋กœ๋Š” ๋ชจ๋ธ์˜ ๊ฐ€์ •์„ ์ž˜๋ชปํ•˜์—ฌ ์ผ์–ด๋‚œ ๊ฒƒ์ด๊ณ  ์ด๋Š” ๋ฐ์ดํ„ฐ์— ๊ณผ์†Œ์ ํ•ฉ๋˜๋Š” ์ด์œ ์ด๋‹ค.

๊ทธ๋ ‡๋‹ค๋ฉด ์–ด๋–ป๊ฒŒ Bias๋ฅผ ๋‚ฎ์ถฐ ์šฐ๋ฆฌ์˜ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์˜ฌ๋ฆด ์ˆ˜ ์žˆ์„๊นŒ? ๊ทธ๊ฑด ๋ฐ”๋กœ ๋ชจ๋ธ์˜ ๋ณต์žก๋„ ์ฆ๊ฐ€ ๋กœ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋‹ค. ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ complexity๊ฐ€ ๋‚ฎ์•„ ๋ฐ์ดํ„ฐ๋ฅผ undefitting ํ•˜๊ฒŒ ํ•™์Šต์„ ํ•˜์˜€๊ธฐ์— complexity ๋ฅผ ๋†’์—ฌ ํ•ด๋‹น ๋ฐ์ดํ„ฐ์— ์ž˜ ๋งž๋Š” ๋ชจ๋ธ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค.

๐Ÿ•ถ๏ธ What is Variance?

๊ทธ๋ ‡๋‹ค๋ฉด Variance ๋Š” ๋ฌด์—‡์ผ๊นŒ? ํ•œ๊ตญ์–ด๋กœ๋Š” ๋ถ„์‚ฐ์„ ๋œปํ•˜๋ฉฐ ๋ชจ๋ธ์˜ Complexity ๋ฅผ ๋งํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ Variance ๊ฐ€ ๋†’๋‹ค๋Š” ๋œป์€ ๋ชจ๋ธ์˜ ๋ณต์žก๋„๊ฐ€ ๋†’๋‹ค๋Š” ๋œป๊ณผ ์ผ๋งฅ์ƒํ†ตํ•œ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด High Variance ์˜ ๊ฒฝ์šฐ๋Š” ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ์—๋งŒ ๋„ˆ๋ฌด ์•Œ๋งž๋Š” ํ•จ์ˆ˜๋ฅผ ๋งŒ๋“ค์—ˆ๋‹ค๋Š” ๋œป์ด๊ณ  ์ด๋Š” ๊ณง ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด ์•ˆ ์ข‹์€ ๋ชจ๋ธ๋กœ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋‹ค.

Variance ์ค„์ด๊ธฐ

์šฐ๋ฆฌ๊ฐ€ ์›ํ•˜๋Š” ๊ฒƒ์€ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด ์ข‹์€, ์ฆ‰ ์–ด๋–ค ๋ฐ์ดํ„ฐ์—๋„ ๋‹ต์„ ์ œ๋Œ€๋กœ ๋งํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์ด ํ•„์š”ํ•œ๋ฐ ์ด๋ฅผ ์œ„ํ•ด์„œ๋Š” ์–ด๋–ป๊ฒŒ ํ•ด์•ผํ• ๊นŒ? ๋ฐ”๋กœ ๋ชจ๋ธ์˜ ๋ณต์žก๋„๋ฅผ ์ค„์ด๊ฑฐ๋‚˜ ์–ด๋ ค์šด ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ์ฃผ๋Š” ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค. ์ด ๊ธ€์„ ์ฝ๋‹ค๋ณด๋ฉด ๋ญ”๊ฐ€ ์ด์ƒํ•  ๊ฒƒ์ด๋‹ค. ์—ฅ? ์•„๊นŒ๋Š” ๋ชจ๋ธ์˜ ๋ณต์žก๋„๋ฅผ ์˜ฌ๋ ค์„œ Bias๋ฅผ ์ค„์ด๋ผ ํ–ˆ๋Š”๋ฐ ์ด๋ฒˆ์—๋Š” Variance๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ด์„œ ๋ณต์žก๋„๋ฅผ ์ค„์ด๋ผ๊ณ  ํ•˜๋„ค? ๊ทธ๋ ‡๋‹ค๋ฉด ์•„์ฃผ ์ž˜ ์ดํ•ดํ•œ ๊ฒƒ์ด๋‹ค. ์—ฌ๊ธฐ์„œ ML์˜ ํ•ต์‹ฌ, Bias & Variance Trade-off ๊ฐ€ ๋‚˜์˜จ๋‹ค.

๐Ÿ‘ Trade-off

๋ฐฉ๊ธˆ ์˜ˆ์‹œ๋ฅผ ํ†ตํ•ด์„œ ์„ค๋ช…์„ ํ•˜๊ธด ํ–ˆ์ง€๋งŒ ์ •์„์„ ์งš๊ณ  ๋„˜์–ด๊ฐ€์•ผ ๋” ์ข‹์€ ์ž๋ฃŒ๊ฐ€ ๋  ๊ฒƒ ๊ฐ™๋‹ค.

iomage

์‹ค์ œ๋กœ ๊ณต๋ถ€ํ–ˆ๋˜ ๋‚ด์šฉ

์šฐ๋ฆฌ๊ฐ€ ์ค„์ผ๋ ค๊ณ  ๋…ธ๋ ฅํ•˜๋Š” Cost(Error) ๋Š” ์‚ฌ์‹ค \(Bias^2 + Variance + noise\) ๋กœ ๊ณ„์‚ฐ์ด ๋œ๋‹ค. ์—ฌ๊ธฐ์„œ \(noise\) ๋Š” ์ค„์ผ ์ˆ˜ ์—†๋Š” ์˜ค์ฐจ, ์ฆ‰ ๋ง ๊ทธ๋Œ€๋กœ ๋ฐ์ดํ„ฐ ์ž์ฒด์— ์žˆ๋Š” ์žก์Œ์„ ๋œปํ•˜๋ฉฐ ์ด๋ฅผ ์—†์•จ ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์€ ์žก์Œ์„ ์ œ๊ฑฐํ•˜๋Š” ๋ฐฉ๋ฒ• ๋ฟ์ด๋‹ค. (์‚ฌ์‹ค ์ด ๋ง์ด ๋˜๊ฒŒ ์›ƒ๊ธด๋ฐ ๊ทธ๋งŒํผ ์ด ์žก์Œ์„ ์—†์• ๋Š”๊ฒŒ ์‰ฝ์ง€ ์•Š๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ํŠนํžˆ real world data ๋ผ๋ฉด ๋”๋”์šฑ!)

๋˜ํ•œ Bias์™€ Variance ๊ฐ€ Trade-off ๊ด€๊ณ„์ž„์„ ์•Œ์•˜๊ธฐ์— ์šฐ๋ฆฌ๊ฐ€ ์ด์ œ ์ง‘์ค‘ํ•ด์•ผํ•  ๋ฌธ์ œ๋Š” ๋‚ฎ์€ Bias๋ฅผ ๊ฐ€์ ธ๊ฐ€๋˜ ์–ด๋Š ์ •๋„์˜ Variance๋กœ ๋งž์ถฐ์•ผํ• ๊นŒ? ๋กœ ๋ฐ”๋€Œ๊ฒŒ ๋œ๋‹ค. ๊ทธ๋ ‡๊ธฐ์— ํ›„์†์œผ๋กœ ๋‚˜์˜ค๋Š” ์ด๋ก ๋“ค์ด ๊ทœ์ œ๊ฐ€ ์žˆ๋Š” ๋ชจ๋ธ, Early Stopping ๊ณผ ๊ฐ™์€ ๋‚ด์šฉ๋“ค์ด ๋‚˜์˜ค๋Š” ๊ฒƒ์ด๋‹ค. ๋‚˜์ค‘์— ์ด๊ฒƒ๊ณผ ๊ด€๋ จํ•˜์—ฌ์„œ๋„ ํ•œ๋ฒˆ ๋‹ค๋ค„๋ณด๋„๋ก ํ•˜๊ฒ ๋‹ค!

๐Ÿ‘‘ Conclusion

์ด ๊ฐœ๋…์ด ์‚ฌ์‹ค ์—„์ฒญ ์–ด๋ ต์ง€๋„ ์•Š์ง€๋งŒ ํ˜„์—…์ด ๊ฐ€์žฅ ๊ณ ๋ฏผํ•˜๋Š” ๋ฌธ์ œ๋ผ ์ƒ๊ฐํ•œ๋‹ค. ์šฐ๋ฆฌ๊ฐ€ ์›ํ•˜๋Š” ๋ชจ๋ธ์€ ์•„๋ฌด๋ž˜๋„ ์ฒ˜์Œ ๋ณด๋Š” ๋ฐ์ดํ„ฐ์—ฌ๋„ ๋‹ต์„ ์ž˜ ๋งž์ถ”๋Š”, ์ฆ‰ ์ผ๋ฐ˜ํ™”๊ฐ€ ๊ต‰์žฅํžˆ ์ž˜๋œ ๋ชจ๋ธ์„ ์›ํ•˜์ง€๋งŒ ๊ทธ ์ด๋ฉด์—๋Š” Trade-off ๊ฐ€ ์žˆ๊ธฐ์— ์ด๋ฅผ ์ž˜ ํƒ€ํ˜‘ํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค ์ƒ๊ฐํ•œ๋‹ค.

๋‹ค์Œ์—๋Š” ์กฐ๊ธˆ ๋” ํ’๋ถ€ํ•œ ๋‚ด์šฉ์„ ๊ฐ€์ง€๊ณ  ๋Œ์•„์˜ค๊ฒ ๋‹ค!