์ „์ฒด ๊ธ€

๊พธ์ค€ํ•จ๐Ÿ€
1. Dropout(๋“œ๋กญ์•„์›ƒ) ์ด๋ž€?Foward Propagation์—์„œ ์ผ์ •ํ™•๋ฅ (0๋ถ€ํ„ฐ 1์‚ฌ์˜ ํ™•๋ฅ )๋กœ ์„ ํƒ๋œ ์ผ๋ถ€ Node ํ˜น์€ Neuron ๋“ค์˜ ๊ฒฐ๊ณผ๊ฐ’์„ 0์œผ๋กœ ์„ค์ •ํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค . ์ฆ‰, ์„ ํƒ๋œ ์ผ๋ถ€ Node ํ˜น์€ Neuron์„ ์ œ๊ฑฐํ•˜๋Š” ๊ธฐ๋ฒ•์ด๋‹ค.  ์ œ๊ฑฐ๋˜๋Š” ๋‰ด๋Ÿฐ์˜ ์ข…๋ฅ˜์™€ ๊ฐœ์ˆ˜๋Š” ์˜ค๋กœ์ง€ randomํ•˜๊ฒŒ ๊ฒฐ์ •๋œ๋‹ค. Dropout Rate๋Š” ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์ด๋ฉฐ ์ผ๋ฐ˜์ ์œผ๋กœ 0.5๋กœ ์„ค์ •ํ•œ๋‹ค. ๐Ÿค” ๊ทธ๋ ‡๋‹ค๋ฉด Dropout์„ ์‚ฌ์šฉํ•˜๋Š” ์ด์œ ๊ฐ€ ๋ฌด์—‡์ผ๊นŒ์š”? Dropout์€ ์–ด๋–ค ํŠน์ •ํ•œ feature๋งŒ์„ ๊ณผ๋„ํ•˜๊ฒŒ ํ•™์Šตํ•จ์œผ๋กœ์จ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” Overfitting์„ ๋ฐฉ์ง€ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ฆ‰, ์ผ๋ฐ˜ํ™”์˜ ์„ฑ๋Šฅ์„ ์˜ฌ๋ฆด ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ด๋‹ค.  ๋งŒ์ผ ํŠน์ •ํ•œ ํ”ผ์ฒ˜(๊ด€๋ จ์„ฑ์ด ๋†’์€ ํ”ผ์ฒ˜)๊ฐ€ ์˜ˆ์ธก๊ฒฐ๊ณผ๊ฐ’๊ณผ ํฐ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•ด๋ณด์ž. ..
๋“ค์–ด๊ฐ€๊ธฐ์ „์— ์˜ค๋ฒ„ํ”ผํŒ…์ด ๋ฌด์—‡์ผ๊นŒ? train loss๋Š” ์ค„์ง€๋งŒ, val loss๊ฐ€ ์ค„์ง€ ์•Š๊ฑฐ๋‚˜ ๋ฐœ์‚ฐํ•˜๋Š” ํ˜„์ƒ์ž…๋‹ˆ๋‹ค. ํ•ด๋‹น ํ˜„์ƒ์˜ ์›์ธ ์ค‘ ํ•˜๋‚˜๋Š”  ๋ชจ๋ธ ํฌ๊ธฐ์— ๋น„ํ•ด ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ์ ์–ด์„œ ์ƒ๊ธฐ๋Š” ๊ฒƒ์ธ๋ฐ์š”. ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๋ฉด ๋ฐ์ดํ„ฐ๊ฐ€ ์ ์–ด ๋ชจ๋ธ์ด ํ•ด๋‹น ๋ฐ์ดํ„ฐ์˜ ํŒจํ„ด์„ ๊ทธ๋ƒฅ ๋‹ค ์™ธ์›Œ๋ฒ„๋ ค ํ•™์Šต ๋ฐ์ดํ„ฐ์—์„œ๋Š” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€๋งŒ, ์ด์ „์— ๋ณด์ง€ ๋ชปํ•œ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ๋Š” ๋‚ฎ์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.  ์ด์— ๋Œ€ํ•œ ํ•ด๊ฒฐ์ฑ…์„ ์ƒ๊ฐํ•ด๋ณด๋ฉด ๋‘๊ฐ€์ง€๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.  1. ๋ฐ์ดํ„ฐ๋ฅผ ๋Š˜๋ฆฐ๋‹ค.  2. ๋ชจ๋ธ์˜ ํฌ๊ธฐ๋ฅผ ์ค„์ธ๋‹ค. ๋ชจ๋ธ์˜ ํฌ๊ธฐ๋ฅผ ์ค„์ด๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ๋Š” layer์˜ ์ˆ˜๋ฅผ ์ค„์ด๊ฑฐ๋‚˜ regularization์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์žˆ์Šต๋‹ˆ๋‹ค.  ์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ ๋‹ค๋ฃฐ DataAugmentation์€ ๋ฐ์ดํ„ฐ ์ˆ˜๋ฅผ ๋Š˜๋ฆฌ๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ์˜ค๋ฒ„ํ”ผํŒ…์„ ๋ฐฉ..
1. Batch Batch์˜ ์‚ฌ์ „์ ์ธ ์˜๋ฏธ๋Š” "์ง‘๋‹จ, ๋ฌด๋ฆฌ" ๋ผ๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค. ๋”ฅ๋Ÿฌ๋‹์—์„œ Batch๋Š” ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ N๊ฐœ์˜ ๋ฌถ์Œ์œผ๋กœ ๋‚˜๋ˆ„๋ฉฐ, ํ•œ ๋ฌถ์Œ ๋‹น ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ํ•œ๋ฒˆ์”ฉ ์—…๋ฐ์ดํŠธ์‹œํ‚ต๋‹ˆ๋‹ค.์ผ๋ฐ˜์ ์ธ gradient descent์—์„œ๋Š” gradient๋ฅผ ํ•œ๋ฒˆ์— ์—…๋ฐ์ดํŠธํ•˜๊ธฐ ์œ„ํ•ด ๋ชจ๋“  ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ํ•™์Šต ๋ฐ์ดํ„ฐ ์ „๋ถ€๋ฅผ ๋„ฃ์–ด์„œ gradient๋ฅผ ๊ตฌํ•˜๊ณ , ๊ทธ ๋ชจ๋“  gradient๋ฅผ ํ‰๊ท ๋‚ด์–ด ํ•œ๋ฒˆ์— ๋ชจ๋ธ ์—…๋ฐ์ดํŠธ๋ฅผ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๋Œ€์šฉ๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ•œ๋ฒˆ์— ์ฒ˜๋ฆฌํ•˜์ง€ ๋ชปํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ฐ์ดํ„ฐ๋ฅผ Batch ๋‹จ์œ„๋กœ ๋‚˜๋ˆ ์„œ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.  SGD(Stochastic Gradient Descent)์—์„œ๋Š” Gradient๋ฅผ ํ•œ๋ฒˆ ์—…๋ฐ์ดํŠธ ํ•˜๊ธฐ ์œ„ํ•ด ์ผ๋ถ€์˜ ๋ฐ์ดํ„ฐ๋งŒ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ํ•œ ๋ฒˆ ์—…๋ฐ์ดํŠธํ•˜๋Š”..
ํ™œ์„ฑํ™” ํ•จ์ˆ˜์˜ ํŠน์ง• - ๋น„์„ ํ˜•ํ•จ์ˆ˜(Non-linear Function) ์‹ค์ œ ์„ธ๊ณ„์˜ ๋งŽ์€ ๋ฌธ์ œ๋“ค์€ ๋ณ€์ˆ˜ ๊ฐ„์˜ ๋ณต์žกํ•œ ์ƒํ˜ธ์ž‘์šฉ๊ณผ ๋น„์„ ํ˜• ๊ด€๊ณ„๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ด๋ฏธ์ง€ ๋ฌธ์ œ์—์„œ ํ”ฝ์…€ ๊ฐ„์˜ ๊ด€๊ณ„๋Š” ๋‹จ์ˆœํ•œ ์„ ํ˜•์กฐํ•ฉ์œผ๋กœ๋Š” ํ‘œํ˜„ํ•˜๊ธฐ ์–ด๋ ค์šด๋ฐ, ์„ ํ˜•ํ•จ์ˆ˜๋Š” ์ž…๋ ฅ ๋ณ€์ˆ˜์˜ ์„ ํ˜•์กฐํ•ฉ์œผ๋กœ ์ถœ๋ ฅ์„ ๊ณ„์‚ฐํ•˜๊ธฐ์— ๋น„์„ ํ˜•์ ์ธ ๊ด€๊ณ„๋ฅผ ํ‘œํ˜„ํ•˜๋Š”๋ฐ๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ๋น„์„ ํ˜•ํ•จ์ˆ˜๋Š” ์ž…๋ ฅ๊ฐ’์— ๋”ฐ๋ผ ์ถœ๋ ฅ์ด ๋น„์„ ํ˜•์ ์œผ๋กœ ๋ณ€ํ™”ํ•˜๋ฏ€๋กœ ์‹ ๊ฒฝ๋ง์ด ๋ณต์žกํ•œ ๋น„์„ ํ˜• ํŒจํ„ด์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ๋” ๋„์™€์ค๋‹ˆ๋‹ค.     ํ™œ์„ฑํ™” ํ•จ์ˆ˜์˜ ํŠน์ง•์€ ์„ ํ˜•ํ•จ์ˆ˜๊ฐ€ ์•„๋‹Œ ๋น„์„ ํ˜•ํ•จ์ˆ˜์—ฌ์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์„ ํ˜•ํ•จ์ˆ˜๋ž€ ์ถœ๋ ฅ์ด ์ž…๋ ฅ์˜ ์ƒ์ˆ˜๋ฐฐ๋งŒํผ ๋ณ€ํ•˜๋Š” ํ•จ์ˆ˜๋ฅผ ์„ ํ˜•ํ•จ์ˆ˜๋ผ๊ณ  ํ•˜๋Š”๋ฐ, ์˜ˆ๋ฅผ ๋“ค๋ฉด $ f(x) = Wx+b $ ๋ผ๋Š” ํ•จ์ˆ˜๊ฐ€ ์žˆ์„ ๋•Œ W์™€b๋Š” ์ƒ์ˆ˜์ž…๋‹ˆ๋‹ค. ์ด ์‹์€ ๊ทธ๋ž˜ํ”„๋กœ..
zzoming_00
ZZOMING'S TECH BLOG