1. Dropout(๋๋กญ์์) ์ด๋?Foward Propagation์์ ์ผ์ ํ๋ฅ (0๋ถํฐ 1์ฌ์ ํ๋ฅ )๋ก ์ ํ๋ ์ผ๋ถ Node ํน์ Neuron ๋ค์ ๊ฒฐ๊ณผ๊ฐ์ 0์ผ๋ก ์ค์ ํ๋ ๋ฐฉ์์ด๋ค . ์ฆ, ์ ํ๋ ์ผ๋ถ Node ํน์ Neuron์ ์ ๊ฑฐํ๋ ๊ธฐ๋ฒ์ด๋ค. ์ ๊ฑฐ๋๋ ๋ด๋ฐ์ ์ข
๋ฅ์ ๊ฐ์๋ ์ค๋ก์ง randomํ๊ฒ ๊ฒฐ์ ๋๋ค. Dropout Rate๋ ํ์ดํผํ๋ผ๋ฏธํฐ์ด๋ฉฐ ์ผ๋ฐ์ ์ผ๋ก 0.5๋ก ์ค์ ํ๋ค. ๐ค ๊ทธ๋ ๋ค๋ฉด Dropout์ ์ฌ์ฉํ๋ ์ด์ ๊ฐ ๋ฌด์์ผ๊น์? Dropout์ ์ด๋ค ํน์ ํ feature๋ง์ ๊ณผ๋ํ๊ฒ ํ์ตํจ์ผ๋ก์จ ๋ฐ์ํ ์ ์๋ Overfitting์ ๋ฐฉ์งํ ์ ์๋ค. ์ฆ, ์ผ๋ฐํ์ ์ฑ๋ฅ์ ์ฌ๋ฆด ์ ์๋ ๊ฒ์ด๋ค. ๋ง์ผ ํน์ ํ ํผ์ฒ(๊ด๋ จ์ฑ์ด ๋์ ํผ์ฒ)๊ฐ ์์ธก๊ฒฐ๊ณผ๊ฐ๊ณผ ํฐ ์๊ด๊ด๊ณ๊ฐ ์๋ค๊ณ ๊ฐ์ ํด๋ณด์. ..
์ ์ฒด ๊ธ
๊พธ์คํจ๐๋ค์ด๊ฐ๊ธฐ์ ์ ์ค๋ฒํผํ
์ด ๋ฌด์์ผ๊น? train loss๋ ์ค์ง๋ง, val loss๊ฐ ์ค์ง ์๊ฑฐ๋ ๋ฐ์ฐํ๋ ํ์์
๋๋ค. ํด๋น ํ์์ ์์ธ ์ค ํ๋๋ ๋ชจ๋ธ ํฌ๊ธฐ์ ๋นํด ํ์ต ๋ฐ์ดํฐ๊ฐ ์ ์ด์ ์๊ธฐ๋ ๊ฒ์ธ๋ฐ์. ์ฝ๊ฒ ์ดํดํ๋ฉด ๋ฐ์ดํฐ๊ฐ ์ ์ด ๋ชจ๋ธ์ด ํด๋น ๋ฐ์ดํฐ์ ํจํด์ ๊ทธ๋ฅ ๋ค ์ธ์๋ฒ๋ ค ํ์ต ๋ฐ์ดํฐ์์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, ์ด์ ์ ๋ณด์ง ๋ชปํ ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํด์๋ ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒ์
๋๋ค. ์ด์ ๋ํ ํด๊ฒฐ์ฑ
์ ์๊ฐํด๋ณด๋ฉด ๋๊ฐ์ง๊ฐ ์์ต๋๋ค. 1. ๋ฐ์ดํฐ๋ฅผ ๋๋ฆฐ๋ค. 2. ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ์ค์ธ๋ค. ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ์ค์ด๋ ๋ฐฉ๋ฒ์ผ๋ก๋ layer์ ์๋ฅผ ์ค์ด๊ฑฐ๋ regularization์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด ์์ต๋๋ค. ์ด๋ฒ ํฌ์คํ
์์ ๋ค๋ฃฐ DataAugmentation์ ๋ฐ์ดํฐ ์๋ฅผ ๋๋ฆฌ๋ ๋ฐฉ๋ฒ์ผ๋ก ์ค๋ฒํผํ
์ ๋ฐฉ..
1. Batch Batch์ ์ฌ์ ์ ์ธ ์๋ฏธ๋ "์ง๋จ, ๋ฌด๋ฆฌ" ๋ผ๋ ์๋ฏธ์
๋๋ค. ๋ฅ๋ฌ๋์์ Batch๋ ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ N๊ฐ์ ๋ฌถ์์ผ๋ก ๋๋๋ฉฐ, ํ ๋ฌถ์ ๋น ๋ชจ๋ธ์ ๊ฐ์ค์น๋ฅผ ํ๋ฒ์ฉ ์
๋ฐ์ดํธ์ํต๋๋ค.์ผ๋ฐ์ ์ธ gradient descent์์๋ gradient๋ฅผ ํ๋ฒ์ ์
๋ฐ์ดํธํ๊ธฐ ์ํด ๋ชจ๋ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ฆ, ํ์ต ๋ฐ์ดํฐ ์ ๋ถ๋ฅผ ๋ฃ์ด์ gradient๋ฅผ ๊ตฌํ๊ณ , ๊ทธ ๋ชจ๋ gradient๋ฅผ ํ๊ท ๋ด์ด ํ๋ฒ์ ๋ชจ๋ธ ์
๋ฐ์ดํธ๋ฅผ ์งํํฉ๋๋ค. ๋์ฉ๋์ ๋ฐ์ดํฐ๋ฅผ ํ๋ฒ์ ์ฒ๋ฆฌํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ๋ฅผ Batch ๋จ์๋ก ๋๋ ์ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํฉ๋๋ค. SGD(Stochastic Gradient Descent)์์๋ Gradient๋ฅผ ํ๋ฒ ์
๋ฐ์ดํธ ํ๊ธฐ ์ํด ์ผ๋ถ์ ๋ฐ์ดํฐ๋ง์ ์ฌ์ฉํฉ๋๋ค. ํ ๋ฒ ์
๋ฐ์ดํธํ๋..
ํ์ฑํ ํจ์์ ํน์ง - ๋น์ ํํจ์(Non-linear Function) ์ค์ ์ธ๊ณ์ ๋ง์ ๋ฌธ์ ๋ค์ ๋ณ์ ๊ฐ์ ๋ณต์กํ ์ํธ์์ฉ๊ณผ ๋น์ ํ ๊ด๊ณ๋ฅผ ํฌํจํ๊ณ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ด๋ฏธ์ง ๋ฌธ์ ์์ ํฝ์
๊ฐ์ ๊ด๊ณ๋ ๋จ์ํ ์ ํ์กฐํฉ์ผ๋ก๋ ํํํ๊ธฐ ์ด๋ ค์ด๋ฐ, ์ ํํจ์๋ ์
๋ ฅ ๋ณ์์ ์ ํ์กฐํฉ์ผ๋ก ์ถ๋ ฅ์ ๊ณ์ฐํ๊ธฐ์ ๋น์ ํ์ ์ธ ๊ด๊ณ๋ฅผ ํํํ๋๋ฐ๋ ํ๊ณ๊ฐ ์์ต๋๋ค. ๋ฐ๋ฉด ๋น์ ํํจ์๋ ์
๋ ฅ๊ฐ์ ๋ฐ๋ผ ์ถ๋ ฅ์ด ๋น์ ํ์ ์ผ๋ก ๋ณํํ๋ฏ๋ก ์ ๊ฒฝ๋ง์ด ๋ณต์กํ ๋น์ ํ ํจํด์ ํ์ตํ ์ ์๊ฒ๋ ๋์์ค๋๋ค. ํ์ฑํ ํจ์์ ํน์ง์ ์ ํํจ์๊ฐ ์๋ ๋น์ ํํจ์์ฌ์ผ ํฉ๋๋ค. ์ ํํจ์๋ ์ถ๋ ฅ์ด ์
๋ ฅ์ ์์๋ฐฐ๋งํผ ๋ณํ๋ ํจ์๋ฅผ ์ ํํจ์๋ผ๊ณ ํ๋๋ฐ, ์๋ฅผ ๋ค๋ฉด $ f(x) = Wx+b $ ๋ผ๋ ํจ์๊ฐ ์์ ๋ W์b๋ ์์์
๋๋ค. ์ด ์์ ๊ทธ๋ํ๋ก..