๋ ผ๋ฌธ ๋ฆฌ๋ทฐ - Word2vec (2)
Distributed Representations of words and phrases and their compositionality
ํด๋น ๋ ผ๋ฌธ์ word2vec ์ ํ์ ๋ ผ๋ฌธ์ผ๋ก์จ vector ํ์ง๊ณผ ํ์ต ์๋๋ฅผ ๋์ธ ๋ฐฉ๋ฒ์ ๋ํด ์๊ฐํ๊ณ ์๋ค. ์๊ฐ๋ ๊ฐ๋จํ ์ฌ๊ธฐ์ ๋ง๋ฌด๋ฆฌํ๊ณ ๋ ผ๋ฌธ์ ๋ฆฌ๋ทฐํด ๋ณด๋๋ก ํ์.
- ๐ Abstract
- ๐๏ธ Introduction
- ๐น๏ธ Skip-gram Model
- ๐๏ธ Learning Phrases
- โ๏ธ Additive Compositionality
- ๐ Conclusion
๐ Abstract
ํด๋น ๋
ผ๋ฌธ ์ด์ ์ ๋ฐํํ ๋
ผ๋ฌธ์์๋ continuous Skip-gram
๋ชจ๋ธ์ ํตํด ๊ณ ํ์ง์ distributed vector representations ์ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์ค๋ช
ํ๋ค. ์ด ๋
ผ๋ฌธ์์๋ ๋ฒกํฐ์ ํ๋ฆฌํฐ์ ํ์ต ์๋๋ฅผ ๋์ผ ์ ์๋ ๋ฐฉ๋ฒ์ ์๊ฐํ๋ค.
- Subsampling of the frequent words
- Instead of Hierarchical Softmax, use
Negative Sampling
๋ํ ๊ด์ฉ์ด์ ์ผ๋ก ๋ง์ง ์๋ ๋จ์ด๋ค์ ์กฐํฉ๋ ํํํ ์ ์๋ phrase vector
๋ฅผ ์๊ฐํ๋ค. (Air Canada ์ฒ๋ผ ์๋ก ์ฐ๊ด ์๋ ๋จ์ด๋ค์ด ๋ง๋ ๋จ์ด๋ค)
๐๏ธ Introduction
์ด์ ๋ ผ๋ฌธ์์ ์๊ฐํ Skip-gram ๋ชจ๋ธ๊ฐ์ ๊ฒฝ์ฐ ๊ต์ฅํ ๋ง์ ์์ ๋ฐ์ดํฐ๋ฅผ ํตํด ๊ณ ํ์ง์ wordsโ representation vector ๋ฅผ ํ์ต์ํฌ ์ ์์๋ค๊ณ ํ๋ค. ์ด๋ฌํ ํ์ต์ด ๊ฐ๋ฅํ๋ ์ด์ ๋ ์ฌํ ๋ค๋ฅธ NNLM ๋ชจ๋ธ๋ค๊ณผ ๋ค๋ฅด๊ฒ dense matrix multiplications ๊ฐ ํฌํจ๋์ง ์์๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ๋ฐํ๊ณ ์๋ค.
์ด ๋ ผ๋ฌธ์์๋ ์ด Skip-gram ์ ์๋์ ๊ฐ์ ๊ฐ์ ์ ์ ํตํด ๋ ๋น ๋ฅด๊ณ ์ ํํด์ง ๋ชจ๋ธ์ ๋ณด์ฌ์ฃผ๊ณ ์ ํ๋ค.
- Subsampling of frequent words
- ์ด ๋ฐฉ๋ฒ์ ํตํด ์ฝ 2~10๋ฐฐ ์๋ ํฅ์๊ณผ ๋น๋ ํ์๊ฐ ๋ฎ์ ๋จ์ด์ ๋ํ ์ ํ๋ ํฅ์์ ์ด๋ฃธ
- Noise Contrastive Estimation(NCE) / Negative Sampling
- ์ด ๋ฐฉ๋ฒ์ ํตํด ์๋ ํฅ์ ๋ฐ ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด์ ๋ํด ๋ ์ข์ ํ์ง์ vector ์์ฑ ๊ฐ๋ฅ
- Phrase Vector ํ์ต
- ์์ฐ์ค๋ฝ์ง ๋ชปํ ๋จ์ด ์กฐํฉ๋ค์ ๋ํ vector ํ์ต์ ํ๊ณ๊ฐ ์์
- ๋ฐ๋ผ์ phrase ์ representation ์ ๋ด์ vector ๋ฅผ ํ์ฉํด Skip-gram ๋ชจ๋ธ์ด ์กฐ๊ธ ๋ ํ๋ถํด์ง ์ ์์์
- ex) vec(โMontreal Canadiensโ) - vec(โMontrealโ) + vec(โTorontoโ) = vec(โTorontor Maple Leafsโ)
๊ทธ๋ ๊ฒ ์ด ๋ฐฉ๋ฒ์ ํตํด ๊ฐ๋จํ vector addition ์์ ์ ์๋ฏธํ ๊ฒฐ๊ณผ๋ฅผ ๋ณผ ์ ์๋ค๊ณ ํ๋ค. ์๋ฅผ ๋ค๋ฉด, vec(โRussiaโ) + vec(โriverโ) ๋ vector(โVolga Riverโ) ์ ๊ฐ์ด ํํ์ด ๋๋ค๊ณ ํ๋ค. ์ด๋ฌํ ํฉ์ฑ์ฑ์ ๋น์ฐํ์ง ์์ ์ธ์ด์ ์ดํด๊ฐ word vector representation ์ ๊ฐ๋จํ ๊ณ์ฐ์ผ๋ก ๋ณด์ผ ์ ์๋ค๋ ๊ฒ์ด๋ค.
๐น๏ธ Skip-gram Model
\[\frac{1}{T} \sum_{t=1}^{T} \sum_{-c \leq j \leq c, j \neq 0} \log p\left(w_{t+j} \mid w_{t}\right)\]Objective Function : ์ค์ฌ ๋จ์ด๊ฐ ์ฃผ์ด์ก์ ๋ ์ฃผ๋ณ ๋จ์ด๋ฅผ ์์ธกํ ํ๋ฅ ์ log๊ฐ maximize
๊ทธ๋ ๋ค๋ฉด ํด๋น log ๊ฐ์ ์ด๋ป๊ฒ ์ ์๋ ๊น? \[p\left(w_{O} \mid w_{I}\right)=\frac{\exp \left(v_{w_{O}}^{\prime}{ }^{\top} v_{w_{I}}\right)}{\sum_{w=1}^{W} \exp \left(v_{w}^{\prime}{ }^{\top} v_{w_{I}}\right)}\]
I ๋ฒ์งธ ๋จ์ด์ ๋ํ ๋ฒกํฐ์์ ๋ด์ ์ฐ์ฐ๊ฐ์ exp ๊ฐ์ด ๋ชจ๋ ๋จ์ด์ ํด๋นํ๋ ๋ด์ ๊ฐ์ exp ํฉ์ผ๋ก ๋๋ ๊ฒ์ผ๋ก ๊ณ์ฐํ๋ค.
์ ์์์ ๋์ฌ๊ฒจ ๋ด์ผํ ์ ์ \(W\) ์ด๋ค. \(W\) ๋ vocab ์ ๊ฐ์์ธ๋ฐ ์ด ์์ด ์ค์ฉ์ ์ด์ง ๋ชปํ ์ด์ ๋ softmax ๋ฅผ ๊ณ์ฐํ๋ ๊ฒ์ด ์ด \(W\) ์ ๋น๋กํ๊ธฐ ๋๋ฌธ์ด๋ค. ๋ณดํต \(W\) ๋ \(10^{5}-10^{7}\) ์ ๋ ๋๋ค๊ณ ํ๋ค.
โ๏ธ Hierarchical Softmax
์ด์ ๋
ผ๋ฌธ์์๋ ์ฐ์ฐ๋์ด ๋ง์ softmax ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋จ์ด๋ฅผ Huffman Binary Tree ๋ฅผ ์ด์ฉํด ๊ตฌ์ฑํ๊ณ ๊ทธ์ ๋ฐ๋ผ Hierarchical Softmax
๋ฅผ ์ด์ฉํ์๋ค. ๊ทธ์ ๋ฐ๋ผ ๊ธฐ์กด \(O(W)\) ๋งํผ ๊ฑธ๋ฆฌ๋ time complexity ๋ฅผ \(O(log_2(W))\) ๋งํผ ์ค์ผ ์ ์์๋ค.
ํ์ง๋ง ๊ทธ ๋ฐฉ๋ฒ์ ๋ํด ์ ํํ ์ ์๋์ง ์์๋๋ฐ ์ด๋ฒ ๋ ผ๋ฌธ์ ํตํด ์์๋ณด๋๋ก ํ์.
๋จผ์ ์๊ณ ๊ฐ์ผํ๋ ์ ๋ค์ด ์๋ค. ๋๋ ๋ ผ๋ฌธ์ ์ฝ์ ๋ ์ด ๋ถ๋ถ์์ ์ค๋ ์๊ฐ ๊ฑธ๋ ธ์๋ค.
- \(n(w, j)\) ๋ w๋ฅผ ๋ฃจํธ๋ก ํ ํธ๋ฆฌ์ j ๋ฒ์งธ ๋ ธ๋
- \(L(w)\) ๋ root ๋ถํฐ w ๊น์ง์ ๊ธธ์ด
- \(ch(n)\) ๋ n ์ child
- \([\![x]\!]\) ๋ x ๊ฐ True ๋ผ๋ฉด 1 ์๋๋ฉด -1
- ๊ธฐ๋ณธ์ ์ผ๋ก ์์ ๋ ธ๋๋ ์ผ์ชฝ ์์ ๋ ธ๋๋ฅผ ์๋ฏธ
์ด ๋ถ๋ถ์ ์๊ธฐํ๋ฉด์ ์๋ ์์ ๋ณด๋๋ก ํ์. \[p\left(w \mid w_{I}\right)=\prod_{j=1}^{L(w)-1} \sigma\left([\![n(w, j+1)=\operatorname{ch}(n(w, j))]\!] \cdot v_{n(w, j)}^{\prime}{ }^{\top} v_{w_{I}}\right)\]
์ ๊ทธ๋ฆผ์ ๊ฐ์ด ๋ณด๋ฉด์ ์ค๋ช ํ๋ฉด ํธ๋ฆฌ๋ vocabulary ํฌ๊ธฐ๋งํผ leaf ๋ ธ๋๋ฅผ ๊ฐ์ง๋ค. ์ ์์์ ์ค์ํ ๊ฑด ์์ ์๋ ์ผ์ข ์ if ๋ฌธ์ด๋ค.
- j+1 ๋ฒ์งธ ๋
ธ๋๊ฐ j๋ฒ์งธ ๋
ธ๋์ ์์์ด๋ผ๋ฉด (์ผ์ชฝ) :
์ค์ฌ ๋จ์ด์ ๊ทธ ํด๋น ์ฃผ์ ๋จ์ด์ ๋ด์ ๊ฐ
- j+1 ๋ฒ์งธ ๋
ธ๋๊ฐ j๋ฒ์งธ ๋
ธ๋์ ์์์ด ์๋๋ผ๋ฉด (์ค๋ฅธ์ชฝ) :
-(์ค์ฌ ๋จ์ด์ ๊ทธ ํด๋น ์ฃผ์ ๋จ์ด์ ๋ด์ ๊ฐ)
ํด๋น ํ๋ฅ ๊ฐ์ maximize ํ๋ค๋ ๊ฒ์ ์์ง ๋ง์
์ด๋ ๊ฒ ๊ตฌ์ฑ์ ํ๊ฒ ๋๋ฉด ์ฐ์ฐ ํ์๊ฐ L(w)์ ๊ทผ์ฌํ๊ฒ ๋๊ณ ์ด๋ ํธ๋ฆฌ์ ๋์ด
์ด๊ธฐ์ \(log_2(V)\) ๊ฐ ๋๋ค๋ ๊ฒ์ด๋ค. ํ๋ง๋๋ก ๊ณ์ฐ ํจ์จ์ฑ์ ๊ทน๋ํ ํ ๊ฒ์ด๋ค. ๋ํ ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด์ ๋
ธ๋๋ ๋ฃจํธ ๋
ธ๋๋ก๋ถํฐ ๊ฑฐ๋ฆฌ๋ฅผ ๊ฐ๊น๊ฒ ํ์ฌ ๋ ๋น ๋ฅธ ๊ณ์ฐ์ด ๊ฐ๋ฅํ๋๋ก ํ์๋ค๊ณ ํ๋ค. ๋ง์ง๋ง ์ฅ์ ์ ํ๋ฅ ๊ฐ ๊ณ์ฐ์ ์ฐธ์ฌํ ๋
ธ๋๋ง ์
๋ฐ์ดํธ ๋์ด ์๊ฐ์ ์๋ ์ ์๋ค.
๐ช Negative Sampling
Hierarchical Softmax ์ ๋์์ผ๋ก Noise Contrastive Estimation(NCE)
๋ฅผ ์ฌ์ฉํ ์ ์๋ค. ์ฒ์ ๋ณด๋ ์ฉ์ด์ธ๋ฐ ์ด๊ฒ์ด ๋ฌด์์ผ๊น?
- CBoW, Skip-gram ๋ชจ๋ธ์์ ์ฌ์ฉํ๋ ๋น์ฉ ๊ณ์ฐ ์๊ณ ๋ฆฌ์ฆ
- ์ ์ฒด ๋ฐ์ดํฐ์ ์ Softmax ํจ์๋ฅผ ์ ์ฉํ๋ ๊ฒ์ด ์๋, ์ํ๋ง์ผ๋ก ์ถ์ถํ ์ผ๋ถ์ ๋ํด์๋ง ์ ์ฉ
- NCE ๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ ๋ฌธ์ ๋ฅผ ์ค์ context ์์ ์ป์ ๋ฐ์ดํฐ (\(X\)) ์ context ์ ์ํ์ง ์๋ ๋จ์ด๋ค์์ ๋ฝ์ ๋ฐ์ดํฐ (\(Y\)) ๋ฅผ ๊ตฌ๋ณํ๋ ์ด์ง ๋ถ๋ฅ ๋ฌธ์ ๋ก ๋ฐ๊ฟ ์ ์์
- k๊ฐ์ ๋๋น๋๋(contrastive) ๋จ์ด๋ค์ noise distribution์์ ๊ตฌํด์ (๋ชฌํ ์นด๋ฅผ๋ก) ํ๊ท ์ ๊ตฌํ๋ ๊ฒ์ด ๊ธฐ๋ณธ ์๊ณ ๋ฆฌ์ฆ
NCE ๋ log ํ๋ฅ ์ maximize ํ๋๋ฐ ์ด์ ์ ๋ง์ถ๊ณ ์๋ ๋ฐ๋ฉด Skip-gram ๋ชจ๋ธ์ ์ค์ง ๊ณ ํ์ง์ ๋ฒกํฐ๋ฅผ ํ์ตํ๋๋ฐ ์ด์ ์ ๋ง์ถ๊ณ ์๋ค. ๊ทธ๋ ๊ธฐ์ ๋ณธ ๋
ผ๋ฌธ์ ๋ฒกํฐ์ ํ์ง์ ์ ์งํ๋ฉด์ NCE ๋ฅผ ๊ฐ์ํํ ์ ์์๋ค๊ณ ํ๋ค. ์ด๋ ๊ฒ ๊ฐ์ํ๋ ํํ๋ฅผ Negative Sampling
์ด๋ผ ํ๋ค. \[\log \sigma\left(v_{w_{O}}^{\prime}{ }^{\top} v_{w_{I}}\right)+\sum_{i=1}^{k} \mathbb{E}_{w_{i} \sim P_{n}(w)}\left[\log \sigma\left(-v_{w_{i}}^{\prime}{ }^{\top} v_{w_{I}}\right)\right]\]
๋ ผ๋ฌธ์์๋ Skip-gram ์ objective ํจ์์ ์๋ \(\log P\left(w_{O} \mid w_{I}\right)\) ์์ ๋ชจ๋ ์ ์์ผ๋ก ๊ต์ฒดํ์๋ค๊ณ ํ๋ค.
- ์ข์ธก term : ์ ๋ ฅ ๋จ์ด \(w_I\) ์ ๋ํ์ฌ positive sample \(W_O\) ๊ฐ output ์ผ ํ๋ฅ ์ Maximize
- ์ฐ์ธก term :
Negative Sample
์ ๋ํ์ฌ \(W_I\) ๊ฐ output ์ด ๋ ํ๋ฅ ์ ์ต์ํ โ ๋ด์ ๊ฒฐ๊ณผ์ -1 ์ ๊ณฑํจ- Noise ๋จ์ด๋ค์ unigram ํ๋ฅ ๋ถํฌ์ธ \(P_n(w)\) ๋ฅผ ํตํด sampling
- Unigram Distribution์ ๋จ์ด๊ฐ ๋ฑ์ฅํ๋ ๋น์จ์ ๋น๋กํ๊ฒ ํ๋ฅ ์ ์ค์ ํ๋ ๋ถํฌ
- ๋ณธ ๋ ผ๋ฌธ์์๋ unigram dist. ์ 3/4 ์น ํ ๋ถํฌ(\(U(w)^{3 / 4} / Z\))๊ฐ ์คํ์ ์ผ๋ก ๊ฐ์ฅ ์ข๋ค๊ณ ํจ
๊ทธ๋ ๋ค๋ฉด NCE ์ NEG ์ ์ฐจ์ด์ ์ ๋ฌด์์ผ๊น?
- NCE : sample ๊ณผ noise distribution์ ํ๋ฅ ๊ฐ ๋ชจ๋ ํ์
- NEG : sample ๋ง ํ์
NCE ๊ฐ์ ๊ฒฝ์ฐ softmax ์ log ํ๋ฅ ์ maximize ํ๋ ๊ฒ์ด ๋ชฉํ์๋ค. ์ฆ ์ ๋ถ๋ฅํ๊ณ ์ ํ๋ ๊ฒ์ด ๋ชฉํ์์ผ๋ ํด๋น ๋
ผ๋ฌธ์ ์ฃผ์ถ์ธ word2vec ๊ฐ์ ๊ฒฝ์ฐ word representation
์ ํ๋ฆฌํฐ๋ฅผ ๋์ด๋ ๊ฒ์ ๋ชฉํ๋ก ์ผ์๊ธฐ์ Negative Sampling ์ ์ด์ฉํ ๊ฒ์ด๋ค.
๐ Subsampling of Frequent Words
์์ฒญ๋ ์์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๊ฒ ๋๋ฉด ์ ์ ์์ ์ ๋ณด๋ฅผ ์ฃผ์ง๋ง ์์ฃผ ๋์ค๋ ๋จ์ด๋ค์ด ์๋ค. (ex. โtheโ, โaโ, โisโ, โฆ). ํ์ง๋ง ํ๋ถํ ์๋ฏธ๋ฅผ ๊ฐ์ง๊ณ ์๋ ๋จ์ด๋ค ์ค์์๋ ๋น๋์๊ฐ ๋ฎ์ ๋จ์ด๋ค๋ ์๊ธฐ ๋ง๋ จ์ด๋ค.
๊ฐ ๋จ์ด๋ค์ ๋ฑ์ฅ ํ์์ imbalance ํจ์ ํด๊ฒฐํ๊ธฐ ์ํด ๋ณธ ๋
ผ๋ฌธ์ ๊ฐ๋จํ subsampling ๊ธฐ๋ฒ์ ์ ์ฉํ๋ค. ๊ทธ๊ฒ์ ๋ฐ๋ก discared probability
- ์๋ฏธ์๋ ๋ค๋น๋ ๋จ์ด๋ฅผ ๊ฑธ๋ฌ๋ด๊ธฐ ์ํจ
- \(P\left(w_{i}\right)=1-\sqrt{\frac{t}{f\left(w_{i}\right)}}\) ๋ฅผ ์ด์ฉํ์ฌ ํ๋ฅ ์ค์
- \(f(w_i)\) ๋ ๋จ์ด \(w_i\) ๊ฐ ๋ฑ์ฅํ๋ ๋น๋
- \(P(w_i)\) ๋ ๋จ์ด \(w_i\) ๊ฐ sampling ๋์ง ์์ ํ๋ฅ
- \(t\) ๋ ์ค์ ํ๋ threshold
์ฆ, ์์ ๋ค์ด ์ ํ threshold ๋ฅผ ๋๊ธฐ๋ ๋น๋์์ ๋จ์ด๋ค์ sampling ํ๊ฒ ๋ค๋ ๊ฒ์ด๋ค. ์ด๋ฅผ ํตํด ๋น๋์๊ฐ ์ ์ง๋ง ์ค์ํ ๋จ์ด์ representation vector ์ ํ๋ฆฌํฐ๋ฅผ ํฅ์ํ๋ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ธ์ฌ ์ ์์๋ค๊ณ ํ๋ค.
๐๏ธ Learning Phrases
๋๋ถ๋ถ์ phrase ๋ค์ ๋จ์ํ ๊ฐ๋ณ ๋จ์ด๋ค์ ํฉ์น ๊ฒ์ด ์๋๋ค. ๊ทธ๋ ๊ธฐ์ ๊ทธ phrase ์ representation vector ๋ฅผ ํ์ตํ๊ธฐ ์ํด ํน์ phrase ์์๋ง ๋น๋ ์๊ฐ ๋์ ๋จ์ด ์์ ์ฐพ๋ ๊ฒ์ ์์์ผ๋ก ํ๋ค๊ณ ํ๋ค.
์๋ฅผ ๋ค๋ฉด, New York Times, Toronto Maple Leafs
์ ๊ฐ์ด ๊ณ ์ ํ ์๋ฏธ๋ฅผ ๊ฐ์ง ๊ฒ๋ค์ ํ๋์ ํ ํฐ์ผ๋ก ์นํํ์๋ค๊ณ ํ๊ณ this is, there are
๊ฐ์ ์๋ฏธ ์์ด ๋ง์ด ๋์ค๋ ๊ฒ๋ค์ ๊ทธ๋๋ก ์ฌ์ฉํ์๋ค๊ณ ํ๋ค.
์ด๋ฌํ ๋ฐฉ์์ ํตํด vocabulary ์ฌ์ด์ฆ๋ฅผ ๋๋ฆฌ์ง ์๊ณ phrase ๋ฅผ ์ง์ ์ง์ ํด์ฃผ์๊ณ , data-driven ์ ํตํด ์๋์ผ๋ก ์ฐพ์ ์ ์๋๋ก ํ์๋ค๊ณ ํ๋ค. ๊ทธ๋ ๊ฒ ํ๊ธฐ ์ํด ์๋์ ์์ ์ ์ฉํด ์ ํด๋์ ๊ธฐ์ค๋ณด๋ค ๋์ผ๋ฉด ํ๋์ ๋จ์ด๋ก ์ธ์ํ๋๋ก ํ์๋ค๊ณ ํ๋ค. \[\operatorname{score}\left(w_{i}, w_{j}\right)=\frac{\operatorname{count}\left(w_{i} w_{j}\right)-\delta}{\operatorname{count}\left(w_{i}\right) \times \operatorname{count}\left(w_{j}\right)} .\]
score = ๋จ์ด๊ฐ ๋์์ ๋ฑ์ฅํ๋ ํ์ - \(\delta\) / ๊ฐ ๋จ์ด๊ฐ ๋ฑ์ฅํ๋ ํ์์ ๊ณฑ
์ฌ๊ธฐ์ \(\delta\) ๋ ๋๋ฌด ๋๋ฌผ๊ฒ ๋์ค๋ ๋จ์ด์ ์กฐํฉ์ด ํ๋์ ๊ตฌ๋ก ๋ง๋ค์ด์ง์ง ์๊ธฐ ์ํ hyper parameter
์ด 5๊ฐ์ ์นดํ
๊ณ ๋ฆฌ๋ฅผ ์ด์ฉํ์ฌ analogy test
๋ฅผ ์ํํ์๋ค๊ณ ํ๋ค. ๊ฐ๊ฐ ์์ชฝ 3๊ฐ์ ์ด์ ์ด์ฉํด ๋ง์ง๋ง ์ด์ ์์ธกํ๋ ๋ฌธ์ ์ด๋ค.
โ๏ธ Additive Compositionality
๋ง์ง๋ง์ผ๋ก ๋ณผ ๊ฒ์ ์์ ์ธ๊ธํ๋ ํฉ์ฑ์ฑ์ด๋ค. ๋ณธ ๋
ผ๋ฌธ์์๋ Skip-gram ๋ชจ๋ธ์ ํตํด ํ์ต๋ word and phrase representations
๋ค์ ํตํด ๊ฐ๋จํ ์ฐ์ฐ์ ํตํด analogical reasoning ํ์คํฌ๋ฅผ ์ ํํ๊ฒ ๊ตฌํํ ์ ์๋ค๊ณ ํ๋ค.
- Skip-gram ์ ๋ชฉ์ ์ ๊ณ ํ์ง์ word representation ๋ค์ ํ์ตํ๋ ๊ฒ
- ์ด๋ ์ค์ฌ๋ถ ๋จ์ด์ context ๋ฅผ ์ด์ฉํด ์ฃผ๋ณ ๋จ์ด๋ฅผ ๋ง์ถ ํ๋ฅ ์ maximize ํ๋ ๊ฒ
- ๋ ๋จ์ด์ vector ๋ฅผ ๋ํ๋ค๋ ๊ฒ์ ๋ ๋ฌธ๋งฅ์ AND ์ฐ์ฐํ๋ค๋ ๊ฒ
- ๊ทธ๋ ๊ธฐ์ ๋ ๋จ์ด์ ํฉ์ ํตํด ๊ทธ ๋จ์ด๊ฐ ํฌํจ๋์๋ context ์ ๋ณด๋ฅผ ํฉ์น ์ ์๋ค๋ ๊ฒ
๐ Conclusion
๋ ผ๋ฌธ์ ๋๋ง์น๋ฉด์ ํน์ดํ๊ฒ representation vector ์ ํ์ง์ ์ํฅ์ ์คฌ๋ hyper parameter ๋ค์ ์๊ฐํ๋ค.
- Choice of Model Architecture
- Size of the vectors
- Subsampling rate
- Size of the training window.
ํ์ง๋ง ์ฌ์ ํ OOV ๋ฌธ์ ๋ ํด๊ฒฐํ์ง ๋ชปํ์๊ณ (2013๋ ์ด์๊ธฐ์โฆ) Additive Compositionality ์์ ๋จ์ ๋ํ๊ธฐ๋ง ํ ์ ์๋๊ฑด์ง ์๋ฌธ์ด ๋ ๋ค. ๋ํ subsmapling of frequent words ๋ฅผ ํตํด ์ด๋ ์ ๋์ less frequent words ์ accuracy ๋ฅผ ์ผ๋ง๋ ๋์๋์ง๋ฅผ ์ ์ ์์ด ์์ฌ์์ด ๋จ๋๋ค. ์ด์ ๋ ผ๋ฌธ์์๋ less frequent words ๋ poor representation vector ๊ฐ ํ์ต๋์๊ณ ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ์์น๋ก ํํํ์ผ๋ฉด ์ด๋จ๊นํ๋ ์๊ฐ์ด ๋ ๋ค.