๋ ผ๋ฌธ ๋ฆฌ๋ทฐ - Word2vec (2)
Distributed Representations of words and phrases and their compositionality
ํด๋น ์ธ๋ค์ผ์ Wonkook Lee
๋์ด ๋ง๋์ Thumbnail-Maker
๋ฅผ ์ด์ฉํ์์ต๋๋ค
ํด๋น ๋ ผ๋ฌธ์ word2vec ์ ํ์ ๋ ผ๋ฌธ์ผ๋ก์จ vector ํ์ง๊ณผ ํ์ต ์๋๋ฅผ ๋์ธ ๋ฐฉ๋ฒ์ ๋ํด ์๊ฐํ๊ณ ์๋ค. ์๊ฐ๋ ๊ฐ๋จํ ์ฌ๊ธฐ์ ๋ง๋ฌด๋ฆฌํ๊ณ ๋ ผ๋ฌธ์ ๋ฆฌ๋ทฐํด ๋ณด๋๋ก ํ์.
- ๐ Abstract
- ๐๏ธ Introduction
- ๐น๏ธ Skip-gram Model
- ๐๏ธ Learning Phrases
- โ๏ธ Additive Compositionality
- ๐ Conclusion
๐ Abstract
ํด๋น ๋
ผ๋ฌธ ์ด์ ์ ๋ฐํํ ๋
ผ๋ฌธ์์๋ continuous Skip-gram
๋ชจ๋ธ์ ํตํด ๊ณ ํ์ง์ distributed vector representations ์ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์ค๋ช
ํ๋ค. ์ด ๋
ผ๋ฌธ์์๋ ๋ฒกํฐ์ ํ๋ฆฌํฐ์ ํ์ต ์๋๋ฅผ ๋์ผ ์ ์๋ ๋ฐฉ๋ฒ์ ์๊ฐํ๋ค.
- Subsampling of the frequent words
- Instead of Hierarchical Softmax, use
Negative Sampling
๋ํ ๊ด์ฉ์ด์ ์ผ๋ก ๋ง์ง ์๋ ๋จ์ด๋ค์ ์กฐํฉ๋ ํํํ ์ ์๋ phrase vector
๋ฅผ ์๊ฐํ๋ค. (Air Canada ์ฒ๋ผ ์๋ก ์ฐ๊ด ์๋ ๋จ์ด๋ค์ด ๋ง๋ ๋จ์ด๋ค)
๐๏ธ Introduction
์ด์ ๋ ผ๋ฌธ์์ ์๊ฐํ Skip-gram ๋ชจ๋ธ๊ฐ์ ๊ฒฝ์ฐ ๊ต์ฅํ ๋ง์ ์์ ๋ฐ์ดํฐ๋ฅผ ํตํด ๊ณ ํ์ง์ wordsโ representation vector ๋ฅผ ํ์ต์ํฌ ์ ์์๋ค๊ณ ํ๋ค. ์ด๋ฌํ ํ์ต์ด ๊ฐ๋ฅํ๋ ์ด์ ๋ ์ฌํ ๋ค๋ฅธ NNLM ๋ชจ๋ธ๋ค๊ณผ ๋ค๋ฅด๊ฒ dense matrix multiplications ๊ฐ ํฌํจ๋์ง ์์๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ๋ฐํ๊ณ ์๋ค.
์ด ๋ ผ๋ฌธ์์๋ ์ด Skip-gram ์ ์๋์ ๊ฐ์ ๊ฐ์ ์ ์ ํตํด ๋ ๋น ๋ฅด๊ณ ์ ํํด์ง ๋ชจ๋ธ์ ๋ณด์ฌ์ฃผ๊ณ ์ ํ๋ค.
- Subsampling of frequent words
- ์ด ๋ฐฉ๋ฒ์ ํตํด ์ฝ 2~10๋ฐฐ ์๋ ํฅ์๊ณผ ๋น๋ ํ์๊ฐ ๋ฎ์ ๋จ์ด์ ๋ํ ์ ํ๋ ํฅ์์ ์ด๋ฃธ
- Noise Contrastive Estimation(NCE) / Negative Sampling
- ์ด ๋ฐฉ๋ฒ์ ํตํด ์๋ ํฅ์ ๋ฐ ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด์ ๋ํด ๋ ์ข์ ํ์ง์ vector ์์ฑ ๊ฐ๋ฅ
- Phrase Vector ํ์ต
- ์์ฐ์ค๋ฝ์ง ๋ชปํ ๋จ์ด ์กฐํฉ๋ค์ ๋ํ vector ํ์ต์ ํ๊ณ๊ฐ ์์
- ๋ฐ๋ผ์ phrase ์ representation ์ ๋ด์ vector ๋ฅผ ํ์ฉํด Skip-gram ๋ชจ๋ธ์ด ์กฐ๊ธ ๋ ํ๋ถํด์ง ์ ์์์
- ex) vec(โMontreal Canadiensโ) - vec(โMontrealโ) + vec(โTorontoโ) = vec(โTorontor Maple Leafsโ)
๊ทธ๋ ๊ฒ ์ด ๋ฐฉ๋ฒ์ ํตํด ๊ฐ๋จํ vector addition ์์ ์ ์๋ฏธํ ๊ฒฐ๊ณผ๋ฅผ ๋ณผ ์ ์๋ค๊ณ ํ๋ค. ์๋ฅผ ๋ค๋ฉด, vec(โRussiaโ) + vec(โriverโ) ๋ vector(โVolga Riverโ) ์ ๊ฐ์ด ํํ์ด ๋๋ค๊ณ ํ๋ค. ์ด๋ฌํ ํฉ์ฑ์ฑ์ ๋น์ฐํ์ง ์์ ์ธ์ด์ ์ดํด๊ฐ word vector representation ์ ๊ฐ๋จํ ๊ณ์ฐ์ผ๋ก ๋ณด์ผ ์ ์๋ค๋ ๊ฒ์ด๋ค.
๐น๏ธ Skip-gram Model
\[\frac{1}{T} \sum_{t=1}^{T} \sum_{-c \leq j \leq c, j \neq 0} \log p\left(w_{t+j} \mid w_{t}\right)\]Objective Function : ์ค์ฌ ๋จ์ด๊ฐ ์ฃผ์ด์ก์ ๋ ์ฃผ๋ณ ๋จ์ด๋ฅผ ์์ธกํ ํ๋ฅ ์ log๊ฐ maximize
์ค์ฌ ๋จ์ด๋ฅผ ๊ธฐ์ค์ผ๋ก c ๊ฐ์ ๋จ์ด๋ฅผ ์ดํด๋ด
๊ทธ๋ ๋ค๋ฉด ํด๋น log ๊ฐ์ ์ด๋ป๊ฒ ์ ์๋ ๊น? \[p\left(w_{O} \mid w_{I}\right)=\frac{\exp \left(v_{w_{O}}^{\prime}{ }^{\top} v_{w_{I}}\right)}{\sum_{w=1}^{W} \exp \left(v_{w}^{\prime}{ }^{\top} v_{w_{I}}\right)}\]
Skip-gram model with softmax function
I ๋ฒ์งธ ๋จ์ด์ ๋ํ ๋ฒกํฐ์์ ๋ด์ ์ฐ์ฐ๊ฐ์ exp ๊ฐ์ด ๋ชจ๋ ๋จ์ด์ ํด๋นํ๋ ๋ด์ ๊ฐ์ exp ํฉ์ผ๋ก ๋๋ ๊ฒ์ผ๋ก ๊ณ์ฐํ๋ค.
์ ์์์ ๋์ฌ๊ฒจ ๋ด์ผํ ์ ์ \(W\) ์ด๋ค. \(W\) ๋ vocab ์ ๊ฐ์์ธ๋ฐ ์ด ์์ด ์ค์ฉ์ ์ด์ง ๋ชปํ ์ด์ ๋ softmax ๋ฅผ ๊ณ์ฐํ๋ ๊ฒ์ด ์ด \(W\) ์ ๋น๋กํ๊ธฐ ๋๋ฌธ์ด๋ค. ๋ณดํต \(W\) ๋ \(10^{5}-10^{7}\) ์ ๋ ๋๋ค๊ณ ํ๋ค.
โ๏ธ Hierarchical Softmax
์ด์ ๋
ผ๋ฌธ์์๋ ์ฐ์ฐ๋์ด ๋ง์ softmax ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋จ์ด๋ฅผ Huffman Binary Tree ๋ฅผ ์ด์ฉํด ๊ตฌ์ฑํ๊ณ ๊ทธ์ ๋ฐ๋ผ Hierarchical Softmax
๋ฅผ ์ด์ฉํ์๋ค. ๊ทธ์ ๋ฐ๋ผ ๊ธฐ์กด \(O(W)\) ๋งํผ ๊ฑธ๋ฆฌ๋ time complexity ๋ฅผ \(O(log_2(W))\) ๋งํผ ์ค์ผ ์ ์์๋ค.
ํ์ง๋ง ๊ทธ ๋ฐฉ๋ฒ์ ๋ํด ์ ํํ ์ ์๋์ง ์์๋๋ฐ ์ด๋ฒ ๋ ผ๋ฌธ์ ํตํด ์์๋ณด๋๋ก ํ์.
Hierachical Softmax Example
๋จผ์ ์๊ณ ๊ฐ์ผํ๋ ์ ๋ค์ด ์๋ค. ๋๋ ๋ ผ๋ฌธ์ ์ฝ์ ๋ ์ด ๋ถ๋ถ์์ ์ค๋ ์๊ฐ ๊ฑธ๋ ธ์๋ค.
- \(n(w, j)\) ๋ w๋ฅผ ๋ฃจํธ๋ก ํ ํธ๋ฆฌ์ j ๋ฒ์งธ ๋ ธ๋
- \(L(w)\) ๋ root ๋ถํฐ w ๊น์ง์ ๊ธธ์ด
- \(ch(n)\) ๋ n ์ child
- \([\![x]\!]\) ๋ x ๊ฐ True ๋ผ๋ฉด 1 ์๋๋ฉด -1
- ๊ธฐ๋ณธ์ ์ผ๋ก ์์ ๋ ธ๋๋ ์ผ์ชฝ ์์ ๋ ธ๋๋ฅผ ์๋ฏธ
์ด ๋ถ๋ถ์ ์๊ธฐํ๋ฉด์ ์๋ ์์ ๋ณด๋๋ก ํ์. \[p\left(w \mid w_{I}\right)=\prod_{j=1}^{L(w)-1} \sigma\left([\![n(w, j+1)=\operatorname{ch}(n(w, j))]\!] \cdot v_{n(w, j)}^{\prime}{ }^{\top} v_{w_{I}}\right)\]
Hierarchical Softmax Equation
์ ๊ทธ๋ฆผ์ ๊ฐ์ด ๋ณด๋ฉด์ ์ค๋ช ํ๋ฉด ํธ๋ฆฌ๋ vocabulary ํฌ๊ธฐ๋งํผ leaf ๋ ธ๋๋ฅผ ๊ฐ์ง๋ค. ์ ์์์ ์ค์ํ ๊ฑด ์์ ์๋ ์ผ์ข ์ if ๋ฌธ์ด๋ค.
- j+1 ๋ฒ์งธ ๋
ธ๋๊ฐ j๋ฒ์งธ ๋
ธ๋์ ์์์ด๋ผ๋ฉด (์ผ์ชฝ) :
์ค์ฌ ๋จ์ด์ ๊ทธ ํด๋น ์ฃผ์ ๋จ์ด์ ๋ด์ ๊ฐ
- j+1 ๋ฒ์งธ ๋
ธ๋๊ฐ j๋ฒ์งธ ๋
ธ๋์ ์์์ด ์๋๋ผ๋ฉด (์ค๋ฅธ์ชฝ) :
-(์ค์ฌ ๋จ์ด์ ๊ทธ ํด๋น ์ฃผ์ ๋จ์ด์ ๋ด์ ๊ฐ)
ํด๋น ํ๋ฅ ๊ฐ์ maximize ํ๋ค๋ ๊ฒ์ ์์ง ๋ง์
์ด๋ ๊ฒ ๊ตฌ์ฑ์ ํ๊ฒ ๋๋ฉด ์ฐ์ฐ ํ์๊ฐ L(w)์ ๊ทผ์ฌํ๊ฒ ๋๊ณ ์ด๋ ํธ๋ฆฌ์ ๋์ด
์ด๊ธฐ์ \(log_2(V)\) ๊ฐ ๋๋ค๋ ๊ฒ์ด๋ค. ํ๋ง๋๋ก ๊ณ์ฐ ํจ์จ์ฑ์ ๊ทน๋ํ ํ ๊ฒ์ด๋ค. ๋ํ ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด์ ๋
ธ๋๋ ๋ฃจํธ ๋
ธ๋๋ก๋ถํฐ ๊ฑฐ๋ฆฌ๋ฅผ ๊ฐ๊น๊ฒ ํ์ฌ ๋ ๋น ๋ฅธ ๊ณ์ฐ์ด ๊ฐ๋ฅํ๋๋ก ํ์๋ค๊ณ ํ๋ค. ๋ง์ง๋ง ์ฅ์ ์ ํ๋ฅ ๊ฐ ๊ณ์ฐ์ ์ฐธ์ฌํ ๋
ธ๋๋ง ์
๋ฐ์ดํธ ๋์ด ์๊ฐ์ ์๋ ์ ์๋ค.
๐ช Negative Sampling
Hierarchical Softmax ์ ๋์์ผ๋ก Noise Contrastive Estimation(NCE)
๋ฅผ ์ฌ์ฉํ ์ ์๋ค. ์ฒ์ ๋ณด๋ ์ฉ์ด์ธ๋ฐ ์ด๊ฒ์ด ๋ฌด์์ผ๊น?
- CBoW, Skip-gram ๋ชจ๋ธ์์ ์ฌ์ฉํ๋ ๋น์ฉ ๊ณ์ฐ ์๊ณ ๋ฆฌ์ฆ
- ์ ์ฒด ๋ฐ์ดํฐ์ ์ Softmax ํจ์๋ฅผ ์ ์ฉํ๋ ๊ฒ์ด ์๋, ์ํ๋ง์ผ๋ก ์ถ์ถํ ์ผ๋ถ์ ๋ํด์๋ง ์ ์ฉ
- NCE ๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ ๋ฌธ์ ๋ฅผ ์ค์ context ์์ ์ป์ ๋ฐ์ดํฐ (\(X\)) ์ context ์ ์ํ์ง ์๋ ๋จ์ด๋ค์์ ๋ฝ์ ๋ฐ์ดํฐ (\(Y\)) ๋ฅผ ๊ตฌ๋ณํ๋ ์ด์ง ๋ถ๋ฅ ๋ฌธ์ ๋ก ๋ฐ๊ฟ ์ ์์
- k๊ฐ์ ๋๋น๋๋(contrastive) ๋จ์ด๋ค์ noise distribution์์ ๊ตฌํด์ (๋ชฌํ ์นด๋ฅผ๋ก) ํ๊ท ์ ๊ตฌํ๋ ๊ฒ์ด ๊ธฐ๋ณธ ์๊ณ ๋ฆฌ์ฆ
NCE ๋ log ํ๋ฅ ์ maximize ํ๋๋ฐ ์ด์ ์ ๋ง์ถ๊ณ ์๋ ๋ฐ๋ฉด Skip-gram ๋ชจ๋ธ์ ์ค์ง ๊ณ ํ์ง์ ๋ฒกํฐ๋ฅผ ํ์ตํ๋๋ฐ ์ด์ ์ ๋ง์ถ๊ณ ์๋ค. ๊ทธ๋ ๊ธฐ์ ๋ณธ ๋
ผ๋ฌธ์ ๋ฒกํฐ์ ํ์ง์ ์ ์งํ๋ฉด์ NCE ๋ฅผ ๊ฐ์ํํ ์ ์์๋ค๊ณ ํ๋ค. ์ด๋ ๊ฒ ๊ฐ์ํ๋ ํํ๋ฅผ Negative Sampling
์ด๋ผ ํ๋ค. \[\log \sigma\left(v_{w_{O}}^{\prime}{ }^{\top} v_{w_{I}}\right)+\sum_{i=1}^{k} \mathbb{E}_{w_{i} \sim P_{n}(w)}\left[\log \sigma\left(-v_{w_{i}}^{\prime}{ }^{\top} v_{w_{I}}\right)\right]\]
Negative Sampling
๋ ผ๋ฌธ์์๋ Skip-gram ์ objective ํจ์์ ์๋ \(\log P\left(w_{O} \mid w_{I}\right)\) ์์ ๋ชจ๋ ์ ์์ผ๋ก ๊ต์ฒดํ์๋ค๊ณ ํ๋ค.
- ์ข์ธก term : ์ ๋ ฅ ๋จ์ด \(w_I\) ์ ๋ํ์ฌ positive sample \(W_O\) ๊ฐ output ์ผ ํ๋ฅ ์ Maximize
- ์ฐ์ธก term :
Negative Sample
์ ๋ํ์ฌ \(W_I\) ๊ฐ output ์ด ๋ ํ๋ฅ ์ ์ต์ํ โ ๋ด์ ๊ฒฐ๊ณผ์ -1 ์ ๊ณฑํจ- Noise ๋จ์ด๋ค์ unigram ํ๋ฅ ๋ถํฌ์ธ \(P_n(w)\) ๋ฅผ ํตํด sampling
- Unigram Distribution์ ๋จ์ด๊ฐ ๋ฑ์ฅํ๋ ๋น์จ์ ๋น๋กํ๊ฒ ํ๋ฅ ์ ์ค์ ํ๋ ๋ถํฌ
- ๋ณธ ๋ ผ๋ฌธ์์๋ unigram dist. ์ 3/4 ์น ํ ๋ถํฌ(\(U(w)^{3 / 4} / Z\))๊ฐ ์คํ์ ์ผ๋ก ๊ฐ์ฅ ์ข๋ค๊ณ ํจ
๊ทธ๋ ๋ค๋ฉด NCE ์ NEG ์ ์ฐจ์ด์ ์ ๋ฌด์์ผ๊น?
- NCE : sample ๊ณผ noise distribution์ ํ๋ฅ ๊ฐ ๋ชจ๋ ํ์
- NEG : sample ๋ง ํ์
NCE ๊ฐ์ ๊ฒฝ์ฐ softmax ์ log ํ๋ฅ ์ maximize ํ๋ ๊ฒ์ด ๋ชฉํ์๋ค. ์ฆ ์ ๋ถ๋ฅํ๊ณ ์ ํ๋ ๊ฒ์ด ๋ชฉํ์์ผ๋ ํด๋น ๋
ผ๋ฌธ์ ์ฃผ์ถ์ธ word2vec ๊ฐ์ ๊ฒฝ์ฐ word representation
์ ํ๋ฆฌํฐ๋ฅผ ๋์ด๋ ๊ฒ์ ๋ชฉํ๋ก ์ผ์๊ธฐ์ Negative Sampling ์ ์ด์ฉํ ๊ฒ์ด๋ค.
๐ Subsampling of Frequent Words
์์ฒญ๋ ์์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๊ฒ ๋๋ฉด ์ ์ ์์ ์ ๋ณด๋ฅผ ์ฃผ์ง๋ง ์์ฃผ ๋์ค๋ ๋จ์ด๋ค์ด ์๋ค. (ex. โtheโ, โaโ, โisโ, โฆ). ํ์ง๋ง ํ๋ถํ ์๋ฏธ๋ฅผ ๊ฐ์ง๊ณ ์๋ ๋จ์ด๋ค ์ค์์๋ ๋น๋์๊ฐ ๋ฎ์ ๋จ์ด๋ค๋ ์๊ธฐ ๋ง๋ จ์ด๋ค.
๊ฐ ๋จ์ด๋ค์ ๋ฑ์ฅ ํ์์ imbalance ํจ์ ํด๊ฒฐํ๊ธฐ ์ํด ๋ณธ ๋
ผ๋ฌธ์ ๊ฐ๋จํ subsampling ๊ธฐ๋ฒ์ ์ ์ฉํ๋ค. ๊ทธ๊ฒ์ ๋ฐ๋ก discared probability
- ์๋ฏธ์๋ ๋ค๋น๋ ๋จ์ด๋ฅผ ๊ฑธ๋ฌ๋ด๊ธฐ ์ํจ
- \(P\left(w_{i}\right)=1-\sqrt{\frac{t}{f\left(w_{i}\right)}}\) ๋ฅผ ์ด์ฉํ์ฌ ํ๋ฅ ์ค์
- \(f(w_i)\) ๋ ๋จ์ด \(w_i\) ๊ฐ ๋ฑ์ฅํ๋ ๋น๋
- \(P(w_i)\) ๋ ๋จ์ด \(w_i\) ๊ฐ sampling ๋์ง ์์ ํ๋ฅ
- \(t\) ๋ ์ค์ ํ๋ threshold
์ฆ, ์์ ๋ค์ด ์ ํ threshold ๋ฅผ ๋๊ธฐ๋ ๋น๋์์ ๋จ์ด๋ค์ sampling ํ๊ฒ ๋ค๋ ๊ฒ์ด๋ค. ์ด๋ฅผ ํตํด ๋น๋์๊ฐ ์ ์ง๋ง ์ค์ํ ๋จ์ด์ representation vector ์ ํ๋ฆฌํฐ๋ฅผ ํฅ์ํ๋ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ธ์ฌ ์ ์์๋ค๊ณ ํ๋ค.
๐๏ธ Learning Phrases
๋๋ถ๋ถ์ phrase ๋ค์ ๋จ์ํ ๊ฐ๋ณ ๋จ์ด๋ค์ ํฉ์น ๊ฒ์ด ์๋๋ค. ๊ทธ๋ ๊ธฐ์ ๊ทธ phrase ์ representation vector ๋ฅผ ํ์ตํ๊ธฐ ์ํด ํน์ phrase ์์๋ง ๋น๋ ์๊ฐ ๋์ ๋จ์ด ์์ ์ฐพ๋ ๊ฒ์ ์์์ผ๋ก ํ๋ค๊ณ ํ๋ค.
์๋ฅผ ๋ค๋ฉด, New York Times, Toronto Maple Leafs
์ ๊ฐ์ด ๊ณ ์ ํ ์๋ฏธ๋ฅผ ๊ฐ์ง ๊ฒ๋ค์ ํ๋์ ํ ํฐ์ผ๋ก ์นํํ์๋ค๊ณ ํ๊ณ this is, there are
๊ฐ์ ์๋ฏธ ์์ด ๋ง์ด ๋์ค๋ ๊ฒ๋ค์ ๊ทธ๋๋ก ์ฌ์ฉํ์๋ค๊ณ ํ๋ค.
์ด๋ฌํ ๋ฐฉ์์ ํตํด vocabulary ์ฌ์ด์ฆ๋ฅผ ๋๋ฆฌ์ง ์๊ณ phrase ๋ฅผ ์ง์ ์ง์ ํด์ฃผ์๊ณ , data-driven ์ ํตํด ์๋์ผ๋ก ์ฐพ์ ์ ์๋๋ก ํ์๋ค๊ณ ํ๋ค. ๊ทธ๋ ๊ฒ ํ๊ธฐ ์ํด ์๋์ ์์ ์ ์ฉํด ์ ํด๋์ ๊ธฐ์ค๋ณด๋ค ๋์ผ๋ฉด ํ๋์ ๋จ์ด๋ก ์ธ์ํ๋๋ก ํ์๋ค๊ณ ํ๋ค. \[\operatorname{score}\left(w_{i}, w_{j}\right)=\frac{\operatorname{count}\left(w_{i} w_{j}\right)-\delta}{\operatorname{count}\left(w_{i}\right) \times \operatorname{count}\left(w_{j}\right)} .\]
Phrase Score
score = ๋จ์ด๊ฐ ๋์์ ๋ฑ์ฅํ๋ ํ์ - \(\delta\) / ๊ฐ ๋จ์ด๊ฐ ๋ฑ์ฅํ๋ ํ์์ ๊ณฑ
์ฌ๊ธฐ์ \(\delta\) ๋ ๋๋ฌด ๋๋ฌผ๊ฒ ๋์ค๋ ๋จ์ด์ ์กฐํฉ์ด ํ๋์ ๊ตฌ๋ก ๋ง๋ค์ด์ง์ง ์๊ธฐ ์ํ hyper parameter
analogy test dataset
์ด 5๊ฐ์ ์นดํ
๊ณ ๋ฆฌ๋ฅผ ์ด์ฉํ์ฌ analogy test
๋ฅผ ์ํํ์๋ค๊ณ ํ๋ค. ๊ฐ๊ฐ ์์ชฝ 3๊ฐ์ ์ด์ ์ด์ฉํด ๋ง์ง๋ง ์ด์ ์์ธกํ๋ ๋ฌธ์ ์ด๋ค.
โ๏ธ Additive Compositionality
๋ง์ง๋ง์ผ๋ก ๋ณผ ๊ฒ์ ์์ ์ธ๊ธํ๋ ํฉ์ฑ์ฑ์ด๋ค. ๋ณธ ๋
ผ๋ฌธ์์๋ Skip-gram ๋ชจ๋ธ์ ํตํด ํ์ต๋ word and phrase representations
๋ค์ ํตํด ๊ฐ๋จํ ์ฐ์ฐ์ ํตํด analogical reasoning ํ์คํฌ๋ฅผ ์ ํํ๊ฒ ๊ตฌํํ ์ ์๋ค๊ณ ํ๋ค.
- Skip-gram ์ ๋ชฉ์ ์ ๊ณ ํ์ง์ word representation ๋ค์ ํ์ตํ๋ ๊ฒ
- ์ด๋ ์ค์ฌ๋ถ ๋จ์ด์ context ๋ฅผ ์ด์ฉํด ์ฃผ๋ณ ๋จ์ด๋ฅผ ๋ง์ถ ํ๋ฅ ์ maximize ํ๋ ๊ฒ
- ๋ ๋จ์ด์ vector ๋ฅผ ๋ํ๋ค๋ ๊ฒ์ ๋ ๋ฌธ๋งฅ์ AND ์ฐ์ฐํ๋ค๋ ๊ฒ
- ๊ทธ๋ ๊ธฐ์ ๋ ๋จ์ด์ ํฉ์ ํตํด ๊ทธ ๋จ์ด๊ฐ ํฌํจ๋์๋ context ์ ๋ณด๋ฅผ ํฉ์น ์ ์๋ค๋ ๊ฒ
element-wise addition
๐ Conclusion
๋ ผ๋ฌธ์ ๋๋ง์น๋ฉด์ ํน์ดํ๊ฒ representation vector ์ ํ์ง์ ์ํฅ์ ์คฌ๋ hyper parameter ๋ค์ ์๊ฐํ๋ค.
- Choice of Model Architecture
- Size of the vectors
- Subsampling rate
- Size of the training window.
ํ์ง๋ง ์ฌ์ ํ OOV ๋ฌธ์ ๋ ํด๊ฒฐํ์ง ๋ชปํ์๊ณ (2013๋ ์ด์๊ธฐ์โฆ) Additive Compositionality ์์ ๋จ์ ๋ํ๊ธฐ๋ง ํ ์ ์๋๊ฑด์ง ์๋ฌธ์ด ๋ ๋ค. ๋ํ subsmapling of frequent words ๋ฅผ ํตํด ์ด๋ ์ ๋์ less frequent words ์ accuracy ๋ฅผ ์ผ๋ง๋ ๋์๋์ง๋ฅผ ์ ์ ์์ด ์์ฌ์์ด ๋จ๋๋ค. ์ด์ ๋ ผ๋ฌธ์์๋ less frequent words ๋ poor representation vector ๊ฐ ํ์ต๋์๊ณ ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ์์น๋ก ํํํ์ผ๋ฉด ์ด๋จ๊นํ๋ ์๊ฐ์ด ๋ ๋ค.