๋ ผ๋ฌธ ๋ฆฌ๋ทฐ - Word2vec (1)
Efficient Estimation of Word Representations in Vector Space
์ถ์ฒ ์์คํ
์์ DNN ์ ํ์ฉํ๋ ๋ฐฉ๋ฒ์ ๊ฐ content ํน์ user ์ representation vector ๋ฅผ ์ด์ฉํ์ฌ ์ ์ฌ๋๋ฅผ ํตํด ์ถ์ฒํ๋ ๋ฐฉ์์ด ํ๋ฐํ๋ค. ํด๋น ๊ธฐ๋ฒ์ ๊ทผ๊ฐ์ ๋ฐ๋ก word2vec
์ ์๋ค. ๊ธฐ๋ณธ์ ์๊ณ ๋์ด๊ฐ์ผ ํ๋ค๋ ์๊ฐ์ ์ด ๋
ผ๋ฌธ์ ์ฝ๊ณ ์ค์ ๊ตฌํ๊น์ง ํด๋ณผ ๊ณํ์ด๋ค. ์ฐจ๊ทผ์ฐจ๊ทผ deepํ๊ฒ ์ฝ์ด๋ณด์.
- ๐๏ธ Abstract
- ๐ Introduction
- ๐งฝ Model Architecture
- ๐ New Log-linear Models
- ๐ Result
- โณ ๋ง๋ฌด๋ฆฌ
๐๏ธ Abstract
- ๋ฐฉ๋ํ ๋ฐ์ดํฐ์
์ ์๋ ๋จ์ด๋ค์
continuous vector representations
๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด ์๋ก์ด ๋ ๊ฐ์ง ๋ชจ๋ธ์ ์๊ฐํจ. - ๋จ์ด ์ ์ฌ๋ ํ์คํฌ์์ ์ธก์ ๋ ํด๋น representation ์ ํ์ง์ ์ด์ ์ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ธ ๋ค์ํ
Neural Networks
๋ค๊ณผ ๋น๊ตํจ. - accuracy ์ธก๋ฉด์์ ์๋นํ ๋ฐ์ ์ด ์์๊ณ ๋ ์ ์ ์ปดํจํ ์์์ ์ด์ฉํจ.
- ์์ ๋ค์ด ๋ง๋ ์๋ฏธ๋ก ์ / ๋ฌธ๋ฒ์ ๋จ์ด ์ ์ฌ๋๋ฅผ ์ธก์ ํ ์ ์๋ test set ์์ SOTA ์ฑ๋ฅ์ ๋์.
syntactic(๋ฌธ๋ฒ์ ) ์ ์ฌ๋
- big-bigger-biggest / small-smaller-smallest ์ฒ๋ผ ๋ฌธ๋ฒ์ ์ธ ์ ์ฌ๋ ์ ์ถ
sementic(์๋ฏธ๋ก ์ ) ์ ์ฌ๋
- Seoul ๊ณผ Korea ๋ ์๋ฏธ๊ฐ์ ์ ์ฌ๋๊ฐ ์กด์ฌ
๐ Introduction
- ๊ทผ๋์(2013๋
๋น์) NLP ์์คํ
์ ๋จ์ด๋ฅผ
์์ ๋จ์
๋ก ์ทจ๊ธํ์- vocabulary ์์์ ์ธ๋ฑ์ค๋ก ํํ์ด ๋จ
- ๊ฐํธ์ฑ, ๊ฐ๊ฑดํจ์ด ์ด๊ฒ์ ์ฅ์
- ๋จ์ด๋ฅผ One-Hot ๋ฒกํฐ๋ก ํํํ๋ค๋ฉด
Encoding ๊ณผ Decoding ์ด 1:1 ๋งคํ
์ด ๋๊ธฐ์ ๊ฐ๊ฑดํจ์ด๋ผ๊ณ ํํํ ๊ฒ ๊ฐ์ - ๋ฐ๋ฉด continuous ํ ๋ฒกํฐ๋ก ํํ๋๋ค๋ฉด 100% ์ผ์นํ๋ ๋ณต๊ตฌ๊ฐ ์ด๋ ค์
- ๋จ์ด๋ฅผ One-Hot ๋ฒกํฐ๋ก ํํํ๋ค๋ฉด
- ๋ง์ ์์ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ ๊ฐ๋จํ ๋ชจ๋ธ์ด ์ ์ ์์ ๋ฐ์ดํฐ๋ก ํ์ตํ ๋ณต์กํ ๋ชจ๋ธ๋ณด๋ค ์ฑ๋ฅ์ด ์ข์
ํ์ง๋ง ๋จ์ด๋ฅผ ๋จ์ํ ์ธ๋ฑ์ค(One hot)๋ก ํํํ๋ ๊ฒ์ ๋น์ฐํ ๋ง์ ์ ํ์ ์ด ์กด์ฌํจ
- ๋จ์ด ๊ฐ ์ฐ๊ด์ฑ ํํ ๋ถ๊ฐ
- ASR ๋ถ์ผ๋ ๊ธฐ๊ณ ๋ฒ์ญ์์ ์ฑ๋ฅ ์ ํ โ ๋ฐ์ดํฐ์ ์์ ์์กด์
๋จธ์ ๋ฌ๋ ๊ธฐ์ ์ ๋ฐ์ ์ผ๋ก ์ด์ ๋ ํฐ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ๋ณต์กํ ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ฒ์ด ๊ฐ๋ฅํด์ง. ํต๊ณํ ๊ธฐ๋ฐ์ N-gram ๋ชจ๋ธ๋ณด๋ค NN ๊ธฐ๋ฐ LM์ด ๋น์ฝ์ ์ธ ์ฑ๋ฅ์ ๋ด๊ธฐ์ ์ด๋ฅผ ์ด์ฉํด distributed representations
์ ์ด์ฉํ๋ ค๊ณ ํจ.
distributed representation(๋ถ์ฐ ํํ) ์ด๋?
- ๋ถํฌ ๊ฐ์ค์ ๊ธฐ๋ฐํด ์ฃผ๋ณ ๋จ์ด ๋ถํฌ ๊ธฐ์ค์ผ๋ก ๋จ์ด์ ๋ฒกํฐ ํํ์ด ๊ฒฐ์ ๋๋ ๊ฒ
- One hot vector ๋ณด๋ค ์ ์ฐจ์์ด์ง๋ง dense ํ๊ฒ ํํ์ด ๋จ (์ฃผ๋ณ ๋จ์ด์ ๋ถํฌ ์ ๋ณด๋ฅผ ๋ดํฌํ๊ธฐ์)
Goals of paper
- ๋ฉ์ธ ๋ชฉํ๋ ๊ณ ํ์ง์ ๋จ์ด ๋ฒกํฐ๋ฅผ ํ์ตํ ์ ์๋ ํ
ํฌ๋์ ์๊ฐํ๊ธฐ ์ํจ
- ์ข์ ํ์ง์ ๋จ์ด ๋ฒกํฐ๋ฅผ ์ด์ฉํ๋ฉด ์ ์ฌํ ๋จ์ด๋ค๋ผ๋ฆฌ ์๋ก ๊ฐ๊น์ด ์์นํจ๋ฟ๋ง ์๋๋ผ
multiple degrees of similarity
๋ ๊ฐ์ง ์ ์๋ค๊ณ ํจ - multiple degrees of similarity
- ๊ฐ์ noun ์ด์ด๋ ๋จ์ / ๋ณต์ ๊ฐ์ ํํ์ ์ฐจ์ด๋ฅผ ๊ฐ์ง๋๋ผ๋ ์ ์ฌํจ (ex. apple / apples)
- ํ๋์ ๋จ์ด๊ฐ ์ฌ๋ฌ ๊ฐ์ ๋น์ทํ ์๋ฏธ ํน์ฑ์ ๊ฐ์ง ์ ์์ (big-bigger-biggest)
- embedding vector ๋ฅผ ์ด์ฉํ์ฌ
simple algebraic ์ฐ์ฐ
์ด ๊ฐ๋ฅํจ- vector(โKingโ) - vector(โManโ) + vector(โWomanโ) = vector(โQueenโ)
- ์ข์ ํ์ง์ ๋จ์ด ๋ฒกํฐ๋ฅผ ์ด์ฉํ๋ฉด ์ ์ฌํ ๋จ์ด๋ค๋ผ๋ฆฌ ์๋ก ๊ฐ๊น์ด ์์นํจ๋ฟ๋ง ์๋๋ผ
๋
ผ๋ฌธ์ ์๋ก์ด ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๊ฐ๋ฐํ๋ฉด์ ๋จ์ด ๊ฐ linear regularities(์์ ๋ณด์ธ simple algebraic)
๋ฅผ ์ ์งํ๋ฉด์ accuracy ๋ฅผ ์ต๋ํํ ๋ ค๊ณ ๋
ธ๋ ฅํจ.
์ด๋ฅผ ์ํด Abstract ์์ ๋งํ๋ test set ์ ์ด์ฉํ์๊ณ ๋์ accuracy ๋ก linear reulgarities ๋ฅผ ํ์ตํ ์ ์์์ ๋ณด์์.
Previous Work
๋จ์ด๋ฅผ continuous vector ๋ก ํํํ๊ธฐ ์ํ ์๋๋ ์๋ ๋ถํฐ ์์์
- NNLM ์ค๋ช
- ํ ๊ฐ์ linear projection layer ์ non-linear hidden layer ๋ก ๊ตฌ์ฑ์ด ๋จ
- ๋ ผ๋ฌธ์ด ํฅ๋ฏธ๋กญ๊ฒ ๋๋ NNLM ๊ตฌ์กฐ๋ single hidden layer ๋ฅผ ํตํด ํ์ต๋ word vector ๋ฅผ ์ป์ ์ ์๋ค๋ ์
- ๋ ผ๋ฌธ์ ์ด first step ์ ์ง์คํ์ฌ ๊ฐ๋จํ ๋ชจ๋ธ์ ์ด์ฉํด word vector ๋ฅผ ๋ง๋๋ ๊ตฌ์กฐ๋ฅผ ํ์ฅํจ
๐งฝ Model Architecture
์ด์ ์ ์ ์๋ ๋ค์ํ ๋ชจ๋ธ๋ค(LSA, LDA ๋ฑ)๋ ๋จ์ด๋ค์ continuous representations
๋ฅผ ๊ตฌํ๋ ค๊ณ ํ์์.
์ด ๋
ผ๋ฌธ์์๋ neural network ๋ก ํ์ต๋ distributed representations of words
์ ์ง์คํ๊ณ ์ ํจ. ์ด๋ LSA ๋ณด๋ค ์๋ฑํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๋์์ linear regularities ๋ ๋ณด์กดํ๋ ๋ชจ์ต์ ๋ณด์. ๋ํ LDA ๋ ๋ง์ ์์ ๋ฐ์ดํฐ์์๋ ์ปดํจํ
์ ์ผ๋ก expensive ํ ๋ฌธ์ ์ ์ด ์์
Time Complexity O
NNLM
- NNLM ์ 4๊ฐ์ ์ธต์ผ๋ก ์ด๋ฃจ์ด์ ธ ์์.
- Input Layer ์์ N๊ฐ์ ์ด์ ๋จ์ด๋ค์ V(vocabulary) ํฌ๊ธฐ๋งํผ ์ํซ ๋ฒกํฐ๊ฐ ๋ง๋ค์ด์ง
- ์ดํ projection layer ๋ฅผ ๊ฑฐ์นจ
- ์ด projection layer ๋ ์๋์ธต๊ณผ๋ ๋ค๋ฅด๊ฒ
๊ฐ์ค์น ํ๋ ฌ๊ณผ์ ๊ณฑ์ ์ ์ด๋ฃจ์ด์ง์ง๋ง ํ์ฑํ ํจ์๊ฐ ์กด์ฌํ์ง ์์
- Lookup - table : \(W_p\) ์ ๊ณ์ฐ์ด ์ด๋ฃจ์ด์ ธ ๋์จ vector (\(N \times D\))
- ์ด projection layer ๋ ์๋์ธต๊ณผ๋ ๋ค๋ฅด๊ฒ
- ์ด์ ๊ฐ ๋จ์ด๋ค์ lookup table ์ ๊ฑฐ์ณ ๋ฒกํฐ๊ฐ ๋์ค๊ฒ ๋๋ฉฐ projection layer ์์ concat ์ด ๋๋ค. (\(N \times D\))
- ๋ง๋ค์ด์ง Projection layer ๋ฅผ ๊ฐ์ค์น ํ๋ ฌ \(W_p\) ๋ฅผ ๊ณฑํ๊ณ \(tanh\) ํจ์๋ฅผ ๊ฑฐ์น๊ฒ ๋๋ฉด์ ํ์ต์ ์งํ
- ๋ง์ง๋ง์ผ๋ก
Cross Entropy
๊ฑฐ์น๊ธฐ ์ํด hidden layer ์ \(W_o (H \times V)\) ๋ฅผ ๊ณฑํด์ฃผ์ด ouput layer ์์ฑ - \(W_p\) ์ shape : \((N \times D) \, \times H\)
์ด๋ ๊ฒ ํด์ ์์ ๋งํ \(Q\) ์ time complexity
๋ฅผ ๊ณ์ฐํ๋ฉด ์๋์ ๊ฐ์ด ๊ณ์ฐ๋จ \[Q = N \times D + N \times D \times H + H \times V\]
- ์ ์์์ ๊ฐ์ฅ ์ง๋ฐฐ์ ์ธ ์์์ \(N \times D \times H\) ์.
- ์๋๋ \(H \times V\) ๊ฐ ๊ฐ์ฅ ์ง๋ฐฐ์ ์ด์ง๋ง ์ด๋ฅผ ์ค์ผ ์ ์๋ ๊ธฐ๋ฒ์ด ์กด์ฌ
- Avoding Normalized : ๋ ผ๋ฌธ์์๋ ํด๋น ๋ฐฉ๋ฒ์ ํตํด complexity ๋ฅผ ์ค์ผ ์ ์๋คํ์ง๋ง ์ ํํ ์ดํด๊ฐ ์๊ฐ
- Use hierarchical softmax : ๋ณธ ๋
ผ๋ฌธ์ ํด๋น ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์์
- ์ด ๋ฐฉ๋ฒ๊ณผ vocab ์
Huffman binary tree
๋ก ๊ตฌ์ฑํ์ฌ ๋ง๋ ๋ชจ๋ธ์ \(H \times V\) ๊ฐ ์๊ตฌ๋๋คํจ
- ์ด ๋ฐฉ๋ฒ๊ณผ vocab ์
- ์์ ์ค๋ช ํ๋ฏ vocabulary ๋ฅผ ํํ๋ง ์์ ์ด์ง ํธ๋ฆฌ๋ฅผ ํ์ฉํด ๊ตฌ์ฑํ๋ค๋ฉด \(log_2(V)\) ๋งํผ์ output์ด ๋ง๋ค์ด์ง
NNLM ์ ํ๊ณ์
๊ฐ์ฅ ํฐ ํ๊ณ๋ ์ ํ๋ ๊ธธ์ด์ ์ ๋ ฅ
์ ํด์ง N๋งํผ๋ง ์ฐธ๊ณ ํ ์ ์๊ธฐ์ ํ์ ๋ ๋ฌธ๋งฅ๋ง ํ์ตํจ
RNNLM
NNLM ์ ํ๊ณ์ ์ ๊ทน๋ณตํ๊ธฐ ์ํด ๋์จ ๋ชจ๋ธ
- ์ด๋ก ์ ์ผ๋ก RNN ๊ณ์ด์ด ๋ ํจ๊ณผ์ ์ผ๋ก ์์ NN ๋ณด๋ค ๋ณต์กํ ํจํด์ ๋ํ๋
- RNN ์ projection layer ๋ ์์ผ๋ฉฐ hideen layer ๊ฐ ์์ ๊ณผ ์ฐ๊ฒฐ๋์๋ ํน์ดํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง
- ์ด๋ฌํ ๊ตฌ์กฐ๋ ๋ชจ๋ธ์ด ์ด์ ์ short term memory ๋ฅผ ๊ฐ์ง ์ ์๊ฒ ํ๋ฏ๋ก sequential ํด์ง
Time Complexity of RNN (Q) \[Q = H \times H + H \times V\]
- word representations D ๋ hidden layer H ์ ๋๊ฐ์ ๋๋ฉ์ ์ ๊ฐ์ง๊ณ ์๊ธฐ์ \(H \times H\) ๋ก ๊ณ์ฐ์ด ๋จ.
- NNLM ๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก \(H \times V\) ๋
hierarchical softmax
๋ฅผ ํ์ฉํ์ฌ \(H \times log_2(V)\) ๊น์ง ์ค์ผ ์ ์์.
๐ New Log-linear Models
๋ณธ ๋
ผ๋ฌธ์ computational complexity ๋ฅผ ์ต์ํํ๋ฉด์ distributed representations
๋ฅผ ํ์ตํ๊ธฐ ์ํด 2๊ฐ์ ์๋ก์ด ๋ชจ๋ธ์ ์ ์ํจ.
- ์ด์ ๊ตฌ์กฐ๋ค์ ๋ณด๋ฉด non-linear ์ธ hidden layer ๋๋ฌธ์ complexity ๊ฐ ์ฌ๋ผ๊ฐ์์.
- non-linear ๋๋ฌธ์ NN ์ด ๋งค๋ ฅ์ ์ด๊ธด ํ๋ ๋ณธ ๋ ผ๋ฌธ์ ์ด๋ฅผ ์ข ๋ ๊ฐ๋จํ ๋ชจ๋ธ์ ํตํด ํ์ตํ ๋ ค๊ณ ํจ
๋ณธ ๋
ผ๋ฌธ์ 2๊ฐ์ง ์คํ
์ ํตํด distributed vectors
๋ฅผ ํ์ตํ๊ณ ์ ํจ
- ๊ฐ๋จํ ๋ชจ๋ธ์ ํตํด continuous word vectors ๋ฅผ ํ์ต
- Continuous Bag-of-Words
- Skip-gram
- ๊ทธ ์์ N-gram NNLM ๋ชจ๋ธ ํ์ต
Continuous Bag-of-Words
- NNLM ๊ณผ ๋น์ทํ ๊ตฌ์กฐ์ด์ง๋ง
non-linear ๋ ์ด์ด๊ฐ ์ญ์ ๋จ
- Projection layer ๋ ๋ชจ๋ ๋จ์ด๊ฐ ๊ณต์ ํจ
- ์ด ๊ฒฐ๊ณผ๊ฐ๋ค์ ๋ชจ๋ ๋ชจ์ ํ๊ท ์ ๊ตฌํ๋ฉด ์ด๊ฒ์ด Projection Layer
๋จ์ด์ ์์๊ฐ ์ํฅ์ ๋ผ์น์ง ์์
NNLM ๊ณผ ๋ค๋ฅธ ์ ์ ์ด์ ์ ๋จ์ด๋ง ์ฐ๋ ๊ฒ์ด ์๋ ๋ฏธ๋์ ๋จ์ด๋ ์ฌ์ฉํจ
๋ณธ ๋ ผ๋ฌธ์ ์ด์ 4๊ฐ์ ๋จ์ด์ ์ดํ 4๊ฐ์ ๋จ์ด๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์ฌ ๊ฐ์ด๋ฐ ๋จ์ด๋ฅผ ๋ง์ถ๋ ๊ฒ์ criterion ์ผ๋ก ์ผ๊ณ ํ์ต์ ํ์๋ค๊ณ ํ๋ค.
Time Complexity of Q \[Q = N \times D + D \times log_2(V)\]
Continuous Skip-gram
CBOW ์ ๋น์ทํ์ง๋ง ์ค์ฌ ๋จ์ด๋ฅผ ์์ธกํ๋ ๊ฒ์ด ์๋ ์ค์ฌ ๋จ์ด๋ฅผ ์ด์ฉํ์ฌ ์ฃผ๋ณ ๋จ์ด์ classification ์ ์ต๋ํํ๋ ๋ฐฉ๋ฒ
- ํ์ฌ์ ๋จ์ด๋ฅผ continuous projection layer ์ ํจ๊ป input ์ผ๋ก ์ฌ์ฉ
- ์ ํ ํน์ ๋ฒ์๋งํผ ๋จ์ด๋ฅผ ์์ธกํ๋๋ก ํจ
- ์ด ๋ฒ์๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ด word vectors ์ ํ์ง์ ์ข๊ฒ ํ์ง๋ง ๊ทธ์ ๋ฐ๋ผ complexity ๊ฐ ๋์์ง
- ๋จ์ด ์ฌ์ด์ ๊ฑฐ๋ฆฌ๊ฐ ๋ฉ์๋ก ์ฐ๊ด๋๊ฐ ๋ฎ์์ง๊ธฐ์ sampling์ ๋ ์ค์ ๊ฐ์ค์น๋ฅผ ์๊ฒํจ
Time Complexity of Q \[Q = C \times (D + D \times log_2(V))\]
- C ๋ ๋จ์ด ๊ฐ ์ต๋ ๊ธธ์ด
- [1, C) ์ค์์ ๋๋คํ๊ฒ number R ์ ์ ํํ์ฌ R ๊ฐ ์ด์ , R ๊ฐ ์ดํ๋ฅผ predict
- ์ค์ฌ ๋จ์ด ์ ํ๋ก ์งํํ๊ธฐ์ ์ด 2R word classification ์ด ์๊ตฌ๋จ
- R ์ ํ๊ท ๊ธฐ๋๊ฐ์ 1/C ๋ก ๊ตฌํ ์ ์์ผ๋ฉฐ 2R ๋ฒ์ ๊ณ์ฐ์ด ํ์ํ๊ธฐ์ C=2R ๋๋ฌธ์ ์์ ์์ด ์ ๋๋จ
๐ Result
์ด์ ์ ์ฐ๊ตฌ๋ค์ ๋จ์ด๋ฅผ ์ฃผ๋ฉด ๊ทธ ์ ๊ฐ์ฅ ์ ์ฌํ ๋จ์ด๋ค์ ๋ณด์ฌ์ค์ผ๋ก์จ ์ง๊ด์ ์ผ๋ก ์ดํดํ๊ธฐ ์ฌ์ด ๋ฐฉ๋ฒ์ผ๋ก ํ๊ฐ๋ฅผ ์งํํ์.
์ด๋ฌํ ๋ฐฉ์์ ์ข ๋ ๋ณต์กํ ๊ด๊ณ๋ฅผ ๋ํ๋ด๊ธฐ ํ๋ฌ
- ๋จ์ด์ ์ ์ฌํจ์ ๋ค์ํ๊ฒ ํํ๋ ์ ์์.
- big-bigger ๊ฐ ์ ์ฌํ ๊ฒ์ฒ๋ผ small-smaller ๊ฐ ์ ์ฌ
- big-biggest ํ์ด์ small-smallest ํ์ด๊ฐ ์ ์ฌํจ
- ์ด๋ฌํ ์ ์ฌํจ์ ๊ฐ๋จํ
algebraic operations
๋ก ๊ณ์ฐํ ์ ์์- ex) vector(โbiggestโ) - vector(โbigโ) + vector(โsmallโ) = vector(โsmallestโ)
๋ํ ๋ง์ ์์ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ๋ค๋ฉด vector ๋ค์ ์๋ฏธ ์ฐจ์ด๋ง์ ์์๋ผ ์ ์๋ค๊ณ ํจ
- ex) France-Paris / Germany-Berlin
์ด๋ฌํ semetic relationship ์ ์ด์ฉํ๋ค๋ฉด NLP ์ ๋ง์ ๋ถ๋ถ์ ํฅ์์ ๊ฐ์ ธ์ฌ ์ ์๋ค๊ณ ํจ.
Task Description
- 5 ๊ฐ์ง์ semantic ์ง๋ฌธ๊ณผ 9๊ฐ์ syntactic ์ง๋ฌธ ๊ตฌ์ฑ
- ์ง๋ฌธ์ 2๊ฐ์ ์คํ ์ผ๋ก ์ด๋ฃจ์ด์ง
- ๋น์ทํ ๋จ์ด ํ์ด๋ ์๋์ ์ผ๋ก ๋ง๋ฌ
- 2๊ฐ์ ๋จ์ด์์ ์ฐ๊ฒฐ
- ์ค๋ก์ง Single Token ๋จ์ด๋ง ํ์ฉ
- ์ ํ์์ ๋ณผ ์ ์ ๋ฏ word pair 1 ๊ณผ word pair 2 ๋ฅผ ๊ตฌ์ฑํ๊ธฐ์ algebraic operation ์ด ๊ฐ๋ฅํด์ง ๊ฒ ๊ฐ์
- ์ ์์ด๋ก ์์ธกํ ๊ฒ์ ํ๋ฆฌ๋ค๊ณ ํ์์
- 100% ์ผ์น๊ฐ ๋ถ๊ฐ๋ฅ
- word vector ์ ์ ์ฉ๋๊ฐ accuracy ์ ์์ ์๊ด๊ด๊ณ๋ฅผ ๊ฐ์ง ์ ์๋ application ์ด ์์ ๊ฒ์ด๋ผ ๋ฏฟ๊ธฐ ๋๋ฌธ
โณ ๋ง๋ฌด๋ฆฌ
์ดํ๋ ์ ์ computational complexitiy ๋ก ํ๋ถํ word vectors ๋ฅผ ์ป์ด๋๋ค๋ ๊ฒ์ ํฐ ์์๊ฐ ๋ฐํ๋ฉด ๋ณธ ๋ ผ๋ฌธ์ ๋๋๊ฒ ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ ์ ์
- hidden layer ์์ ํฐ ๋น์ค์ ๊ฐ์ง๋ computational complexity ๋ฅผ ์ค์ด๊ณ ์ hidden layer ๋ฅผ ์์ฐ
- ์ด๋ฌํ ๊ฐ๋จํ ๋ชจ๋ธ์ด๋ผ๋ ์ข์ ํ์ง์ word vectors๋ฅผ ์ป์ ์ ์์์.
- ์ฐ์ฐ ๋น์ฉ์ด ํ๊ธฐ์ ์ผ๋ก ์ค์๊ธฐ์ ํฐ ๋ฐ์ดํฐ์ ์ผ๋ก๋ถํฐ high dimesional vector ์์๋ ์ข์ ํ์ง์ ์ป์ ์ ์๋ค๋ ์
ํ์ง๋ง word2vec ์ ๋ช ํํ ํ๊ณ๊ฐ ์กด์ฌํ๋ค.
- Out of Vocabulary ๋ฌธ์
- ํ์ตํ ๋ ๋ณด์ง ๋ชปํ๋ ๋จ์ด๋ผ๋ฉด vector ๋ฅผ ์์ฑํ ์ ์๋ค
- ๋จ์ด ๋น๋ ์์ ์์กด์
- ํน์ ๋จ์ด๊ฐ ์ ๊ฒ ๋์๋๋ผ๋ฉด ๊ทธ ๋จ์ด์ vector ์ ํ์ง์ ์ ์ข์ ์ ๋ฐ์ ์๋ค.
์ด๋ฌํ ํ๊ณ์ ์ ๊ทน๋ณตํ๊ธฐ ์ํด ๋์จ ๋ชจ๋ธ์ด Facebook ์ FastText
์ด๋ค. subword ๋ฅผ skip-gram ์ํ์ ํตํด OOV ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค๊ณ ํ๋ค.
Word Embedding ์ ํฐ ๋ฐ์ ์ ์ผ์ผํจ word2vec ์ ์ดํด๋ณด์๋ค. ์ถ์ฒ์์คํ ์ ์ด๋ฅผ ๊ณ์นํ item2vec, song2vec ๋ฑ์ ๊ทผ๊ฐ์ด ๋๊ธฐ์ ์ด๋ฒ ๋ ผ๋ฌธ์ ๋ฆฌ๋ทฐํ์๋ค.
์ถ๊ฐ๋ก NNLM ์ ๋ํด ์๊ฒ ๋์ด์ ์ข์ ์๊ฐ์ด์๋ค๊ณ ์๊ฐํ๋ค.