본문 바로가기
DS

ing [2021-객-12]

by okso6441 2023. 2. 3.

 

1. Word2Vec, Glove 학습에 사용하는 목적 함수

word2Vec:

o는 주변단어(context word), c는 중심단어(center word)

Glove:

 

2. Word2Vec 학습용 데이터에서 단어 등장 횟수 반영 embedding

3. LDA(Latent Dirichlet Allocation) 문서별 토픽 분포 dirichelet 분포 가정, dirichelet 분포 parameter a 증가시킬수록 대부분 문서 적은 토픽 가질 것

4. LSA, LDA 토픽 모델링 및 문서 유사도 계산 활용 알고리즘

5. Doc2Vec 중 PV-DM과 PV-DVOW 모두 단어가 input, 이후 나올 단어 예측 문서에 대한 embedding vector 얻는 기법 

 

https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/03/11/embedding/

 

Word2Vec: 단어 > 벡터 방법론

CBOW(Continuous Bag of Words): 주변에 있는 단어들을 가지고 중심에 있는 단어를 맞추는 방식

Skip-Gram: 중심에 있는 단어로 주변 단어를 예측하는 방법

 

 Distributional Hypothesis에 근거한 방법론: 비슷한 위치에 등장하는 단어들은 그 의미도 유사할 것이라는 전제

 

https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/04/09/glove/

Glove: