AI/NLP4 (text) 데이터 증강 - Back translation(역번역) 한국어 단일 언어 코퍼스 > [한-영 번역기] > 영어 번역 코퍼스 => (한국어, 영어) 병렬 코퍼스 생성! 기존 한+영 병렬 코퍼스 + 단일 언어코퍼스 + 번역기 돌린 결과로 만든 한+영 병렬 코퍼스 => 학습 2022. 3. 24. 서브샘플링 자주 등장하는 단어 학습에서 제외하는 기법 2022. 3. 20. 네거티브 학습 타깃 단어 - 문맥 단어 쌍 이진분류: 포지티브 샘플(+) / 네거티브 샘플(-) 과정을 학습하는 기법 2022. 3. 20. 임베딩 기법 TF-IDF Word2Vec FastText 그룹 백오브워즈 PMI 특징 빈도 분포 설명 해당 문서에만 나타나는 단어인지 판단 빈도Xlog(전체 문서 수/해당단어) 단어 쌍이 얼마나 자주 같이 등장 CBOW > < Skip-gram 네거티브 학습 서브샘플링 Word2Vec 유사 n-gram 오타/미등록 단어 강건 2022. 3. 20. 이전 1 다음