본문 바로가기

반응형

워드 임베딩

(2)
RNN-딥러닝을 이용한 문서 분류 (2) 10.2 워드 임베딩의 이해 10.2.1 워드 임베딩이란? 범주형 데이터를 수치로 변환하는 방법 원핫 인코딩(one-hot encoding): 범주형 데이터를 벡터 형태의 연속된 수치로 변환하는 것 원핫 벡터: 원핫 인코딩의 결과 임베딩: 범주형 데이터를 연속적인 값을 갖는, 상대적으로 작은 크기의 벡터로 변환하는 작업 밀집 벡터: 희소 벡터의 반대개념 임베딩을 수행하는 이유 차원이 큰 원핫 벡터를 그대로 쓰면 연산이 비효율적 대상 간의 의미적 유사도를 계산할 수 있음 단어가 의미적인 정보를 함축함으로써 연산이 가능해질 수 있음 전이학습을 가능하게 함 10.2.2 BOW와 문서 임베딩 BOW에서는 단어가 아닌 문서 단위로 임베딩이 이루어짐 문맥에 대한 파악은 이뤄지지 않음 10.2.3 워드 임베딩과 딥러..
자연어 처리 (3) 2-4 예측 기반 벡터 워드 임베딩(Word Embedding) 단어를 수치적으로 표현해 기계가 문맥의 흐름과 단어 간의 연관성을 이해할 수 있도록 개발된 방법 Word2Vec Word Embedding을 확장해 C++ 라이브러리로 개발한 것 CBOW(Continuous Bag of Words) Embedding: 주변에 있는 단어를 이용해 중간에 있는 단어를 예측하는 방법 Skip-Gram: 중간에 있는 단어로 주변 단어를 예측하는 방법 CBOW Embedding 신경망 언어 모형을 사용하면서 복수 단어 문맥(Multi-Word Context)에 대한 문제, 여러 개의 단어를 나열한 후 이와 관련된 단어를 추정하는 문제를 해결하기 위해 고안된 방법 Skip-Gram 중심단어를 이용해 주변 단어를 예측하..

반응형