본문 바로가기

반응형

N-gram

(3)
Word2Vec, ELMo, Doc2Vec의 이해 (1) 11.1 Word2Vec-대표적인 워드 임베딩 기법 11.1.1 Word2Vec 학습의 원리 Word2Vec 기법에서 학습의 목적은 단어에 의미적인 정보를 함축함으로써 유사도를 계산하거나 연산을 수행하고, 더 나아가서 학습된 결과를 다른 작업에서도 사용할 수 있는 전이학습을 지원하는 것 Word2Vec은 주변의 단어를 이용해 중심에 있는 단어를 예측하도록 학습함(CBOW에 한해서) CBOW(Continuous Bag of Words), Skip-Gram의 두 가지 학습 방식을 가짐 CBOW: 문장에서 윈도(앞뒤 단어들을 몇 개씩 예측에 사용할지 결정하는 범위)를 뒤로 이동하며 학습에 사용할 입력과 출력을 만듬 Skip-Gram: CBOW와 달리 중심 단어를 입력으로 해서 주변의 여러 단어들을 예측 11...
BOW 기반의 문서 분류 (6) 5.7 카운트 기반의 문제점과 N-gram을 이용한 보완 5.7.1 통계로는 알 수 없는 문맥 정보 BOW는 단어들이 쓰여진 순서에 따른 문맥 정보를 이용할 수 없음 BOW는 단어들의 순서를 무시하고, 단어가 사용된 횟수를 기반으로 문서에 대한 벡터 만듬 5.7.2 N-gram의 이해 N-gram: n개의 연속적인 단어들의 나열 하나의 토큰이 두개 이상의 단어로 구성될 수 있음 5.7.3 N-gram을 이용한 문서 분류 from nltk.corpus import stopwords from sklearn.feature_extraction.text import TfidfVectorizer from nltk.corpus import stopwords cachedStopWords = stopwords.words..
자연어 처리 (1) 2-1 문장 구조의 이해 자연어 처리의 정의 기계가 자연어를 분석하고 해석해 의미를 이해한 후 그 결과를 바탕으로 사람에게 도움이나 피드백을 주는 것 언어: 자연어, 인공어, 컴퓨터 언어 문장 이해를 위한 선행 작업 문장을 이해하기 위해서는 '띄어쓰기'와 '형태소 분석'이 수행되어야 함 띄어쓰기: 공백을 기준으로 쓰인 문장의 단어를 구분 형태소 분석: 띄어쓰기로 분리한 단어의 품사를 인식하는 작업 형태소 분석 N-Gram 주어진 문장을 문자나 단어의 주어진 길이로 나눠 처리하는 방식 N-Gram으로 분석된 것을 통칭하는 개념: BOW(Bag of Words) ※ 해당 내용은 의 내용을 토대로 학습하며 정리한 내용입니다.

반응형