반응형
2-2 자연어 처리 기법
자연어 처리 기법의 종류
- 워드 임베딩(Word Embedding) 기법: 빈도수를 이용한 방법
- 횟수 기반 임베딩(Frequency-based Embedding): 단어의 빈도수를 바탕으로 하는 NLP방법, BOW, Count Vector, TF-IDF Vector 기법
- 예측 기반 벡터(Prediction-based Vector, Feed-forward 신경망 언어 모형): 단어 간의 관계를 벡터로 표현된 다차원 공간에서 유사도를 측정하고, 수치적 계산을 이용해 추론하는 방법, Word2Vec, CBOW, Skip-Gram
- 구조 분석: 문장의 구조 분석을 이용한 방법
- 어구 구조 분석, 할당 분석, 술어절 구조 분석
학습 및 예측을 통한 텍스트 생성
- NLP 기법은 워드 임베딩, 구조 분석, 학습 및 예측을 통한 텍스트 생성으로 구분
2-3 횟수 기반 임베딩
BOW
- 주어진 문장을 형태소 분석을 통해 문자나 단어로 분리하고 분리된 문자나 단어에 인덱스 정수를 할당한 후 빈도수로 벡터를 만드는 방법
- 주어진 문장을 이렇게 표현하면 문장에서 특정 단어가 몇 번 나왔는지 파악
- 단어의 등장 빈도가 주용한 경우에 사용, 단어의 순서는 고려하지 않음
- 많은 문서 중 특정 단어를 포함하는 문서를 찾을 때 유용함
Count Vector
- Bow의 개념을 확장해 여러 문서가 있을 때 문서마다 설정된 단어를 세어 이를 행렬로 나타내는 방법
- 여러 문서를 비교할 수 있는 기준을 제공
TF-IDF Vector
- 전체 문서에서 단어의 개수를 함께 세는 방법
- TF(Term Frequency, 단어 빈도): 특정 문서에서 단어가 나타난 수/특정 문서의 전체 단어 수
- IDF(Inverse Document Frequency, 역문서 빈도):log(전체 문서의 개수/해당 단어가 나타난 문서의 수)
- 특징량 = TFxIDF: 특징량은 여러 문서에 나타나는 단어보다 소수의 문서에 나타나는 단어의 특징량이 더 커지는 속성을 가짐
※ 해당 내용은 <인공지능 바이블>의 내용을 토대로 학습하며 정리한 내용입니다.
반응형
'인공지능(AI)' 카테고리의 다른 글
자연어 처리 (4) (0) | 2023.06.08 |
---|---|
자연어 처리 (3) (0) | 2023.06.07 |
자연어 처리 (1) (0) | 2023.06.05 |
이미지와 음성 패턴 인식 (3) (0) | 2023.06.04 |
이미지와 음성 패턴 인식 (2) (0) | 2023.06.03 |