본문 바로가기

인공지능(AI)

자연어 처리 (2)

반응형

2-2 자연어 처리 기법

자연어 처리 기법의 종류

  • 워드 임베딩(Word Embedding) 기법: 빈도수를 이용한 방법
    • 횟수 기반 임베딩(Frequency-based Embedding): 단어의 빈도수를 바탕으로 하는 NLP방법, BOW, Count Vector, TF-IDF Vector 기법
    • 예측 기반 벡터(Prediction-based Vector, Feed-forward 신경망 언어 모형): 단어 간의 관계를 벡터로 표현된 다차원 공간에서 유사도를 측정하고, 수치적 계산을 이용해 추론하는 방법, Word2Vec, CBOW, Skip-Gram
  • 구조 분석: 문장의 구조 분석을 이용한 방법
    • 어구 구조 분석, 할당 분석, 술어절 구조 분석

학습 및 예측을 통한 텍스트 생성

  • NLP 기법은 워드 임베딩, 구조 분석, 학습 및 예측을 통한 텍스트 생성으로 구분

 

2-3 횟수 기반 임베딩

BOW

  • 주어진 문장을 형태소 분석을 통해 문자나 단어로 분리하고 분리된 문자나 단어에 인덱스 정수를 할당한 후 빈도수로 벡터를 만드는 방법
  • 주어진 문장을 이렇게 표현하면 문장에서 특정 단어가 몇 번 나왔는지 파악
  • 단어의 등장 빈도가 주용한 경우에 사용, 단어의 순서는 고려하지 않음
  • 많은 문서 중 특정 단어를 포함하는 문서를 찾을 때 유용함

Count Vector

  • Bow의 개념을 확장해 여러 문서가 있을 때 문서마다 설정된 단어를 세어 이를 행렬로 나타내는 방법
  • 여러 문서를 비교할 수 있는 기준을 제공

 

TF-IDF Vector

  • 전체 문서에서 단어의 개수를 함께 세는 방법
  • TF(Term Frequency, 단어 빈도): 특정 문서에서 단어가 나타난 수/특정 문서의 전체 단어 수
  • IDF(Inverse Document Frequency, 역문서 빈도):log(전체 문서의 개수/해당 단어가 나타난 문서의 수)
  • 특징량 = TFxIDF: 특징량은 여러 문서에 나타나는 단어보다 소수의 문서에 나타나는 단어의 특징량이 더 커지는 속성을 가짐

 

 

 

 

※ 해당 내용은 <인공지능 바이블>의 내용을 토대로 학습하며 정리한 내용입니다.

반응형

'인공지능(AI)' 카테고리의 다른 글

자연어 처리 (4)  (0) 2023.06.08
자연어 처리 (3)  (0) 2023.06.07
자연어 처리 (1)  (0) 2023.06.05
이미지와 음성 패턴 인식 (3)  (0) 2023.06.04
이미지와 음성 패턴 인식 (2)  (0) 2023.06.03