전체 글 (291) 썸네일형 리스트형 텍스트 전처리 (1) 2.1 텍스트 전처리의 개념 2.1.1 왜 전처리가 필요한가? 문서 혹은 텍스트는 프로그래밍 언어 안에서 문자열로 표현 일반적으로 하나의 문장을 이해할 때는 사용된 단어들의 순차수열로 이해 컴퓨터에게 문장을 이해시키고 싶다면 하나의 문자열로 이루어진 문장 혹은 문서를 단어 단위로 나눈 후 이 단어들의 리스트 형태로 변환해주어야 함 텍스트를 전처리해두면 향후 문서 분류와 같은 작업을 용이하게 할 수 있음 2.1.2 전처리의 단계 텍스트 전처리: 주어진 텍스트에서 노이즈와 같이 불필요한 부분을 조거하고, 문장을 표준 단어들로 분리한 후, 각 단어의 품사를 파악하는 것 전처리의 단계 (1) 정제: 분석에 불필요한 노이즈를 제거하는 작업 (2) 토큰화: 주어진 텍스트를 원하는 단위로 나누는 작업 (3) 정규화:.. 텍스트 마이닝 기초 (2) 1.4 텍스트 마이닝의 주요 적용 분야 1.4.1 문서 분류 주어진 문서에 대해 미리 정의된 클래스로 분류하는 작업 메일의 내용을 분석해 스팸 메일의 여부 결정 문서의 내용이 호의적인지, 비호의적인지 확인 자연어 처리 및 텍스트 마이님에서 가장 기본적이면서 활용범위가 가장 넓은 분야 1.4.2 문서 생성 사람이 쓴 것과 유사한 문장을 만들어내는 작업 입력 데이터가 없다는 차이점을 가짐 아직 실질적인 응용분야는 많 않음 1.4.3 문서 요약 주어진 문서에서 중요하고 흥미 있는 내용을 추출해 요약문을 생성하는 작업 sequence-to-sequence 문제, 단어의 시퀀스를 입력받아 다시 단어의 시퀀스를 출력하는 문제가 전형적인 예 1.4.4 질의응답 주어진 문장을 읽고, 주어진 문제에 대해 올바른 답을 생.. 텍스트 마이닝 기초 (1) 1.1 텍스트 마이닝의 정의 텍스트에서 고품질 정보를 추출하는 과정 텍스트로부터 패턴이나 트렌드를 분석해서 추출한 고품질의 정보 텍스트에 숨어 있는 패턴을 이용해 어떤 사건을 예측하는 것 자연어 처리 기법을 이용해 텍스트를 정형화된 데이터로 변환하고, 머신러닝 기법을 적용해 우리가 관심이 있는 어떤 사건을 예측하고자 하는 방법론 1.2 텍스트 마이닝 패러다임의 변화 1.2.1 카운트 기반의 문서 표현 딥러닝 이전에는 문장에 있는 단어들의 개수를 세고, 주로 사용된 단어들을 이용해 그 문장의 내용을 파악하는 방법 사용 카운트 기반의 문서표현은 문서를 사용된 단어들의 빈도로 표현하는 것 1.2.2 시퀀스 기반의 문서 표현 카운트 기반 문서 표현의 문제점 해결 사람이 글을 읽고 이해하는 것과 유사한 방법으로 .. 이전 1 ··· 32 33 34 35 36 37 38 ··· 97 다음