본문 바로가기

반응형

분류 전체보기

(291)
텍스트 전처리 (3) 2.3 정규화 2.3.1 어간 추출 어형이 변형된 단어로부터 접사 등을 제거하고 그 단어의 어간을 분리해 내는 작업 어형: 단어의 형태 어간: 어형변화에서 변화하지 않는 부분 용언: 문장 안에서 서술하는 구실을 하는 동사와 형용사 영어에 대한 어간추출 알고리즘은 포터 스테머, 랭카스터 스테머 등이 있음 포터 스테머 from nltk.stem import PorterStemmer stemmer = PorterStemmer() print(stemmer.stem('cooking'), stemmer.stem('cookery'), stemmer.stem('cookbooks')) ## cook cookeri cookbook # 토큰화와 결합해 어간 추출 from nltk.tokenize import word_tok..
텍스트 전처리 (2) 2.2 토큰화 # 필요한 nltk 라이브러리 다운로드 import nltk nltk.download('punkt') nltk.download('webtext') nltk.download('wordnet') nltk.download('stopwords') nltk.download('averaged_perceptron_tagger') """ [nltk_data] Downloading package punkt to /root/nltk_data... [nltk_data] Unzipping tokenizers/punkt.zip. [nltk_data] Downloading package webtext to /root/nltk_data... [nltk_data] Unzipping corpora/webtext.zip...
텍스트 전처리 (1) 2.1 텍스트 전처리의 개념 2.1.1 왜 전처리가 필요한가? 문서 혹은 텍스트는 프로그래밍 언어 안에서 문자열로 표현 일반적으로 하나의 문장을 이해할 때는 사용된 단어들의 순차수열로 이해 컴퓨터에게 문장을 이해시키고 싶다면 하나의 문자열로 이루어진 문장 혹은 문서를 단어 단위로 나눈 후 이 단어들의 리스트 형태로 변환해주어야 함 텍스트를 전처리해두면 향후 문서 분류와 같은 작업을 용이하게 할 수 있음 2.1.2 전처리의 단계 텍스트 전처리: 주어진 텍스트에서 노이즈와 같이 불필요한 부분을 조거하고, 문장을 표준 단어들로 분리한 후, 각 단어의 품사를 파악하는 것 전처리의 단계 (1) 정제: 분석에 불필요한 노이즈를 제거하는 작업 (2) 토큰화: 주어진 텍스트를 원하는 단위로 나누는 작업 (3) 정규화:..
텍스트 마이닝 기초 (2) 1.4 텍스트 마이닝의 주요 적용 분야 1.4.1 문서 분류 주어진 문서에 대해 미리 정의된 클래스로 분류하는 작업 메일의 내용을 분석해 스팸 메일의 여부 결정 문서의 내용이 호의적인지, 비호의적인지 확인 자연어 처리 및 텍스트 마이님에서 가장 기본적이면서 활용범위가 가장 넓은 분야 1.4.2 문서 생성 사람이 쓴 것과 유사한 문장을 만들어내는 작업 입력 데이터가 없다는 차이점을 가짐 아직 실질적인 응용분야는 많 않음 1.4.3 문서 요약 주어진 문서에서 중요하고 흥미 있는 내용을 추출해 요약문을 생성하는 작업 sequence-to-sequence 문제, 단어의 시퀀스를 입력받아 다시 단어의 시퀀스를 출력하는 문제가 전형적인 예 1.4.4 질의응답 주어진 문장을 읽고, 주어진 문제에 대해 올바른 답을 생..
텍스트 마이닝 기초 (1) 1.1 텍스트 마이닝의 정의 텍스트에서 고품질 정보를 추출하는 과정 텍스트로부터 패턴이나 트렌드를 분석해서 추출한 고품질의 정보 텍스트에 숨어 있는 패턴을 이용해 어떤 사건을 예측하는 것 자연어 처리 기법을 이용해 텍스트를 정형화된 데이터로 변환하고, 머신러닝 기법을 적용해 우리가 관심이 있는 어떤 사건을 예측하고자 하는 방법론 1.2 텍스트 마이닝 패러다임의 변화 1.2.1 카운트 기반의 문서 표현 딥러닝 이전에는 문장에 있는 단어들의 개수를 세고, 주로 사용된 단어들을 이용해 그 문장의 내용을 파악하는 방법 사용 카운트 기반의 문서표현은 문서를 사용된 단어들의 빈도로 표현하는 것 1.2.2 시퀀스 기반의 문서 표현 카운트 기반 문서 표현의 문제점 해결 사람이 글을 읽고 이해하는 것과 유사한 방법으로 ..
인공지능 관련 도구의 소개 (3) 4-5 인공지능 언어, 파이썬 1991년 귀도 반 로섬이 발표한 인터프리터 언어 파이썬 패키지 사이킷런: 통계 및 기계 학습에 대한 기능을 제공하는 패키지 넘파이: 행렬 형태의 자료를 다루는 기능을 제공하며, 기계 학습에서 많이 사용 사이파이: 넘파이 기능을 포완해 선형 대수, 희소 행렬, 신호 및 이미지 처리, 급속 푸리에 변환 등과 같은 기능 제공 판다스: 넘파이, 사이파이를 보완하는 패키지, 데이터 분할, 정제, 추가, 병합, 변환 지원 맷플롯립: 배열로부터 고품질 그래프를 생성하고, 도표를 대화형으로 시각화하기 위한 기능 제공 NLTK: 텍스트를 분석하기 위한 기능을 제공, 한글의 형태소 분석 및 품사 태깅을 위해서는 KoNLPy가 별도로 준비되어 있어야 함 4-6 컴퓨터 비전 라이브러리, Ope..
인공지능 관련 도구의 소개 (2) 4-3 통계 분석 도구, R R이 제공하는 중요 기능 다양한 데이터 유형 지원 다양한 데이터 조작 기능과 프로그래밍 기능 지원 빅데이터 시대에 반드시 필요한 데이터 전처리 기능 지원 가장 강력한 데이터 시각화 기능 지원 통계 분석 기능 지원 데이터 마이닝 기능 지원 회귀, 시계열 분석 지원 소셜 네트워크, 구조 방정식, 워드 클라우드, 신경망 분석 지원 R을 사용한 군집 분석의 수행 4-4 딥러닝 개발 도구 텐서플로 구글에서 공개한 기계 학습 라이브러리 일반적으로 아나콘다나 파이참을 이용하지만, 구글을 코랩을 사용할 수 있음 텐서플로는 파이썬 같은 언어와 함께 사용하므로 언어에서 제공하는 유연성과 다양한 라이브러리를 사용할 수 있다는 장점을 가짐 GPU를 지원하며, 텐서보드를 통해 모델과 결과를 그래프로..
인공지능 관련 도구의 소개 (1) 4-1 규칙 기반 시스템 개발 도구, 제스 제스 규칙 기반 시스템을 개발하기 위해 규칙과 환경에 대한 사실을 설명할 수 있는 요소들로 구성된 규칙 엔진 제스의 특징 및 예 사실을 기술할 때 템플릿을 사용해 기본 틀을 정의하고, 사실을 리스트의 형태로 표현 규칙은 조건부와 결론부로 구성되며, 결론부는 스크립트를 사용해 작업을 기술할 수 있음 조건, 반복과 같은 제어 구조를 사용할 수 있기 때문에 규칙에 대한 추론 과정에서 다양한 작업을 할 수 있음 4-2 데이터 마이닝 도구, 웨카 'Waikato Environment for Knowledge Analysis'의 약자 뉴질랜드 와이카도 대학의 이안 비텐 교수가 개발한 데이터 마이닝과 기계 학습을 위한 오픈 소스 소프트웨어 웨카의 수행 ※ 해당 내용은 의 내..
지능 로봇 (3) 3-3 로봇 소프트웨어 개발 프레임워크 소프트웨어 개발 + 하드웨어 추상화로 구성 로봇 소프트웨어 개발 프레임 워크 종류 ERSP(Evolution Tobotics Software Platform): 주행뿐만 아니라 컴퓨터 비전 및 HCI 기능 포함 CARMEN(Canegie Mellon Robot Navigation Toolkit): 오픈 소스 라이브러리 Karto SDK: SLAM 알고리즘 중심의 상용 주행 라이브러리 ARIA, ARNL: 지도 작성 기능 중심의 로봇 주행 라이브러리 RT 미들웨어 ROS(Robot Operating System) 오로코스(Open Robot COntrol Software: OROCOS) 오프로스(Open Platform for RobOtic Services, OPRo..
지능 로봇 (2) 3-2 로봇 제어 기술 및 로봇 제어 패러다임 로봇 제어 기술의 소개 기구학: 로봇의 관절, 바퀴의 회전, 로봇의 움직임을 결정하는 데 사용하는 이론 동역학: 로봇의 움직이는 힘과 운동, 속도를 해석하는 분야 센서: 장비의 내부, 외부 조건 및 상황을 계측하기 위해 사용하는 장치 구동기: 로봇의 관절이나 바퀴 등에 제어 신호에 따라 반응하는 움직임을 주는 장치 제어: 생성된 퀘적을 따라갈 때 기계적 정밀도, 오작동, 미끄러짐과 같은 환경 요인의 영향으로 동작이 다를 수 있는데 이 차이를 보정해 목표한 대로 만드는 것 통신: 로봇 구성 요소의 상호 작용을 위해 데이터와 신호를 주고받는 동작 로봇 제어 패러다임 계층형 패러다임: 감지, 계획, 행동의 과정을 반복하도록 구성한 것 반응형 패러다임: 계획 수립 ..

반응형