본문 바로가기

반응형

정규화

(2)
텍스트 전처리 (3) 2.3 정규화 2.3.1 어간 추출 어형이 변형된 단어로부터 접사 등을 제거하고 그 단어의 어간을 분리해 내는 작업 어형: 단어의 형태 어간: 어형변화에서 변화하지 않는 부분 용언: 문장 안에서 서술하는 구실을 하는 동사와 형용사 영어에 대한 어간추출 알고리즘은 포터 스테머, 랭카스터 스테머 등이 있음 포터 스테머 from nltk.stem import PorterStemmer stemmer = PorterStemmer() print(stemmer.stem('cooking'), stemmer.stem('cookery'), stemmer.stem('cookbooks')) ## cook cookeri cookbook # 토큰화와 결합해 어간 추출 from nltk.tokenize import word_tok..
함수 최적화 4-1 함수 최적화의 개념 두 변수를 선택해 산포도를 그린 후 두 변수의 관계를 분석하고, 둘의 관계를 설명할 수 있는 모델을 구함으로써 미래를 예측하는 것 변수의 상황 선형 상황: 변수의 산포도가 직선의 형태일 때 두 변수의 관계를 선형 함수로 나타낼 수 있음 비선형 상황: 변수의 산포도가 직선의 형태로 보이지 않을 때 두 변수의 관계를 비선형 문제라고 함 유사도 변수의 쌍이 얼마나 유사한지를 추측하는 과정 중 사용하는 개념 측정 기준 코사인 유사도 상관 계수 상관 함수 편집 거리 레벤슈타인 거리 해밍 거리 유클리드 거리, 마할라노비스 거리, 자카드 계수 4-2 회귀 분석 주어진 데이터를 바탕으로 이를 가장 잘 설명할 수 있는 함수(모형)를 만들고, 이를 이용해 예측하는 것 잔차(Residual): 예..

반응형