본문 바로가기

반응형

전체 글

(291)
한국어 문서에 대한 BERT 활용 (1) 16.1 다중 언어 BERT 사전학습 모형의 미세조정학습 import pandas as pd import numpy as np from sklearn.model_selection import train_test_split df = pd.read_csv('/content/daum_movie_review.csv') # rating이 6보다 작으면 0 즉 부정, 6 이상이면 긍정으로 라벨 생성 y = [0 if rate < 6 else 1 for rate in df.rating] # 데이터셋을 학습, 검증, 평가의 세 데이터셋으로 분리 X_train_val, X_test, y_train_val, y_test = train_test_split(df.review.tolist(), y, random_state=0)..
BERT 사전학습 모형에 대한 미세조정학습 (3) 15.3 파이토치를 이용한 미세조정학습 del model del trainer torch.cuda.empty_cache() from torch.utils.data import DataLoader train_loader = DataLoader(train_dataset, shuffle=True, batch_size=8) from transformers import BertModel bert_model = BertModel.from_pretrained('bert-base-uncased') # BERT를 포함한 신경망 모형 class MyModel(torch.nn.Module): def __init__(self, pretrained_model, token_size, num_labels): super(MyMode..
BERT 사전학습 모형에 대한 미세조정학습 (2) 15.2 트랜스포머의 트레이너를 이용한 미세조정학습 import nltk from nltk.corpus import movie_reviews from sklearn.model_selection import train_test_split #sklearn에서 제공하는 split 함수를 사용 import numpy as np nltk.download('movie_reviews') fileids = movie_reviews.fileids() #movie review data에서 file id를 가져옴 reviews = [movie_reviews.raw(fileid) for fileid in fileids] #file id를 이용해 raw text file을 가져옴 categories = [movie_review..

반응형