본문 바로가기

인공지능(AI)

인공지능에서의 분류 (2)

반응형

분류 알고리즘의 학습

 인공지능 분류 알고리즘의 훈련은 복잡해 보이지만, 그것은 인간이 배우는 방법과 유사합니다. 아이들이 동물을 식별하는 방법을 생각해 보면 호랑이를 위한 줄무늬 또는 코끼리를 위한 코와 같은 특정한 특징을 그들이 보여준 라벨이 붙은 이미지로부터 연관시킵니다.

 분류 알고리즘은 지도 학습이라는 방법을 사용하여 현저하게 유사한 방식으로 훈련됩니다.

 

모델 학습(Model Learning)

 이 단계에서는 분류 알고리즘에 레이블로 표시된 동물 이미지를 보여주는 것과 같이 모든 데이터 포인트에 올바른 클래스로 레이블이 지정된 데이터 세트가 제공됩니다. 이는 훈련 데이터로 알려져 있습니다. 알고리즘의 작업은 이 데이터를 연구하고 입력 기능을 올바른 클래스 레이블과 연결하는 방법을 배우는 것입니다.

 예를 들어, 이메일 스팸 탐지의 이진 분류 문제에서, 특징은 특정 단어 또는 구의 빈도, 이메일의 메타데이터 및 기타 요인을 포함할 수 있습니다. 알고리즘은 수천, 심지어 수백만 개의 이러한 예를 연구함으로써 스팸 및 비스팸 이메일의 특성을 학습합니다. 이는 기본적으로 패턴 인식 연습이며, 알고리즘은 데이터의 어떤 패턴이 각 클래스와 관련되어 있는지 식별하는 것을 학습합니다.

 

모델 평가(Model Evalution)

 모델이 훈련을 받고 나면, 그것의 성능을 평가하는 것이 필요합니다. 여러분은 한 학생이 시험에 먼저 통과하지 않고 다음 학년으로 진학하도록 내버려 두지 않을 것입니다, 그렇죠? 비슷하게, 분류 모델의 교육은 시험 없이 완벽하지 않습니다.

 이를 위해 별도의 데이터 세트(테스트 데이터)가 사용됩니다. 이 데이터 세트는 모델이 이전에 본 적이 없는 레이블링된 데이터 포인트를 포함한다는 점에서 훈련 데이터와 유사합니다. 모델은 이러한 보이지 않는 데이터 포인트를 분류하려고 시도하고 예측은 실제 레이블과 비교됩니다.

 이와 같은 비교를 바탕으로 정확도, 정밀도, 회상도, F1 점수 등 다양한 지표를 산출하여 모델의 성능을 가늠해 볼 수 있는데, 예를 들어 정확도는 모델이 정확하게 예측하는 비율이며, 모델이 100개의 이메일 중 90개를 정확하게 분류하면 90%의 정확도를 갖게 됩니다.

 모델의 성능이 만족스럽지 않으면 학습 단계를 다시 방문해야 할 수도 있습니다. 교육 데이터를 더 추가하거나 다른 기능을 선택하거나 모델의 매개 변수를 조정할 수도 있습니다.

 

반응형