모델을 생성할 때, 데이터셋은 정말 중요하다. 다음은 train,test,validation 3가지 데이터셋에 대한 설명이다.
1) train 데이터셋
모델을 학습시킬 때 사용하는 데이터셋이다. train 데이터가 많으면 많을수록 모델이 학습할 수 있는 데이터가 많아 똑똑해질 수 있다.
2) test 데이터셋
앞서 RandomForest, DNN, CNN 모델의 코드를 보면, train데이터와 test데이터를 나누는 것을 확인할 수 있다.
train_set, test_set = train_test_split(xy_data, test_size=0.3, random_state=123)
위 코드에서 test_size가 test데이터셋의 크기를 지정해주는 부분이다.
0.3이 의미하는 것은 총 데이터셋에서 train데이터 : test데이터 = 7:3 의 비율로 데이터를 나눈다는 뜻이다.
test 데이터셋은 train 데이터셋과 달리 모델을 학습시킬 때 사용하는 것이 아닌 모델이 만들어진 후, 모델을 테스트할 때 사용하는 것이다.
3) validation 데이터셋
validation 데이터셋은 모델이 만들어진 후, 모델을 검증할 때 사용하는 데이터이다.
test 데이터셋과 마찬가지로 모델을 학습시킬 때 사용되지 않지만, test 데이터는 train 데이터와 비슷한 형태이기 때문에 모델을 검증하기에 정확하지 않을 수 있다.
따라서 validation 데이터셋(새로운 데이터)을 이용해 제대로된 모델인지 확인할 필요가 있다.
'DEVELOPMENT > AI' 카테고리의 다른 글
딥러닝(DL) - CNN 모델 (0) | 2020.12.30 |
---|---|
딥러닝(DL) - DNN 모델 (0) | 2020.12.30 |
머신러닝(ML) - RandomForest 모델 (0) | 2020.12.29 |