목록전체 글 (8)
머신러닝 내공쌓기

앞서 머신러닝은 크게 input, 기계학습, output의 과정으로 나뉜다고 한 바 있습니다. 오차행렬은 output에 관한 것이라고 볼 수 있습니다. 오차행렬(confusion matrix)은 실제로 참(True)인지 거짓(False)인지, 예측을 긍정(Positive)으로 했는지, 부정(Negative)으로 했는지에 따라 네 개의 경우의 수로 구분한 표를 뜻합니다. 예를 들어, 일기예보에서 오늘 비가 올 것이라고 예측했는데, 비가 오지 않았다면, 예측은 실제로 거짓인데 비가 올 것이라고 긍정했기 때문에 FP에 해당합니다. 머신러닝에서 오차행렬은 중요한데, 왜냐하면 머신러닝 모델의 예측이 얼마나 잘한 예측인지를 판단하는 데 중요한 기준을 제공하기 때문입니다. 오차행렬로부터 우리는 머신러닝 모델의 우수성..
이번에는 머신러닝에서 중요개념인 선형회귀를 정리해 보려고 합니다. 머신러닝에서 선형회귀란 함수식이 선형성을 띤다는 것을 뜻합니다. 이때의 선형성은 독립변수가 아닌 가중치(기울기)를 기준으로 합니다. 이는 최소제곱법이라는 머신러닝의 학습기법과 관련 있습니다. 최소제곱법이란, 실제 선형함수가 내놓은 예측값이 실제값과 얼마나 오차가 있는지를 계산하여, 이러한 오차가 0에 가까워 지게끔 수정하기 위한 방법입니다. 이때 독립변수가 아닌 가중치가 선형성이 기준이 되는 까닭은, 최소제곱법을 통하여 최적의 가중치인 w 값을 구하려고 할 때, 독립변수와 실제값은 고정되어 있다고 가정하고, 입력 가능한 여러 가중치 값들 중 오차를 최소로 하는 값을 선별해 내기 때문입니다. 예를 들어 공부한 시간과 성적에 관한 선형함수를 ..
머신러닝은 크게 원재료, 기계, 산출물로 나누어 볼 수 있습니다. 원재료는 데이터를 가리키고, 기계는 머신러닝 모델을, 산출물은 머신러닝 모델이 학습한 것을 바탕으로 예측하는 예측치를 말합니다. 유명한 예시인 개와 고양이 분류기를 떠올릴 수 있습니다. 기계가 개와 고양이를 구분할 수 있도록 만들기 위해 여러 샘플 사진들을 학습시킵니다. 이때 기계는 학습한 결과를 토대로 새로운 고양이의 사진을 보았을 때, 이를 개가 아닌 고양이로 분류한다면 정확한 예측을 하게 됩니다. 위의 사례에서 볼 수 있듯이, 머신러닝 모델은 엄밀히 보면 크게 두 가지의 인풋을 받습니다. 하나는 학습용 데이터에 대한 인풋이고, 다른 하나는 테스트 데이터에 대한 인풋입니다. 이와 같이 머신러닝의 진행과정은 크게 input, 모델링, o..