본문 바로가기
👩🏻‍💻TECH/머신러닝

머신러닝 모델학습에서의 편향과 분산

by Alicia03 2024. 10. 28.

1. 머신러닝 모델학습에서 편향과 분산의 의미 

 

편향과 분산의 개념을 간단히 설명하면 데이터의 치우침과 데이터의 퍼져있음을 뜻한다. 

머신러닝 모델학습에서의 편향과 분산은 다음과 같이 풀이할 수 있다(황세웅, 2023, 재인용).

 

편향: 예측한 결과가 정답과 일정하게 차이가 나는 정도 
분산: 주어진 데이터 포인트에 대한 모델 예측의 가변성을 의미

 

2. 편향과 분산의 관계: Trade-Off

편향과 분산의 관계는 Trade-Off 관계이다. 즉, 한쪽이 증가하면 한쪽이 감소하는 관계에 놓여 있다. 

이 관계는 다음과 같은 예시로 설명할 수 있다. 

 

편향이 크다는 것은 예측한 결과가 정답과 차이가 나는 정도가 크다는 의미로 모델이 데이터에 비해 단순하기 때문에 생긴다. 모델이 단순하게 생겼다면 매번 예측하는 값은 가변성이 적다, 즉 분산이 적다고 해석할 수 있다. 

 

반대로 편향이 작다는 말은 모델이 training data와의 정답과 차이가 나는 정도가 작다는 의미로 그만큼 더 data에 fit하도록 복잡하게 모델이 생성되었다고 볼 수 있다. 이 때는 x의 값에 어떤 것이 들어오느냐에 따라 이전 데이터와 차이가 큰 값이 들어온다면 예측이 잘 되지 않을 것이고, 차이가 적은 값이 들어온다면 예측이 잘 될 것이기 때문에, 즉 균일하게 예측하는 정도가 떨어지기 때문에 분산이 크다고 말할 수 있다.  

 

이 두 가지를 잘 살펴서 너무 과적합되지도 과소적합되지도 않은 모델을 만드는 것이 중요하다.  

 

참고문헌 

데이터마케팅 공부방, 머신러닝 모델 측면의 편향(bias)과 분산(variance)의 개념 이해

 

머신러닝 모델 측면의 편향(bias)과 분산(variance) 개념 이해

편향(bias)과 분산(variance) 데이터 분석을 하다보면 편향(bias)와 분산(variance)이란 용어를 자연스럽게...

blog.naver.com