[2019-객-6] 나이브베이즈 smoothing

chatgpt

나이브베이즈 분류기는 데이터가 충분하지 않을 때, 모델이 과적합(overfitting)될 가능성이 높습니다. 이러한 문제를 해결하기 위해 스무딩(smoothing) 기법을 사용할 수 있습니다.

스무딩은 데이터셋의 빈도를 보정하는 방법으로,

특정 단어나 특성이 데이터셋에서 한 번도 나타나지 않는 경우에

해당 단어나 특성에 대한 확률을 0으로 계산하는 것이 아니라,

해당 단어나 특성이 어느 정도의 빈도로 나타날 수 있는지를 고려하여 값을 보정하는 것입니다.

나이브베이즈 분류기에서는 스무딩 기법 중 Laplace smoothing(라플라스 스무딩)이 가장 널리 사용됩니다.

Laplace smoothing은 각 클래스에 대한 단어의 출현 빈도수를 계산할 때,

모든 단어의 출현 빈도수에 일정한 값을 더해주는 방법입니다.

이를 통해 단어가 한 번도 출현하지 않는 경우에도 확률이 0이 되는 것을 방지할 수 있습니다.

Laplace smoothing을 적용하면 모든 단어에 대해 확률이 0이 되는 것을 방지하여,

모델이 더욱 일반적인 특성을 학습하게 됩니다.

따라서, 나이브베이즈 분류기에서 오버피팅을 피하기 위해 스무딩 기법을 적용하는 것이 일반적입니다.

일반적으로, 클래스에 속하는 단어의 빈도수가 0이 되면 해당 단어가 등장하지 않은 것으로 간주되어 분류기가 오류를 발생시키는 경향이 있습니다.

라플라스 스무딩을 적용하면 모든 단어에 대해 최소한 1번은 등장했다는 것을 보장할 수 있으므로, 이를 통해 분류기가 더 일반적인 데이터에 대해서도 잘 작동할 수 있도록 만들어줍니다. 따라서, 오버피팅을 방지하는 역할을 수행합니다.

Lidstone smoothing Lidstone smoothing은 Laplace smoothing과 유사한 방법으로, 모든 단어에 대해 동일한 보정 값을 더해주는 대신, 각 단어마다 서로 다른 보정 값을 적용합니다. 따라서, Laplace smoothing보다 조금 더 유연한 스무딩 기법입니다.
Add-k smoothing Add-k smoothing은 Laplace smoothing의 일반화된 형태로, 0보다 큰 임의의 값을 k로 설정하여 모든 단어에 대해 빈도수에 k 값을 더해줍니다. 이 때, k의 값에 따라 스무딩 강도를 조절할 수 있습니다. k 값을 작게 설정하면 Laplace smoothing과 유사한 효과를 얻을 수 있고, k 값을 크게 설정하면 데이터셋이 작은 경우에도 일정한 확률 값을 보장할 수 있습니다.
Good-Turing smoothing Good-Turing smoothing은 기존에 출현하지 않은 단어나 특성에 대해 스무딩을 적용하는 것이 아니라, 데이터셋에서 출현하지 않은 단어나 특성의 빈도수를 새로운 빈도수로 추정하는 방법입니다. 따라서, 기존에 출현하지 않은 단어나 특성의 확률 값을 0으로 계산하는 것이 아니라, 데이터셋에서 나타난 빈도수를 바탕으로 추정된 빈도수를 확률 값으로 계산합니다.

이러한 다양한 스무딩 기법은 나이브베이즈 분류기가 과적합을 방지하고 일반화 성능을 높일 수 있도록 도와줍니다.

ing [2019-객-7] multinomial logistic regression, proportional odds model (0)	2023.03.01
[2020-객-5] MSE - 분산 편향 관계(KNN) (0)	2023.02.26
지도학습 (0)	2023.02.25
데이터 마트 (0)	2023.02.25
연관성 분석 vs 영향인자 분석 (0)	2023.02.22

okso6441