iMTE

Class Imbalance Problem in Data Mining : Review 본문

Machine learning

Class Imbalance Problem in Data Mining : Review

Wonju Seo 2018. 2. 27. 22:28

Longadge, Rushi, and Snehalata Dongre. "Class imbalance problem in data mining review." arXiv preprint arXiv:1305.1707(2013).


https://arxiv.org/ftp/arxiv/papers/1305/1305.1707.pdf



Classification of data becomes difficult because of unbounded size and imbalance nature of data. Class imbalance problem become greatest issue in data mining.


Data의 imbalance함은 두개의 class 중 하나의 class를 더 많이 sampling해서 문제가 생깁니다. Minority sample은 거의 일어나지 않지만, 매우 중요한 sample들입니다.

Data의 imbalance는 skewed distribution으로 표현이 되고 minority class의 sample에 비해서 majority class의 sample이 더 많은 것을 의미합니다.


Medical diagnosis prediction의 응용에서는 질병이 rare하기에 regular treatment보다 중요하기 때문에 이런 문제를 풀어내는게 중요해 보입니다. 분류 문제에서 algorithm은 일반적으로 majority class sample을 분류하는 것을 더 중요하게 보기 때문에, 대부분 serious하고 rare한 event를 분류하는 것에 어려움이 있습니다. 예를 들어 암세포를 detection하는 문제에서 비 암세포를 잘못 판단하는 것은 추가적인 clinical testing을 요구하지만 암세포를 잘못 판단 하는 경우에는 매우 심각한 health risk를 만들어 낸다.


In such situation most of the classifier are biased towards the major classes and hence show very poor classification rates on minor classes.


Majority class에 bias가 되어있기 때문에, machine learning model은 minority class의 예측 성능은 매우 떨어집니다.


Data imbalance 문제를 해결하는 방법으로는 1. data-preprocessing과 feature selection이 사용됩니다.


1. Data-preprocessing에서는 새로운 sample을 추가하거나, 이미 존재하는 sample을 제거합니다. 새로운 sample을 추가하는 방법으로는 over-sampling이사용되고 sample을 제거하는 방법은 under-sampling 방법을 사용하는 것입니다. 


2. Current approaches


2.1 Sampling


artificially re-sampling the data set -> under-sampling the majority class 혹은 over-sampling the minority class를 하는 방법으로 re-sampling을 합니다.




2.2 Algorithms


The goal of this approach is to optimize the performance of learning algorithm on unseen data. Instead of changing class distribution applying cost in decision making is another way to improve the performance of classifier. 


Data의 분포를 변경시키는 방법 외에, model의 cost function을 조정하는 방법으로 data imbalance를 해결할 수 있습니다. Cost-sensitive learning은 data set과 연관된 loss function을 최대화것입니다. 


Cost sensitive classification의 목적은 misclassification cost를 최소화 하는 것입니다.

주로 false negative와 false positive에 cost function을 추가하게 되는데, false negative를 줄이는 것, 즉 minority event를 더 많이 놓치지 않는 것을 위해서 false negative에 cost를 false positive보다 더 많이 주는 것을 함으로 cost sensitive learning을 할 수 있습니다.

SVM은 kernel based approach를 사용하여 imbalanced dataset을 더 높은 dimension으로 mapping하는 방법을 사용하여 data imbalance문제를 해결할 수 있습니다. over-sampling과 ensemble method를 사용하여 original dataset으로 부터 학습된 것보다 더 좋은 성능을 보여줄 수 있습니다.


2.3 Feature Selection


feature selection 목표는 j개의 features 중 classifier의 성능을 최적화 할 수 있는 feature들의 subset을 선택하는 것입니다. high dimensionality of the data set은 class imbalance 문제와 동반하기 때문에, feature selection 방법을 적용하는 것은 필수적입니다. Sampling 방법과 algorithm methods(cost-sensitive function)은 high dimensional class imbalance 문제를 해결하는 것으로는 충분하지 않습니다. 


3. Related Work


Data sampling 방법은 sample을 추가하거나 sample을 제거하는 방법으로 imbalance data 문제를 해결합니다. 

위에서 사용되는 algorithm을 사용해서 data imbalance 문제를 해결할 수 있습니다.

'Machine learning' 카테고리의 다른 글

확률 행렬과 Markov Chain  (0) 2018.06.12
PCA 주성분 분석  (0) 2018.06.11
Genetic Algorithm  (4) 2018.06.11
Decision tree 정리  (0) 2018.06.08
Decision tree learning (결정 트리 학습법)  (0) 2018.06.03
Comments