일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Cam
- Artificial Intelligence
- 시계열 분석
- 코딩테스트
- xai
- coding test
- 코딩 테스트
- 설명가능한 인공지능
- SmoothGrad
- Score-CAM
- Machine Learning
- 인공지능
- Deep learning
- 딥러닝
- Unsupervised learning
- Interpretability
- 설명가능한
- python
- grad-cam
- AI
- GAN
- keras
- 머신러닝
- 기계학습
- 메타러닝
- Explainable AI
- Class activation map
- 백준
- cs231n
- meta-learning
- Today
- Total
목록Machine learning (9)
iMTE
Regularization 머신러닝 모델이 학습 데이터를 잘 설명하고, 테스트 데이터를 잘 설명하지 못한다면 이는 모델이 overfitting (과적합)이 되어 있을 가능성이 매우 크다. 과적합된 모델은 많은 rules을 가지고 있어, noise 성분도 학습을 했을 가능성이 있다. 노이즈가 무시할 정도의 수준이 아니라면 이 모델은 noise에 의해서 high variance를 갖게되며 이는 모델의 일반화 성능을 나쁘게 만들어낸다. 모델은 bias와 variance의 개념을 이해하는 것이 좋다. 가장 좋은 모델은 낮은 bias와 variance를 갖지만, 사실 이런 모델을 만들기는 매우 어렵고, bias를 낮추다 보면 variance가 증가하고, variance를 낮추다 보면 bias가 증가하는, trad..
Likelihood function and Maximum Likelihood Estimation 1) Likelihood Likelihood는 주어진 parameter에대해서 관측된 데이터 (Observed data) 에 대한 확률로, 다음과 같이 나타낸다. 설명을 돕기위해서, 만약 관측된 데이터들이 서로 독립 (Independent)이고, mu와 sigma^2를 갖는 정규분포를 따를 경우에는 다음과 같이 likelihood를 표현할 수 있다. Likelihood는 위와 같이 계산이 된다. 2) Maximum Likelihood Estimation Maximum Likelihood Estimation (MLE)는 주어진 데이터에 대해 이를 잘 설명하는 모델의 parameter를 구할 때 사용되는 기술이다..
Boosting and AdaBoost 1. Boost Boosting 방식은 꽤 합리적인 방법이다. 하나의 강력한 classifier로 데이터를 분류하는 것은 여러 한계가 있다. 잘 생각해보면, 우리가 '정보'를 찾을 때 네이버에서만 찾지는 않는다. 여러가지 포탈 사이트에서 정보를 찾아보면서 그 정보들을 긁어모아서 우리는 나름 '학습'을 한다. 하나의 규칙은 상황에 따라서 부정확할 수 있다. 우리는 어떤 의사결정을 할 때, 다양한 규칙들을 고려를 하고 그 규칙들을 기반으로 '선택'을 한다. 하지만 이 규칙들은 어쩔때는 잘 맞을 때도 있지만 아닐 때도 있다. 다수의 weak learner를 만들어, 이들의 결정을 voting하여 더 좋은 성능을 구현하는 것이 boosting의 핵심 아이디어이다. ense..
확률 행렬과 Markov Chain 1. Markov Model 확률 행렬은 행렬의 성분이 확률로 이루어진 행렬을 의미한다. Markov chain은 한 state에서 다른 state로 변할 확률이 과거 보다 '현재'의 상태에만 의존하는 모델을 의미한다. Markov chain은 확률행렬을 사용해서 state가 변하는 transition matrix를 만들 수 있다. , state n에서 state m으로 이동할 확률 Transition matrix의 각 row의 합은 1이다. 이는 확률의 합을 의미한다. 만약 초기 state를 S1이라고 정의하고 t시간 이후의 state를 St라고 정의하면, 다음과 같이 계산이 된다. 위와 같은 식은 '마르코프 가정'에 의한다. '마르코프 가정'이란 현재 state에서..
주성분 분석 PCA(Principal Components Analysis) 1. Curse of dimensionality 어떤 데이터에서 feature를 추출할 수 있고, 이 feature의 개수가 많으면 많을 수록 학습이 잘 될 것이라고 착각을 하게된다. 하지만 실제 유의미한 feature들을 찾는 것이 매우 중요하고. 몇몇 논문들은 성능이 최대가 되는 조합을 random feature 조합을 찾아서 찾아낸다. Curse of dimensionality는 dimension reduction의 방법으로 고차원의 feature vector를 저차원의 feature vector로 바꿔주는 방법이다. Curse of dimensionality는 K-NN에서 흔히 다들 심각성을 설명하는데, 차원의 수가 많아질..
Genetic algorithm 여러 개의 변수가 사용되는 경우 'Gradient descent'알고리즘을 사용하면 local minimum을 찾을 수 있고, 운이 좋으면 global minimum을 찾게 된다. 운이 좋다는 것은 시작점을 잘 선택했다는 것이다. (그래서 neural network에서 weight initialization이 매우 중요하다.) 하지만, Gradient descent는 많은 변수가 사용되면 계산 비용이 매우 커질 뿐만 아니라, gradient를 계산하기 위해서 편미분이 가능해야한다. 만약 편미분이 불가능한 상태에서는 optimization은 불가능한가? 답은 아니다. Genetic algorithm은 매우 직관적인 결과를 제공한다. Genetic algorithm (GA)은..
Decision Tree (의사결정나무) 결정 트리의 학습 -> 결정 트리를 구축하는 방법. Grow a tree Supervised learning에 사용되는 방법과 같이 특징 (features)들과 class의 index로 데이터가 구성된다. Decision Tree (DT)의 leaf는 클래스의 index를, branch or node는 decision node가 된다. decision node에서는 가능한 feature값으로 branch를 형성한다. 각 node가 내부에 있는 경우에 feature이 하나이다. feature에 따라 branch를 형성하고, 만약 node가 leaf인 경우 class의 index가 존재한다. 출처: 위키피디아, 결정 트리 학습 여기서 남자인가? 는 node(root ..
Source : https://ko.wikipedia.org/wiki/%EA%B2%B0%EC%A0%95_%ED%8A%B8%EB%A6%AC_%ED%95%99%EC%8A%B5%EB%B2%95 Decision Tree (DT) 개요 Input과 output을 연결시켜주는 예측 모델로, regression의 문제인 경우 regression tree, classification 문제인 경우 classification tree로 불린다. DT는 시각적인 방법으로 의사 결정이 어떻게 진행되는지를 보여줄 수 있는 장점이 있다. Input과 output을 요구한다는 점에서 supervised learning이다. DT에서의 학습은 적절한 분할 기준에 따라 부분 집합들로 나누는 과정이고, 나뉘어진 자료 부분 집합에 다시 ..
Longadge, Rushi, and Snehalata Dongre. "Class imbalance problem in data mining review." arXiv preprint arXiv:1305.1707(2013). https://arxiv.org/ftp/arxiv/papers/1305/1305.1707.pdf Classification of data becomes difficult because of unbounded size and imbalance nature of data. Class imbalance problem become greatest issue in data mining. Data의 imbalance함은 두개의 class 중 하나의 class를 더 많이 sampling해서 문제..