iMTE

CV 8. Video Representation 본문

Computer Vision/CV

CV 8. Video Representation

Wonju Seo 2018. 12. 26. 13:39

Computer Vision [8]


1. Video Representation

Image를 SIFT혹은 Hog Feature로 표현 (Representation)하는 방법을 이전에 학습하였다. 이번에는 Video를 표현하는 방법을 알아보자.


2. Motion

Video에서 유용한 Feature를 뽑으라면, 연속되는 frame사이에 object의 motion일 것이다. 정적인 object는 motion이 없을 것이며, 움직이는 object는 motion이 바뀔 것이다. Motion을 통해서 1) 3D structure estimation, 2) object segmentation, 3) recognizing action and shape등을 해낼 수 있다.

Video에서 Motion을 추출하는 방법은 3가지가 있는데, 

1) Feature-based approaches

각 Frame에서 특징들 (corner, blob 등) 추출한 다음에, 연속되는 frame에 따라서 그 특징들을 tracking하는 방법이다. 이 방법은 motion이 크는 경우에 적합하다.

2) Direct methods (Optical flow)

각 frame의 pixel단위의 motion을 구한다. 이 방법은 motion이 작은 경우에 적합하나, 외부 변환에 민감한 문제점을 갖고 있다.

The optical flow vector of a moving object in a video sequence.

출처: Wikipedia, Optical flow, https://en.wikipedia.org/wiki/Optical_flow

3) Object tracking

video의 frame마다 object를 찾아내고 그 object를 tracking하는 방법이다.

이 세가지 방법중에 Direct methods에 대해서 깊게 파악해보자!


3. Direct method

Optical flow는 각 pixel에 대한 motion을 계산하는 것이므로, 매우 연산량이 크지만, 작은 motion을 detection할 수 있는 장점을 지니고 있다.

Optical flow를 구할 때 주요한 가정은 1) Color constancy (or brightness constancy) 2) Small motion이다. 가까운 frame 사이에서 motion이 크게 변하지 않는 이상 주변에 비슷한 pixel이 있다는 것이다. 이 부분을 catch하는 것이 optical flow의 시작점이다.

First-order taylor expansion에 의해서, 위와 같은 식을 만족하며, 이는 다음과 같이 나타낼 수 있다.

한개의 pixel에 하나의 식만 얻을 수 있는데, u와 v 두개의 미지수가 존재하므로, local window내의 pixel을 모두 고려하여여, 여러 식을 얻은 이후에 u,v를 least square method로 추정하면된다. 결국 다음과 같은 식을 구할 수 있다.

v를 구할 수 있는 전제 조건은 A^TA가 역행렬을 갖고 있어야하며, numerically stable해야한다. 따라서, A^TA의 두개 eigen value가 모두 큰 값을 갖고 있어야한다. 이러한 조건을 만족하는 지점은 "Corner point"이다! (Harris Corner Detection을 생각해보면 위의 행렬 식이 M과 비슷하다는 것을 알 수 있을 것이고, M의 eigen value의 크기에 따라서 corner, flat, edge가 결정되는데, 본 문제에서는 두 eigen value가 커야하므로, 결국 corner point가 가장 적절한 점이 되는 것이다.)


4. STIP (Space-Time Interest Point)

STIP은 Harris Corner Detection과 비슷하게, Spatio-temporal Corner Point를 찾는 것이 목적이다. 차이점은 Harris Corner Detection은 2차원에서 Corner Point를 찾는 것이고, STIP은 3차원에서 Corner Point를 찾는 것이다. 추가적으로 162개의 Descriptor를 갖는데, 이중 72개는 HoG Feature를, 90개는 HoF (Histogram of optical flow) Features를 포함한다. Gradient 방식이기 때문에 illumination change에 강인한건 덤이다. 밑의 두 식은, Harris Corner Detection의 STIP 버전이다.


5. Bag of Visual Words

이전에 배운 내용과 마찬가지로, Features를 추출한 뒤 Features를 clustering하여 representative feature를 추출하는 과정을 거쳐 대표적인 visual words를 확립한다. 그 다음 새로온 이미지에 features를 추출한 다음에 해당하는 visual words에 표를 던지고 histogram을 구해 classification을 진행한다. Spatial Pyramid Matching을 이전 image에 사용한 것과 마찬가지로 Video에서는 시간까지 고려한 Spatio-temporal Pyramid 방법을 사용하여 세세한 공간적인 정보를 고려할 수 있다.



'Computer Vision > CV' 카테고리의 다른 글

CV 7. Metric Learning  (1) 2018.12.26
CV 6. Classification  (0) 2018.12.23
CV 5. Geometry  (0) 2018.12.23
CV 4. Camera Model  (0) 2018.12.22
CV 3. Fitting  (0) 2018.12.21
Comments