OpenCV 4로 배우는 컴퓨터 비전과 머신 러닝/ 객체 검출

템플릿 매칭

  • 입력 영상에서 작은 크기의 부분 영상 위치를 찾아내고 싶은 경우에 주로 템플릿 매치(template matching) 기법을 사용한다. 
    • 여기서 템플릿(template)은 찾고자 하는 대상이 되는 작은 크기의 영상을 의미한다.
  • 아래 그림은 템플릿 매칭의 동작 방식이다.
    • (a)와 같이 템플릿 영상을 입력 영상 전체 영역에 대해 이동하면서 템플릿 영상과 입력 영상 부분 영상과의 유사도(similarity) 또는 비유사도(dissimilarity)를 계산한다.
    • 유사도를 계산할 경우에는 템플릿 영상과 비슷한 부분 영상 위치에서 값이 크게 나타나고, 반대로 비유사도를 계산할 경우 템플릿 영상과 비슷한 부분에서 값이 작게 나타난다.

  • OpenCV에서는 matchTemplate() 함수를 이용하여 템플릿 매칭을 수행할 수 있다.
    • matchTemplate() 함수는 입력 영상 image에서 템플릿 영상 templ을 이용하여 템플릿 매칭을 수행하고 그 결과로 생성되는 유사도 맵 또는 비유사도 맵을 result 인자로 반환한다.
    • 만약 image 영상의 크기가 W x H이고 templ 영상의 크기가 w x h 인경우, result 행렬의 크기는 (W-w+1) x (H-h+1)로 결정된다.
    • matchTemplate() 함수에서 템플릿 영상과 입력 영상 간의 비교 방식은 method 인자로 설정할 수 있다. method인자는 TemplateMatchModes 열거형 상수 중 하나를 지정할 수 있다.
TemplateMatchModes 설명
TM_SQDIFF

제곱차 매칭 방법
R(x, y) = \sum_{x', y'}(T(x', y') - I(x+x', y+y'))^{2}

TM_SQDIFF_NORMED 정규화된 제곱차 매칭 방법
R(x, y) = { \sum_{x', y'}(T(x', y') - I(x+x', y+y'))^{2} \over \sqrt{\sum_{x', y'}T(x', y')^{2} \cdot \sum_{x', y'}I(x+x', y+y')^{2}} }
TM_CCORR 상관관계 매칭 방법
R(x, y) = \sum_{x', y'}T(x', y') \cdot I(x+x', y+y')
TM_CCORR_NORMED 정규화된 상관관계 매칭 방법
R(x, y) = { \sum_{x', y'}T(x', y') \cdot I(x+x', y+y') \over \sqrt{ \sum_{x', y'}T(x', y')^{2} \cdot I(x+x', y+y')^{2}}}
TM_CCOEFF 상관계수 매칭 방법
R(x, y) = \sum_{x', y'}T'(x', y') \cdot I'(x+x', y+y')
T'(x', y') = T(x', y') - {1 \over w \cdot h} \cdot \sum_{x'', y''}T'(x'', y'')
I'(x+x', y+y') = I(x+x', y+y') - {1 \over w \cdot h} \cdot \sum_{x'', y''} I(x+x'', y+y'')
TM_CCOEFF_NORMED 정규화된 상관계수 매칭 방법
R(x, y) = { \sum_{x', y'}T'(x', y') \cdot I'(x+x', y+y') \over \sqrt{\sum_{x', y'}T'(x', y')^{2} \cdot \sum_{x',y'}I'(x+x', y+y')^{2}} }
  • TM_SQDIFF는 제곱차(squared difference) 매칭 방법을 의미하며, 이 경우 두 영상이 완벽하게 일치하면 0이 되고, 서로 유사하지 않으면 0보다 큰 양수를 갖는다.
  • TM_CCORR는 상관관계(correlation) 매칭 방법을 의미하며, 이 경우 두 영상이 유사하면 큰 양수가 나오고 유사핮 ㅣ않으면 작은 값이 나온다.
  • TM_CCOEFF는 상관계수(correlation coefficient) 매칭 방법을 의미하며, 이는 비교할 두 영상을 미리 평균 밝기로 보정한 후 상관관계 매칭을 수행하는 방식이다. TM_CCOEFF 방법은 두 영상이 유사하면 큰 양수가 나오고 유사하지 않으면 0에 가까운 양수 또는 음수가 나온다.
  • TM_SQDIFF, TM_CCORR, TM_CCOEFF 방법에 대해 영상의 밝기 차이 영향을 줄여 주는 정규화 수식이 된 TM_SQDIFF_NORMED, TM_CCORR_NORMED, TM_CCOEFF_NORMED 방법도 제공된다.
    • TM_CCORR_NORMED 방법은 결과값이 0-1 사이의 실수로 나타나고, TM_CCOEFF_NORMED 방법은 -1에서 1사이의 실수로 나타난다. 두 방법 모두 결과가 1에 가까울 수록 매칭이 잘 되었음을 의미한다.
  • 여러 매칭 방법 중에서 상관계수 매칭 방법이 좋은 결과를 제공하는 것으로 알려져 있다.
    • 그러나 계산 수식이 복잡하고 실제 동작시 연산량이 많다는 점을 고려해야 한다.
    • 제곱차 매칭 방법을 사용할 경우, result 결과 행렬에서 최솟값 위치를 가장 매칭이 잘 된 위치로 선택해야 한다.
    • 반면 상관관계 또는 상관계수 매칭 방법을 사용할 경우에는 result 결과 행렬에서 최댓값 위치가 가장 매칭이 잘 된 위치이다.
    • 참고로 result 행렬에서 최솟값 또는 최댓값 위치는 OpenCV의 minMaxLoc() 함수를 이용하여 알아낼 수 있다.
void template_matching()
{
Mat img = imread("circuit.bmp", IMREAD_COLOR);
Mat templ = imread("crystal.bmp", IMREAD_COLOR);

if (img.empty() || templ.empty())
{
cerr << "Image load failed!" << endl;
return;
}

img = img + Scalar(50, 50, 50);

Mat noise(img.size(), CV_32SC3);
randn(noise, 0, 10);
add(img, noise, img, Mat(), CV_8UC3);

Mat res, res_norm;
matchTemplate(img, templ, res, TM_CCOEFF_NORMED);
normalize(res, res_norm, 0, 255, NORM_MINMAX, CV_8U);

double maxv;
Point maxloc;
minMaxLoc(res, 0, &maxv, 0, &maxloc);
cout << "maxv: " << maxv << endl;

rectangle(img, Rect(maxloc.x, maxloc.y, templ.cols, templ.rows), Scalar(0, 0, 255), 2);

imshow("templ", templ);
imshow("res_norm", res_norm);
imshow("img", img);

waitKey(0);
destroyAllWindows();
}
  • Note) 템플릿 매칭은 알고리즘 특성상 입력 영상이 최전되거나 크기가 변경되면 제대로 동작하지 않는다. 또한 찾고자 하는 템플릿 영사잉 다른 객체에 의해 가려져도 좋은 결과를 기대할 수 없다. 이런 경우에는 템플릿 매칭 방법보다는 특징점 매칭 기법을 사용하는 것이 낫다.

캐스게이드 분류기와 얼굴 검출

  • OpenCV에서 제공하는 얼굴 검출 기능은 2001년 비올라(P. Viola)와 존스(M. Jones)가 발표한 부스팅(boosting) 기반의 캐스케이드 분류기(cascade classifier) 알고리즘 기반으로 만들어졌다.
    • 비올라와 존스가 개발한 객체 검출 알고리즘은 기본적으로 다양한 객체를 검출할 수 있지만, 특히 얼굴 검출에 적용되어 속도와 정확도를 인정받은 기술이다.
  • 비올라-존스 얼굴 검출 알고리즘은 기본적으로 영상은 24 x 24 크기로 정규화한 후, 유사-하르필터(Haar-like filter) 집합으로부터 특징 정보를 추출하여 얼굴 여부를 판별한다.
    • 유사-하르 필터란 흑백 사각형이 서로 붙어 있는 형태로 구성된 필터이며, 24 x 24 영상에서 만들 수 있는 유사-하르 필터의 예는 아래 그림과 같다.
    • 유사-하르 필터 형태에서 흰색 영역 픽셀 값은 모두 더하고, 검은색 영역 픽셀 값은 모두 빼서 하나의 특징 값을 얻을 수 있다.
    • 사람의 정면 얼굴 형태가 전형적으로 밝은 영역(이마, 미간, 볼 등)과 어두운 영역(눈썹, 입술 등)이 정해져 있기 때문에 유사-하르 필터로 구한 특징 값은 얼굴을 판별하는 용도로 사용할 수 있다.

  • 그러나 24 x 24 크기에서 유사-하르 필터를 약 18만개 생성할 수 있고, 픽셀 값의 합과 차를 계산하는 것이 시간이 오래 걸린다는 점이 문제가 되었기 때문에 비올라와 존스는 에이다부스트(adaboost) 알고리즘과 적분 영상(integral image)를 이용하여 이 문제를 해결하였다.
    • 에이다부스트 알고리즘은 수많은 유사-하르 필터 중에서 얼굴 검출에 효과적인 필터를 선별하는 역할을 수행한다.
    • 실네 논문에서는 약 6000개의 유사-하르 필터를 선별하였으며, 이 중 얼굴 검출에 가장 유용하다고 판별된 유사-하르 피러의 일부가 아래 그림과 같다.

  • 에이다부스트 알고리즘에 의해 24 x 24 부분 영상에서 검사할 특징 개수가 약 6000개로 감소하였지만, 입력 영상 전체에서 부분 영상을 추출해서 검사해야 하기 때문에 여전히 연산량이 부담될 수 있다.
    • 더구나 나타날 수 있는 얼굴 크기가 다양하기 때문에 보통 입력 영상의 크기를 줄여 가면서 전체 영역에 대한 검사를 다시 수행해야 한다.
    • 비올라와 존스는 대부분의 영상에 얼굴이 한두 개 있을 뿐이고 나머지 대부분의 영역은 얼굴이 아니라는 정메서 캐스케이드(cascade) 구조라는 새로운 방식을 도입하여 얼굴이 아닌 영역을 빠르게 걸러 내는 방식을 사용한다.
  • 아래 그림은 얼굴이 아닌 영역을 걸러 내는 캐스케이드 구조이다.
    • 캐스케이드 구조 1단계에서는 얼굴 검출에 가장 유용한 유사-하르 필터 하나를 사용하여, 얼굴이 아니라고 판단되면 이후의 유사-하르 필터 계산은 수행하지 않는다.
    • 1단계를 통과하면 2단계에서 유사-하르 필터 다섯 개를 사용하여 얼굴이 아닌지를 검사하고, 얼굴이 아니라고 판단되면 이후 단계의 검사는 수행하지 않는다.
    • 이러한 방식으로 얼굴이 아닌 영역을 빠르게 제거함으로써 비올라-존스 얼굴 검출 알고리즘은 다른 얼굴 검출 방식보다 약 15배 빠르게 동작하는 성능을 보여줬다.

  • OpenCV는 비올라-존스 알고리즘을 구형하여 객체를 분류할 수 있는 CascadeClassifier 클래스를 제공한다.
    • CascadeClassifier 클래스는 미리 훈련된 객체 검출 분류기 XML 파일을 불러오는 기능과 주어진 영상에서 객체를 검출하는 기능으로 이루어져있다.
    • CascadeClassifier 객체를 생성한 후에 미리 훈련된 분류기 정보를 불러올 수 있는데, 분류기 정보는 XML 파일 형식으로 저장되어 있으며, OpenCV는 미리 훈련된 얼굴 검출, 눈 검출 등을 위한 분류기 XML 파일을 제공한다.
    • 이러한 미리 훈련된 분류기 XML 파일은 %OPENCV_DIR%\etc\haarcascades 폴더에 존재한다.
    • 이 폴더에서 찾을 수 있는 XML 파일 이름과 검출 대상에 대한 설명은 아래 표와 같다.
    • OpenCV는 하나의 검출 대상에 대해 서로 다른 방법으로 훈련된 여러 개의 XML 파일을 제공한다.
XML 파일 이름 검출 대상
haarcascade_frontalface_default.xml
haarcascade_frontalface_alt.xml
haarcascade_frontalface_alt2.xml
haarcascade_frontalface_alt_tree.xml
정면 얼굴 검출
haarcascade_profileface.xml 측면 얼굴 검출
haarcascade_smile.xml 웃음 검출

haarcascade_eye.xml
haarcascade_eye.tree_eyeglasses.xml
haarcascade_lefteye_2splits.xml
haarcascade_righteye_2splits.xml

눈 검출
haarcascade_frontalcatface.xml
haarcascade_frontalcatface_extended.xml
고양이 얼굴 검출
haarcascade_fullbody.xml 사람의 전신 검출
haarcascade_upperbody.xml 사람의 상반신 검출
haarcascade_lowerbody.xml 사람의 하반신 검출
haarcascade_russial_plate_number.xml
haarcascade_licence_plate_rus_16statges.xml
러시아 자동차 번호판 검출
  • XML 파일을 정상적으로 불러왔다면 CascadeClassfier::detectMultiScale() 멤버 함수를 이용하여 객체 검출을 수행할 수 있다.
    • CascadeClassfier::detectMultiScale() 함수는 입력 영상 image에서 다양한 크기의 객체 사각형 영역을 검출한다. 만약 입력 영상 image가 3채널 컬러 영상이면 함수 내부에서 그레이스케일 형식으로 변환하여 객체를 검출한다.
    • 각각의 사각형 영역 정보는 Rect 클래스를 이용하여 표현하고 vector<Rect> 타입의 인자 objects에 검출된 모든 사각형 정보가 저장된다.
    • scaleFactor 인자는 검색 윈도우의 확대 비율을 지정한다.
    • CascadeClassfier::detectMultiScale() 함수는 다양한 크기의 얼굴을 검출하기 위하여 처음에는 작은 크기의 검색 윈도우를 이용하여 객체를 검출하고 이후 scaleFactor 값의 비율로 검색 윈도우 크기를 확대시키면서 여러 번 객체를 검출한다.
    • minNeighbors 인자에는 검출할 객체 영역에서 얼마나 많은 사각형이 중복되어 검출되어야 최종적으로 객체 영역으로 설정할지를 지정한다. minNeighbors 값을 기본값인 3으로 설정하면 검출된 사각형이 최소 3개 이상 중첩되어야 최종적으로 객체 영역으로 판단한다.
void detect_face()
{
Mat src = imread("kids.png");

if (src.empty())
{
cerr << "Image load failed!" << endl;
return;
}

CascadeClassfier classfier("haarcascade_frontalface_default.xml");

if (classifier.empty())
{
cerr << "XML load failed!" << endl;
return;
}

vector<Rect> faces;
classifier.detectMultiScale(src, faces);

for (Rect rc : faces)
{
rectangle(src, rc, Scalar(255, 0, 255), 2);
}

imshow("src", src);

waitKey(0);
destroyAllWindows();
}
  • 만일 얼굴 안에서 눈을 검출하고자 한다면, 먼저 얼굴을 검출하고 얼굴 영역 안에서만 눈을 검출하는 것이 효율적이다.
void detect_eyes()
{
Mat src = imread("kids.png");

if (src.empty())
{
cerr << "Image load failed!" << endl;
return;
}

CascadeClassfier face_classfier("haarcascade_frontalface_default.xml");
CascadeClassfier eye_classfier("haarcascade_eye.xml");

if (face_classifier.empty() || eye_classifier.empty())
{
cerr << "XML load failed!" << endl;
return;
}

vector<Rect> faces;
classifier.detectMultiScale(src, faces);

for (Rect face : faces)
{
rectangle(src, face, Scalar(255, 0, 255), 2);

Mat faceROI = src(face);
vector<Rect> eyes;
eye_classifier.detectMultiScale(faceROI, eyes);

for (Rect eye : eyes)
{
Point center(eye.x + eye.width / 2, eye.y + eye.height / 2);
circle(faceROI, center, eye.width / 2, Scalar(255, 0, 0), 2, LINE_AA);
}
}

imshow("src", src);

waitKey(0);
destroyAllWindows();
}

HOG 알고리즘과 보행자 검출

  • HOG(Histograms of Oriented Gradients)는 그래디언트 방향 히스토그램을 의미한다.
    • 다랄(N. Dalal)과 트릭스(B. Triggs)는 사람이 서 있는 영상에서 그래디언트를 구하고, 그래디언트의 크기와 방향 성분을 이용하여 사람이 서 있는 형태에 대한 특징 벡터를 정의하였다. 그리고 머신 러닝의 일종인 서포트 벡터 머신(SVM, Support Vector Machine) 알고리즘을 이용하여 입력 영상에서 보행자 위치를 검출하는 방법을 제안하였다.
  • 아래 그림을 예로 HOG를 계산하는 방법에 대해 설명해 보겠다.
    • 보행자 검출을 위한 HOG는 기본적으로 64 x 128 크기의 영상에서 계산한다. HOG 알고리즘은 먼저 입력 영상으로부터 그래디언트를 계산한다. 그래디언트는 크기와 방향 성분으로 계산하며, 방향 성분은 0도부터 180도까지로 설정한다.
    • 그 다음 입력 영상을 8 x 8 크기 단위로 분할하는데, 각각의 8 x 8 부분 영상을 셀(cell)이라 한다. 64 x 128 영상에서 셀은 ㅏ로 방향으로 8개, 세로 방향으로 16개 생성된다.
    • 각각의 셀로부터 그래디언트 방향 성분에 대한 히스토그램을 구하며, 이때 방향 성분을 20도 단위로 구분하면 총 9개의 빈으로 구성된 방향 히스토그램이 만들어진다. 그리고 인접한 4개의 셀을 합쳐서 블록(block)이라고 정의한다.
  • 아래 그림의 (b)에서 노란색 실선은 셀을 구분하는 선이고, 빨간색 사각형은 블록 하나를 나타낸다.
    • 하나의 블록에는 네 개의 셀이 있고, 각 셀에는 9개의 빈으로 구성된 히스토그램 정보가 있으므로 블록 하나에는 총 36개의 실수 값으로 이루어진 방향 히스토그램 정보가 추출된다.
    • 블록은 가로와 세로 방향으로 각각 한 개의 셀만큼 이동하면서 정의한다. 그러므로 64 x 128 영상에서 블록은 가로 방향으로 7개, 세로 방향으로 15개 정의할 수 있다.
    • 결국 영상에서 105개의 블록이 추출될 수 있고, 전체 블록에서 추출되는 방향 히스토그램 실수 값 개수는 3780개가 된다. 이 3780개의 실수 값이 64 x 128 영상을 표현하는 HOG 특징 벡터 역할을 한다.
    • 아래 그림의 (c)는 각 셀에서 계산된 그래디언트 방향 히스토그램을 비주얼하게 표현한 결과이다.

  • 다랄과 트릭스는 수천 장의 보행자 영상과 보행자가 아닌 영상에서 HOG 특징 벡터를 추출하였고, 이 두 특징 벡터를 구분하기 위해 SVM 알고리즘을 사용했다.
    • SVM은 두 개의 클래스를 효과적으로 분리하는 능력을 가진 머신 러닝 알고리즘으로 다랄과 트릭스는 수천 개의 보행자 특징 벡터와 보행자가 아닌 특징 벡터를 이용하여 SVM을 훈련시켰고, 효과적인 보행자 검출 방법을 완성시켰다.
    • HOG와 SVM을 이용한 객체 검출 기술은 이후 보행자 검출 뿐만 아니라 다양한 형태의 객체 검출에서도 응용되었다.
  • OpenCV에서는 HOG 알고리즘을 구현한 HOGDescriptor 클래스를 제공한다.
    • HOGDescriptor 클래스를 이용하면 특정 객체의 HOG 기술자를 쉽게 구할 수 있다. 또한 HOGDescriptor  클래스는 보행자 검출을 위한 용도로 미리 계산된 HOG 기술자 정보를 제공한다.
    • HOGDescriptor 클래스를 이용하여 원하는 객체를 검출하려면 먼저 검출할 객체에 대해 훈련된 SVM 분류기 계수를 HOGDescriptor::setSVMDetector() 함수에 등록해야 한다.
    • 보행자 검출이 목적이라면 HOGDescriptor::getDefaultPeopleDetector() 함수가 반환한 분류기 계수를 HOGDescriptor::setSVMDetector() 함수 인자로 전달하면 된다.
    • HOG 기술자를 이용하여 실제 입력 영상에서 객체 영역을 검출하려면 HOGDescriptor::detectMultiScale() 멤버함수를 이용하면 된다.
VideoCapture cap("vtest.avi");

if (!cap.isOpened())
{
cerr << "Video open failed!" << endl;
return -1;
}

HOGDescriptor hog;
hog.setSVMDetector(HOGDescriptor::getDefaultPeopleDetector());

Mat frame;
while (true)
{
cap >> frame;
if (frame.empty())
break;

vector<Rect> detected;
hog.detectMultiScale(frame, detected);

for (Rect r : detected)
{
Scalar c = Scalar(rand() % 256, rand() % 256, rand() % 256);
rectangle(frame, r, c, 3);
}

imshow("frame", frame);

if (waitKey(10) == 27)
break;

return 0;
}

QR 코드 검출

  • 입력 영상에서 QR 코드를 인식하려면 먼저 QR 코드 세 모서리에 포함된 흑백 정사각형 패턴을 찾아 QR 코드 전체 영역 위치를 알아내야 한다.
    • 그리고 검출된 QR 코드를 정사각형 형태로 투시 변환한 후, QR 코드 내부에 포함된 흑백 격자 무늬를 해석하여 문자열을 추출해야 한다.
    • 이러한 일련의 연산은 매우 복잡하고 정교한 영상 처리를 필요로 하는데, 다행히 OpenCV는 4.0 버전부터 QR 코드를 검출하고 문자열을 해석하는 기능을 제공한다.
  • OpenCV에서 QR 코드를 검출하고 해것하는 기능은 QRCodeDetector 클래스에 구현되어 있다.
    • QRCodeDetector::detect() 함수를 이용하면 QR 코드 영역을 검출할 수 있고, QRCodeDetector::decode() 함수를 이용하면 QR 코드에 암호화 되어 있는 문자열을 검출할 수 있다.
    • QRCodeDetector::detectAndDecode()는 위 과정을 한 번에 수행하여 최종적으로 해석된 문자열을 반환한다.
void decode_qrcode()
{
VideoCapture cap(0);

if (!cap.isOpened())
{
cerr << "Camera open failed!" << endl;
return;
}

QRCodeDetector detector;

Mat frame;
while(true)
{
cap >> frame;

if (frame.empty())
{
cerr << "Frame load failed!" << endl;
break;
}

vector<Point> points;
String info detector.detectAndDecode(frame, points);

if (!info.empty())
{
polylines(frame, points, true, Scalar(0, 0, 255), 2);
putText(frame, info, Point(10, 30), FONT_HERSHEY_DUPLEX, 1, Scalar(0, 0, 255));

imshow("frame", frame);

if (waitKey(1) == 27)
break;
}
}
}
[ssba]

The author

지성을 추구하는 사람/ suyeongpark@abyne.com

댓글 남기기

This site uses Akismet to reduce spam. Learn how your comment data is processed.