본문 바로가기
Vision/Theory ( 이론 )

[몽돌] Vision 에 대해서 알아야 하는 이유 - 전반적인 Course Review

by 몽돌리스트 2021. 9. 2.
반응형

왜 Vision에 대해 알아야 하는지에 대해 말해보고자 합니다.

( 강의 자료를 토대로 만든겁니다 :) - 즉, 저를 위한 자료입니다. ) 

 

참고 블로그는 다음과 같습니다.

1번 / 2번

 

우리는 3차원에 살면서도 3차원 세상에 사는 것처럼 행동하고 지내는 것일지도 모릅니다.

왜냐하면 눈 혹은 카메라로 보는 세상은 2차원이기 때문입니다.

 

- We need to know how to recover "depth information" 

- Also, We could discuss how this visual information can be processed for the purpose 

  ( Applications : pose / motion estimation ... etc )

 

위의 내용들을 조금 더 확장해보자면,

 

Questions

– How to recover three-dimensional information from images ?

– How to use multiple views on the same scene ?

– How to estimate motion and pose in space from visual data?

– How to use this knowledge in applications?

 

Motivation

– We live and act in a three-dimensional world. How our visual perception provides us with such a rich, reliable and precise description of our environment has been the subject of important studies during the second half of the last century. One fundamental problem is that the visual information gathered by the eyes, or by cameras, is essentially two dimensional. So we will study how to recover depth information, focusing on multiple views, geometrical approaches. We will also discuss how this visual information can be processed for a variety of applications.

 

 

간단한 오버뷰 

 

다음과 같은 그림을 보게되면, 

제기될 수 있는 문제들은 다음과 같습니다.

 

1. Calibration

2. Matching

3. Reconstruction

 

What is tha Calibration?

-> 하나 혹은 2개 이상의 그림들이 있을 때, 

-> 카메라의 정보를 토대로 해당 물체의 상태를 정확하게 파악하는 것.

    ( 앞서 말한 것과 같이, Depth information 이 매우 중요한 포인트 )

 

-> 여기서 우리가 알아야 하는 것은?

-> 카메라 내부 정보 ( Intrinsic parameters ) 

-> 카메라 외부 정보 ( extrinsic parameters ) : 카메라와 물체 사이의 관계를 파악하는 것 

( 아마도 내부 정보를 토대로 외부 정보를 추출해 낼 수 있을 것이라 판단 - 피셜 ) 

 

What is the Matching? / Reconstruction?

-> it is Correspondence Problem

 

 

이를 위해서는 다음과 같은 방법들을 통해 정확도를 높여줍니다.

하지만 여기에서도 문제가 있으니, 이를 나타내는 것이 Uncertainty 입니다.

 

 

또한 정확한 Depth information을 얻기 위해서 PCL (point cloud library) 을 사용하기도 합니다.

여기서 Depth 에 대해 알아보면 좋을 것 같습니다.

Depth Cues : 깊이 단서 

 

 

 

 

입체감을 지각할 수 있는 원리는 다양한 "깊이 인지 요인"(Cues) 이 결합해서 생깁니다.

Oculumotor (nerve) 는 신경계의 하나로 보면 될 듯 합니다.

*눈 돌림 신경이라고 하면 될 것 같습니다.

 

그리고 사람의 눈을 바라보면 우리는 2가지를 생각할 수 있습니다.

 

1. 우리는 2개의 눈을 가지고 세상을 바라봅니다. 

    * 카메라는 3개 그 이상의 눈을 가질 수 있겠죠?

 

2. 세상을 바라보는 동안에 각 눈에서 일어나는 현상입니다.

 

그렇다면, 사람의 눈을 들여다보면 좋을 것 같습니다.

다음에서 하나씩 설명하도록 하겠습니다.

 


 

1. 우리는 2개의 눈을 가지고 세상을 바라봅니다. 

Binocular ( 양안 ) - 사람 눈을 생각하시면 됩니다.

크게 2가지 운동이 있는데, 

 

Binocular Disparity : 양안시차 

Convergence : 안구 수렴 / 폭주 

 

입니다.

 

사람의 두 눈은 서로 약 6.5cm 정도 떨어져있기 때문에,

어떤 문체를 바라볼 때 양안의 망막에 서로 다른 2차원의 상이 인식이 됩니다.

이때 이와 같은 간격의 차이를 "양안 시차(Binocular Disparity)"라고 합니다.

 

뇌는 서로 다른 이미지를 "융합"해서 3차원의 입체감을 느낄 수 있도록 합니다.

 

또한 사람이 어떤 물체를 보게되면 각각의 상(이미지)에서 그 물체와의 특정한 각을 이루는데, 

이를 폭주 각이라고 한다. 이것을 토대돌 대상 물체와의 거리를 느끼게 됩니다.

때떄로 우리는 이것을 "Binocular Cue : Stereo" 라고 부릅니다.

What is the definition? Extracting 3D information from two different views of a scene.

 

 

만약 2개의 카메라가 *이상적으로 정면을 보고 위치해 있다면 ? 

즉, Stereo system which has parallel optical axes 

다음과 같은 식을 통해 "Depth"을 알아낼 수 있습니다.

 

 


 

2. 세상을 바라보는 동안에 각 눈에서 일어나는 현상입니다.

 

Monocular ( 단안 ) - 사람이 가진 각 눈에서 일어나는 현상을 살펴보면

여기에도 크게 2가지 운동이 있는데, 

 

Accommodation : 초점 조절

Motion parallax : 운동 시차 입니다.

 

 

초점 조절이란? 

대상물과의 거리에 따라

먼 거리 -> 수정체 얇게 이완

가까운 거리 -> 수정체 두껍게 수축

* 이런 현상을 통해 수정체의 초점 거리가 변하는 것. 

 

운동시차란?

세 번째 그림에서 보이는 것 처럼,

관측자가 이동하면서 물체를 바라볼 때, 시야 내에서 멀리 있는 것은 느리게 움직이고,

가까이 있는 것은 빠르게 움직이는 현상을 운동 시차라고 합니다.

 

또한 이 외에도, ( Perspective ) 

위에 예시 처럼 관점에 따라 즉,

시야의 크기 / 대기원근법적 투시 / 선원근법적 투시 / 중복 또는 차폐 / 음영과 그림자 등등에 따라

달라질 수 있습니다. 

 

 

와 같이 다양한 관점들이 존재 합니다. 
우리가 볼 수 있는 이미지들에게서 우리의 시각은 어떤 반응을 보이는지,

이와 같은 원리로 카메라가 만들어졌기 때문에, 우리를 이해하는 것이 때로 기술을 이해하는 것에 도움이 된다고 생각합니다. 

 

 

 

 

 

 

반응형

댓글