본문 바로가기
딥러닝/cs231n

11. Detection and Segmentation

by sonysame 2024. 5. 24.

 

1. Semantic Segmentation

이미지의 픽셀들이 어떤 클래스에 속하는지 예측

미리 클래스의 수와 종류를 정해놓아야 하며 개별 객체가 구분되지 않는다.

 

1) Sliding Window기법은 이미지를 쪼갠 후 어느 카테고리에 들어가는지 찾아냄

계산량이 매우 많음

2) Fully Convolutional Network

모든 픽셀에 대해 카테고리 score 계산 이것도 계산량이 매우 많음

3) Downsampling 후 Upsampling

Upsampling: Unpooling, Max Unpooling, Transpose Convolution...

 

2. Classification+Localization

이미지를 분류 후 객체의 위치를 박스침

Localizatoin은 object가 어디에 있는지 파악하는 것을 의미

localization은 object detection 문제와는 달리 관심있는 객체가 오직 하나

bounding box를 산출하는 것은 classification이 아닌 regression 문제

 

두개의 loss를 합친 multi-task loss

->유사하게 human pose estimation에서도 활용 가능

사람의 이미지가 입력, 출력은 사람의 각 관절 위치

 

3. Object Detection

 

한 이미지 내에서 object를 탐지하고 어떤 class에 속하는지 정하는 것

class의 종류는 미리 정의해야 하지만 탐지해야할 object가 몇 개인지는 정해져 있지 않음. regression으로 할 수 없음!

 

1) Region Proposal: 이미지에서 blobby한 부분을 감지해서 여기에 물체가 있는 것 같다라고 예측되는 region을 1000~2000개 정도 추림. 

2) R-CNN: Regional Proposal 방식으로 추출한 ROI(Regions of Interest)를 ConvNet을 거쳐서 classification

마지막에 Bounding Box를 수정하는 과정을 거침. R-CNN은 매우 느림

3) Fast R-CNN

이미지를 통째로 ConvNet에 넣어 추출한 feature map에서 ROI를 추출하고 이후 과정은 R-CNN과 동일

대부분의 시간은 regional prroposal 차지함. 

 

4) Faster R-CNN

Regional Proposal을 network로 따로 만들어 전체 network 내부에서 처리하지 않아 매우 빨라짐. 

 

5) YOLO / SSD

: detection without proposals

거대한 CNN을 통과하면 모든 것을 담은 예측값이 한번에 나온다.: bbox offset과 confidence score, classification score

 

 

4. Instance Segmentation

: Semantic Segmentation + Object Detection

각각의 object가 어떤 클래스에 속하는지와 각 pixel이 어떤 클래스에 속하는지

1) Mask R-CNN

-> pose estimation도 가능하다. 

'딥러닝 > cs231n' 카테고리의 다른 글

12. Visualizing and Understanding  (0) 2024.05.24
10. Recurrent Neural Networks  (0) 2024.05.06
9. CNN Architectures  (0) 2024.05.05
8. Deep Learning Software  (0) 2024.04.29
7. Training Neural Networks 2  (0) 2024.04.29