1. Semantic Segmentation
이미지의 픽셀들이 어떤 클래스에 속하는지 예측
미리 클래스의 수와 종류를 정해놓아야 하며 개별 객체가 구분되지 않는다.
1) Sliding Window기법은 이미지를 쪼갠 후 어느 카테고리에 들어가는지 찾아냄
계산량이 매우 많음
2) Fully Convolutional Network
모든 픽셀에 대해 카테고리 score 계산 이것도 계산량이 매우 많음
3) Downsampling 후 Upsampling
Upsampling: Unpooling, Max Unpooling, Transpose Convolution...
2. Classification+Localization
이미지를 분류 후 객체의 위치를 박스침
Localizatoin은 object가 어디에 있는지 파악하는 것을 의미
localization은 object detection 문제와는 달리 관심있는 객체가 오직 하나
bounding box를 산출하는 것은 classification이 아닌 regression 문제
->유사하게 human pose estimation에서도 활용 가능
사람의 이미지가 입력, 출력은 사람의 각 관절 위치
3. Object Detection
한 이미지 내에서 object를 탐지하고 어떤 class에 속하는지 정하는 것
class의 종류는 미리 정의해야 하지만 탐지해야할 object가 몇 개인지는 정해져 있지 않음. regression으로 할 수 없음!
1) Region Proposal: 이미지에서 blobby한 부분을 감지해서 여기에 물체가 있는 것 같다라고 예측되는 region을 1000~2000개 정도 추림.
2) R-CNN: Regional Proposal 방식으로 추출한 ROI(Regions of Interest)를 ConvNet을 거쳐서 classification
마지막에 Bounding Box를 수정하는 과정을 거침. R-CNN은 매우 느림
3) Fast R-CNN
이미지를 통째로 ConvNet에 넣어 추출한 feature map에서 ROI를 추출하고 이후 과정은 R-CNN과 동일
대부분의 시간은 regional prroposal 차지함.
4) Faster R-CNN
Regional Proposal을 network로 따로 만들어 전체 network 내부에서 처리하지 않아 매우 빨라짐.
5) YOLO / SSD
: detection without proposals
거대한 CNN을 통과하면 모든 것을 담은 예측값이 한번에 나온다.: bbox offset과 confidence score, classification score
4. Instance Segmentation
: Semantic Segmentation + Object Detection
각각의 object가 어떤 클래스에 속하는지와 각 pixel이 어떤 클래스에 속하는지
1) Mask R-CNN
-> pose estimation도 가능하다.
'딥러닝 > cs231n' 카테고리의 다른 글
12. Visualizing and Understanding (0) | 2024.05.24 |
---|---|
10. Recurrent Neural Networks (0) | 2024.05.06 |
9. CNN Architectures (0) | 2024.05.05 |
8. Deep Learning Software (0) | 2024.04.29 |
7. Training Neural Networks 2 (0) | 2024.04.29 |