논문_분석

[논문 분석]Anomaly Detection in 3D Point Clouds using Deep Geometric Descriptors

대장장ㅇi 2025. 1. 10. 15:22

Abstract

해당 모델은 Unsupercised detection 으로 데이터의 label 없이 3D Point Cloud 에서 geometric 한 anomaly detection 을 진행하고 있다.

여기에서는 Student-Teacher 구조로 진행을 하였다.

1. Teacher

  • novel self-supervised learning(dense_깊이) : 자기지도학습 사용하여 dense(촘촘한) local(세밀한) geometric descriptors 추출
  • require annotation 과정이 필요 없음

2. Student

  • 불량이 없는 point cloud로 학습한 pre-trained 된 teacher의 output 을 따라하도록 학습,
  • test data를 사용할 때, teacher 과 student 사이에 regression error 를 기반으로 anomalous structures 탐지

 


1. Introduction

목표: 2D에서 발전된 anomaly detection 방법을 기반으로, 3D point cloud를 위한 강력한 anomaly detection 방법론을 제안.

  1. 문제 배경:
    • 2D anomaly detection은 연구가 활발히 진행되었으나, 3D에서는 해결 방법이 부족.
    • 기존 3D anomaly detection은 특정 작업에 특화된 local feature 추출 및 input data의 downsampling이 많아 high-resolution 3D point cloud에는 부적합.
  2. 제안된 방법론:
    • 3D Student-Teacher (3D-ST):
      • 3D point cloud에서 작동하는 최초의 비지도 anomaly detection 기법.
      • Anomaly-free 데이터로 학습하며, 단일 순방향 패스로 기하학적 이상 위치를 고해상도 샘플에서 탐지.
      • Student 네트워크가 Teacher 네트워크의 지역적 기하학적 기술자(descriptor)를 학습.
      • 이상 점수는 추론 시 Student의 예측과 Teacher의 목표 간 회귀 오류로 계산.
    • Self-supervised training:
      • Teacher 네트워크가 local geometric descriptor를 학습하며, 디코더는 이를 기반으로 기하학 구조를 재구성.
      • 높은 해상도의 포인트 클라우드에서 intermediate subsampling 없이 anomaly score 계산 가능.
  3. 성과:
    • 최근 발표된 MVTec 3D-AD 데이터셋에서 최고 성능 기록.
    • 기존 voxel grids와 depth image 기반 방법보다 우수한 결과.

주요 기여:

  • 3D anomaly detection을 위한 student-teacher 프레임워크 확장.
  • Dense feature extraction과 receptive field 제어가 가능한 사전 학습 전략 개발.
  • High-resolution 3D point cloud anomaly localization의 새로운 기준 설정.

 


2. Related Work

2.1 Anomaly Detection in 2D

2D Anomaly Detection에서는 두 가지 주요 접근 방식이 존재:

  1. Random weight initialization: 컨볼루션 오토인코더(AE)나 GAN을 사용해 처음부터 학습.
  2. Pretrained 네트워크 활용: 사전 학습된 네트워크의 descriptor를 활용해 이상 탐지.
    • 핵심 아이디어: 이상 영역은 정상 영역과 다른 descriptor를 생성.
    • 이 방식은 random initialization보다 성능이 우수하며, 이를 3D 도메인에 적용하려는 동기를 제공.

Student-Teacher Framework (Bergmann et al.):

  • Teacher: ImageNet으로 사전 학습되어 지역적 특징을 포착하는 descriptor 출력.
  • Student: 정상 이미지만 학습해 Teacher의 descriptor를 재현.
  • Anomaly Detection: Student가 높은 회귀 오류와 예측 분산을 보이면 이상 탐지.

Salehi et al.은 단일 학생 네트워크를 사용해 단일 교사의 여러 특징 맵과 일치하도록 학습하는 방식 제안.

결론적으로, 해당 논문은 pretrained 네트워크의 우수한 성능에 착안해 3D anomaly detection에 이를 적용하려고 한다.

 

2.2 Anomaly Detection in 3D

3D Anomaly Detection의 기존 한계:

  1. Pretrained 네트워크의 Feature Vector 활용 부족:
    • 기존 방법들은 사전 학습된 네트워크의 풍부한 특징 표현력을 활용하지 않음.
    • 이는 고해상도 포인트 클라우드와 같은 복잡한 데이터에서 성능 저하를 초래.
  2. Voxel f-AnoGAN (Viana et al.):
    • GAN을 anomaly-free 데이터로 학습.
    • 인코더는 입력 데이터를 재구성하기 위해 잠재 공간(latent space) 벡터를 생성.
    • 문제점: 잠재 벡터가 pretrained 네트워크가 제공하는 고차원 표현력을 충분히 활용하지 못함.
  3. Convolutional Autoencoder (Bengs et al.):
    • 변이 오토인코더를 사용해 데이터를 저차원 병목 구조로 압축.
    • 문제점: 병목 구조가 데이터의 복잡한 정보를 충분히 보존하지 못해 고해상도 포인트 클라우드에서 성능 제한.
  4. MVTec 3D-AD Dataset (Bergmann et al.):
    • 3D 이상 탐지 알고리즘 평가를 위한 유일한 공개 데이터셋.
    • 기존 방법들이 고해상도 포인트 클라우드에서 성능이 좋지 않음을 보여줌.

결론: 기존 방법들은 pretrained 네트워크의 고차원 특징 표현을 활용하지 못함. 이를 극복하기 위해 새로운 접근법의 필요성이 제기됨.

 

2.3 Learning Deep 3D Descriptors

기존 3D 특징 추출 방법:

  1. 핸드크래프트 vs 학습 기반:
    • 초기에는 수작업으로 설계된 descriptor 사용 → 최근에는 학습 기반 접근법으로 전환.
    • 예: 3DMatch, PPFNet(지도 학습), PPF-FoldNet(비지도 학습), FCGF(희소 컨볼루션), PointContrast(자가 지도 학습).
  2. 기술적 강점:
    • 밀집 계산과 자가 지도 학습을 통해 고해상도 데이터에서 효율적으로 특징 추출.
    • 3D 회전에 불변한 특징 공간 생성.
  3. 기술적 한계:
    • 별도 패치 처리로 인해 계산 비용이 증가.
    • 초기 복셀화 과정에서 이산화 부정확성(discretization inaccuracy) 발생.
    • 3D anomaly detection에서는 회전된 구조가 중요한 정보지만 이를 반영하지 못함.

해결 방향:

  • local rotation 정보를 반영할 수 있는 새로운 학습 전략 필요.
  • 이상 탐지와 같은 특수 응용 분야에 적합한 맞춤형 특징 추출기 개발 필요.

3. Student-Teacher Anomaly Detection in Point Cloud

해당 논문은 3D_ST 구조(self-supervised protocol)

 

T(Teacher) : anomaly-free 한 데이터로만 학습

S(Student) : T로부터 얻어진 descriptor 와 비교하여 anomaly-free 한 point cloud 로 학습

 

추론단계: S와 T 사이에 regression 오류가 증가하면 anomolous point 를 나타냄.

 

Student 네트워크 S 는 pretrained 된 Teacher 네트워크 T의 local descriptor 와 match 시키도록 학습된다. 이때 Anomaly data 가 들어오면 Student 네트워크와 Teacher 네트워크 간 Regression error 가 증가한다.

 

3.1 Self-Supervised learning of Dense Local Geometric Descriptors

입력 Point Cloud : $P \subset \mathbb{R}^3$

목적: d차원 feature vector $f_p \in \mathbb{R}^d$ 를 생성

 

* $f_p$ 란?  receptive field 내의 geometry 설명.

 

 

 

3.1.1 Local Feature Agrregation

 

Teacher 네트워크(T)의 설계 요구사항:

  1. 고해상도 포인트 클라우드를 다운샘플링 없이 각 점에 대해 효율적으로 특징 벡터 계산.
  2. 특징 벡터의 수용 영역을 명시적으로 제어 가능해야 함.

네트워크 아키텍처:

  • 입력 포인트 클라우드의 k-최근접 이웃 그래프(k-NN graph)를 구성.
  • 잔차 블록(residual block):
    • RandLA-Net에서 영감을 받아 설계.
    • 절대 좌표 의존성을 제거해 변환 불변성(translation-invariance)을 달성.
    • 입력 특징 → 공유 MLP → LFA 블록(2개) → 출력 특징 계산.
  • 지역 특징 집계(Local Feature Aggregation, LFA):
    • 입력 점의 local geometry 정보 집계.
    • 모든 p 에 대해 최근접 이웃 knn(p) 의 각 점 쌍에 대해 geometry 구한다.
    • 차이 벡터($G(p, p_j)$)를 기반으로 특징을 추출하여 평균 풀링으로 최종 벡터 생성.
    • 식: $ G(p, p_j) =(p-p_j)\odot\|(p-p_j)\|_2$

기존 방식과 차이점:

  • 기존 재구성(reconstruction) 기반 방식은 입력 데이터의 전반적인 구조를 학습하며 절대 위치를 사용 → 지역 기하학 변화 학습에는 부적합.
  • 본 방식은 차이 벡터에 의존하여 절대 위치에 불변하고, 지역적 변화를 잘 포착.

연산량 관리:

  • 기존의 다운샘플링은 연산량 감소 목적.
  • 본 방식은 sparse convolution과 k-NN graph를 활용해 연산량을 효율적으로 유지.

공유 MLP:

  • 포인트 클라우드의 모든 점에 대해 동일한 MLP를 공유하여 학습.

 

3.1.2 Reconstructing Local Receptive Field

 

1. Self-Supervised Pretraining of Teacher Network (T):

  • 목적: 특징 벡터의 지역 수용 영역을 디코딩하여 3D 포인트를 복원.
  • 구조:
    • T는 입력 포인트 클라우드를 처리해 지역 특징 벡터를 계산.
    • LFA(Local Feature Aggregation) 블록을 반복적으로 적용해 점의 수용 영역 $\mathcal{R}(p)$를 확장.
    • $\mathcal{R}(p)$는 최근접 이웃 그래프(k-NN)를 기반으로 정의:
      • $\mathcal{R}(p)$ = $\bigcup_{l=0}^L \text{knn}^l(p)$
      • $\text{knn}^l(p)$는 l-레벨 이웃을 의미하며, 이전 레벨 이웃($\text{knn}^{l-1}(p)$)의 이웃을 합산.

2. Decoder (D) 설계:

  • 역할: 특징 벡터($f_p$)를 업샘플링하여 $m$개의 3D 점 생성.
  • 과정:
    • 입력 포인트 클라우드로부터 특징 벡터 추출.
    • 무작위로 샘플링한 점 집합($Q$)에 대해, 각 점의 수용 영역($\mathcal{R}(p)$)을 계산 후 디코더로 복원.

3. Loss Function:

  • 목적: 디코더 출력과 수용 영역 간의 Chamfer 거리를 최소화.
  • Chamfer 거리 계산:
    • $\mathcal{R}(p)$는 절대 좌표의 영향을 제거하기 위해 평균($\bar{p}$)을 뺀 상대 좌표로 변환.
    • 손실 함수:
      LC=1∣Q∣∑p∈QChamfer(D(fp),R(p))\mathcal{L}_C = \frac{1}{|Q|} \sum_{p \in Q} \text{Chamfer}(D(f_p), \mathcal{R}(p))
    • 여기서 $Q$는 샘플링된 점 집합.

 

3.1.3 Data Normalization

$s = \frac{1}{|P|} \sum_{p \in P} \sum_{p_j \in \text{knn}(p) \|p - p_j\|_2}$

p와 최근접 이웃 사이의 평균 거리를 계산한 다음, 각 데이터의 샘플의 좌표를 1/s 로 스케일링한다.

 

 

3.2 Matching Geometric Feature for 3D Anomaly Detection

pretrained Teacher 네트워크 T를 이용하여 anomaly detection 을 위한 Student 네트워크 S를 학습 시키는 방법을 설명한다. 

 

1. anomaly-free point cloud dataset 에 대해 스케일링 인자 s를 계산한다.

2. T의 가중치는 전체 anomaly detection 학습동안 일정하게 유지

3. S는 T와 동일한 네트워크 아키텍처를 가지며, 균일 분포로 초기화된 random weights 를 사용한다.

4. 각 학습 point cloud $P_t \subset \mathbb{R}^3$ 은 T와 S 두 네트워크를 통과하며, 각각 모든 $p \in P_t$ 에 대해 밀집 특징 $f_p^T$ 와 $f_p^S$ 를 계산한다.

 

Loss Function

 

$\mathcal{L}_{ST} = \frac{1}{|P_t|} \sum{p \in P_t} \left\| f_p^S - \left( f_p^T - \mu \right) \text{diag}(\sigma)^{-1} \right\|_2^2$

S의 가중치는 특징별 L_2-거리 계산을 통해 T의 기하학적 기술자를 재현하도록 최적화된다.

 

 

 

Anomaly Score During Inference

 

$A(p) = \left\| f_p^S - \left( f_p^T - \mu \right) \text{diag}(\sigma)^{-1} \right\|_2$

추론 시, Test Point Cloud $P_i \subset \mathbb{R}^3$ 의 각 점 $p \in P_i$ 에 대해 이상점수 A(p) 를 도출한다.