Artificial Intelligence

[논문 리뷰] Representation Learning via Invariant Causal Mechanisms

은최 2026. 2. 10. 15:42

 

 

논문 링크: 

 

Representation Learning via Invariant Causal Mechanisms

Self-supervised learning has emerged as a strategy to reduce the reliance on costly supervised signal by pretraining representations only using unlabeled data. These methods combine heuristic proxy classification tasks with data augmentations and have achi

arxiv.org

 

출처: J. Mitrovic, B. McWilliams, J. Walker, L. Buesing, and C. Blundell, "Representation Learning via Invariant Causal Mechanisms," arxiv:2010.07922, 2020.


요약

 

   라벨 없이도 표현을 학습하는 self supervised learning 방법은 라벨 데이터 비용을 줄이고 성능도 뛰어나 주목받고 있다. Self supervised learning은 heuristic한 proxy 분류 과제와 데이터 종강 조합에서 좋은 성능을 얻었지만 이에 대한 이론적 설명이 부족한 상황이다.

 

   저자들은 자기지도학습을 인과 그래프로 분석하며 augmentation이 달라져도 같은 예측을 하도록 하는 invariant prediction 개념을 소개한다. 이러한 제한에 기반한 Representation Learning via Invariant Causal Mechanisms (RELIC) 방법은 proxy target을 여러 augmentation에서도 동일하게 예측하도록 invariance regularizer를 추가한다.

 

   또한 이론적인 기여로 Mutual information 기반 설명 대신 인과적 불변성이 contrastive learning의 성공 요인임을 제시하기도 한다. 실험 결과, ImageNet에서 robustness와 OOD generalization이 크게 향상되었으며 Atari 게임에서도 57개 중 51개에서 인간 수준 초과 성능을 달성했다.


이 논문은 인과적 관점에서의 분석을 위해 다음과 같은 세 가지 가정을 한다.

  • 데이터는 콘텐츠(C)와 스타일(S)이라는 두 요인으로부터 생성된다.
  • 다운스트림 작업(Y)은 콘텐츠(C)에만 의존하고, 스타일(S)에는 의존하지 않는다.
  • 콘텐츠(C)와 스타일(S)은 서로 독립이다.

좋은 representation은 스타일 변화(S)에 대해 불변(invariant) 해야 한다. 즉, augmentation이 달라져도 모델의 예측이 흔들리지 않는 invariant prediction이 필요하다. 이러한 원리가 RELIC 설계의 핵심 철학이다. 

 

그림 (b)는 두 augmentation을 거친 이미지가 두 encoder를 거쳐서 예측 분포를 얻은 후에 cross entropy로 representation을 구분 가능하게 만들고, 가운데의 KL을 통해 augmentation 간 예측을 동일하게 만드는 과정을 보여준다.


Invariant prediction 

  • augmentation이 달라져도 representation을 통해 예측되는 proxy target의 분포는 같아야 한다.

\[
p^{\mathrm{do}(a_i)}\!\left( Y^{R} \mid f(X) \right)
=
p^{\mathrm{do}(a_j)}\!\left( Y^{R} \mid f(X) \right),
\qquad
\forall\, a_i, a_j \in \mathcal{A}.
\]

 

RELIC objective

  • 첫 번째 항은 같은 이미지에서 나온 두 augmentation의 유사도(분자)는 높게 만들고 다른 이미지에서 나온 것(분모)과는 유사도가 낮게 만든다. 
  • 두 번째 항은 서로 다른 augmentation을 적용했을 때 proxy target의 예측 분포가 서로 같아지도록 강제한다

\[
-\sum_{i=1}^{N} \sum_{a_{lk}}
\log
\frac{
    \exp\!\left( \phi\!\left( f(x_i^{a_l}),\, h(x_i^{a_k}) \right) / \tau \right)
}{
    \sum_{m=1}^{M}
    \exp\!\left( \phi\!\left( f(x_i^{a_l}),\, h(x_m^{a_k}) \right) / \tau \right)
}
\;+\;
\alpha
\sum_{a_{lk},\, a_{qt}}
KL\!\left(
    p^{\mathrm{do}(a_{lk})},
    p^{\mathrm{do}(a_{qt})}
\right)
\]


Theorem 1: 더 세밀한(refined) proxy task( \(Y^{R}\) )에서 불변성(invariance)을 만족하면, 더 큰 downstream task( \(Y_{t}\) )에서도 자동으로 불변성이 성립한다. 즉, refinement에서 잘 학습하면 downstream task에서도 잘 된다.

 

\[
p^{\mathrm{do}(s_i)}\!\left( Y^{R} \mid f(X) \right)
=
p^{\mathrm{do}(s_j)}\!\left( Y^{R} \mid f(X) \right)
\;\;\Longrightarrow\;\;
p^{\mathrm{do}(s_i)}\!\left( Y_{t} \mid f(X) \right)
=
p^{\mathrm{do}(s_j)}\!\left( Y_{t} \mid f(X) \right),
\quad
\forall\, t \in \{1,\dots,T\},\; s_i, s_j \in \mathcal{S}.
\]

 

예를 들어 downstream task:

  • 고양이 vs 개 분류

fine-grained refinement task:

  • 고양이 품종 20개 + 개 품종 50개 분류

   linear discriminant ratio는 representation이 선형 분류기로 얼마나 잘 구분되는지를 나타내는 개념으로, RELIC이 강조하는 representation의 품질을 평가하는 핵심 지표다. ReLIC은 이 지표에서 다른 방법들보다 더 큰 선형 분류성을 가졌다.



   RELIC을 최근 자기 지도학습 방법들과 비교한 결과 다른 방법들보다 더 좋은 결과를 나타냈다. Atari 게임에선 57개 중 51개 게임에서 인간의 실력을 넘어섰다.