출처: C. Chaccour and W. Saad, "Disentangling Learnable and Memorizable Data via Contrastive Learning for Semantic Communications," 2022 56th Asilomar Conference on Signals, Systems, and Computers, Pacific Grove, CA, USA, 2022.
요약
6G 시대엔 메타버스와 같은 차세대 응용을 위해 AI-네이티브 네트워크가 요구된다. 기존 통신 방식은 단순한 재구성 과정에 불과해 추론 능력이 부족하기에 의미 기반 semantic 통신이 대안으로 제시된다. 이 논문에선 머신 러닝을 통해 원본 데이터를 전처리하는 방법을 제안한다. 우선 대조 학습(contrastive learning)을 통해 데이터들의 인스턴스와 클러스트를 판별해 disentangle한다. 이 과정을 통해 의미적으로 유사한 데이터는 서로 밀집되는 반면 의미적으로 다른 데이터는 분리된다. 의미적 딥 클러스터(semantic deep clusters)로 형성된 데이터들은 신뢰도에 따라 순위가 매겨진다. 신뢰도가 높은 클러스트는 의미 정보를 많이 담고 있기에 semantic-rich하고 학습이 가능하며 의미 기반 언어 구축에 활용될 수 있다. 신뢰도가 낮은 클러스터는 무작위적이고 의미가 빈약하기에 학습시키지 않고 암기해 기존 통신 방식으로 전송한다. 제안한 방법은 의미 전달 효과와 표현 최소화 측면에서 좋은 성능을 보였으며 구체적으로 57.22%의 길이 감소를 보였다.
기존 연구들은 딥러닝에 기반해 sc 시스템을 표현했으나 의미 있는 정보와 그렇지 않은 정보를 disentangle하는 과정을 거치지 않았다. 이 논문에선 최초로 의미적으로 rich하거나 poor한 데이터를 구분지으며, 또한 최초로 의미적으로 유사한 데이터는 모이게 유사하지 않은 데이터는 멀어지게 만든다. 구체적으로 instance discrimination contrastive learning task 통해 의미적으로 비슷한 데이터를 구분한다. 또한 deep cluster discrimination task를 통해 같은 맥락은 cohesive하게, 다른 맥락은 disentangle시킨다.
아래 그림과 같은 sc시스템에서 송신단은 데이터 스트림 X를 Y = {Y1,...,Yn}로 의미적으로 disentangle한다. 또한 이런 Y에 대한 semantic 표현을 송신단은 Z = {Z1,...,Zn}와 같이 학습한다. Z는 Y의 최소화된, 효율적인, 일반화 가능한 표현이다. 수신단에선 수신한 Zi를 기반으로 semantic 요소 Yi를 복원해낸다. SC에선 단순한 비트열 통신을 구조화된 정보 전송으로 변환할 수 있는 semantic language가 필요하다. 이 언어는 L = (Xi, Zi)로 정의되며 이는 Yi에 기반해 semantic 의미를 갖는 Zi를 복원해내는 사전과 같다.

기존 통신에선 정보량을 엔트로피로 표현했지만 SC에서 엔트로피는 송신단의 확률에만 의존하고 의미 정보를 담지 못하기 때문에 엔트로피 대신 언어 복잡도(language complexity)를 사용한다. 언어 복잡도에 대한 수식은 아래와 같으며 이 중 첫번째 항은 데이터 스트림과 의미 표현 사이의 cross-entropy의 평균을 나타낸다. 두번째 항은 사전 분포 ζ와 사후 분포 Λ사이의 KL 다이버젼스로 의미 표현을 학습한 후의 차이량을 의미한다.
\[
\Gamma(\mathcal{L}, \zeta, \Lambda) =
\mathbb{E}_{\theta \sim \Lambda(\theta \mid \mathcal{L})}
\left\{ L_{\mathcal{L}}\left(p_{\theta}(Z_i \mid X_i)\right) \right\}
+ \beta \, KL\left(\Lambda(\theta \mid \mathcal{L}) \,\|\, \zeta(\theta)\right)
\]
데이터 스트림 X를 분리하지 않고 있는 그대로 사용하는 것은 의미 표현을 분리하지 않아 높은 언어 복잡도를 가질 수 있다. 또한, disentangle을 거치지 않을 경우 기존의 의미 표현을 그대로 암기하기만 하는 마치 overfitting과 같은 문제에 갇힐 수 있다. 이런 문제를 해결하기 위해 학습가능한 Xl과 Xm을 분리한다. Xl은 구조적, 의미적으로 풍부하기에 semantic 언어를 만드는데 사용된다. Xm은 의미 정보가 부족하기에 기존 통신 방식대로 전송된다.
Contrastive Learning에 대해 구체적으로 다루기 위해 이어서 몇가지를 정의한다. \( \psi_{\kappa} : X \rightarrow Z \in \mathbb{R}^N \), κ는 주요 정보 특징을 추출하는 임베딩 네트워크이다. \( \phi_{\kappa} : Z \rightarrow Y \)는 의미 표현을 semantic 내용과 연결 짓는 분류함수이다. 여기서 Y는 통신 가능한 semantic 컨텐츠를 의미한다.
첫번째 단계로 Instance Discrimination이 소개된다. 우선 랜덤한 변형 \( \chi \)를 데이터 스트림 Xi에 적용한 후 이를 각각 임베딩 네트워크와 분류함수를 거치게 해 ai와 bi를 생성한다. \( a_i = \psi_{\kappa}(\chi_1(X_i)) \), \( b_i = \phi_{\kappa}(\chi_2(X_i)) \)는 pseudo-negative 샘플 \( \tilde{b} \)와 구분되도록 유도된다. 아래는 이 discrimination에 대한 loss 함수로 log안의 확률 값이 크도록 유도된다. 즉 이는 분자 ai와 bi의 유사도는 크게, ai와 negative sample 사이의 유사도는 작게 만든다는 뜻과 같다.
\[
L_I(\mathbf{X}_i) = -\log \frac{\exp\left(\cos(\mathbf{a}_i, \mathbf{b}_i)/\tau\right)}{\sum_{\tilde{\mathbf{b}} \in \tilde{\mathcal{B}} \cup \{\mathbf{b}_i\}} \exp\left(\cos(\mathbf{a}_i, \tilde{\mathbf{b}})/\tau\right)}
\]
다음으론 Semantic Cluster Discrimination 단계가 진행되며, 이 단계에선 의미적으로 유사한 요소들 사이의 거리를 줄이는 동시에 의미적으로 중요하지 않은 랜덤 노이즈를 제거한다. 아래는 샘플 ai에 대해 의미적으로 유사한 cluster에 속할 확률을 나타낸 것이다.
\[
P_{i,l} = \frac{\sum_{\mathbf{b} \in C_l} \exp\left(\frac{\cos(\mathbf{a}_i, \tilde{\mathbf{b}})}{\tau}\right)}{\sum_{l'=1}^{N} \sum_{\tilde{\mathbf{b}} \in C_{l'}} \exp\left(\frac{\cos(\mathbf{a}_i, \tilde{\mathbf{b}})}{\tau}\right)}
\]
이러한 확률에 기반해 cluster discrimination loss 함수는 다음과 같이 나타낼 수 있다:
\[
L_D = \frac{1}{N} \sum_{i=1}^{N} \sum_{l=1}^{M} -P_{i,l} \log P_{i,l}
\]
전체 loss는 앞서 다룬 instance, cluster discrimination loss를 결합하여 식을 세운다. 학습 이후 형성된 클러스터들은 가장 높은 신뢰도부터 가장 낮은 신뢰도까지 서열화된다. 이를 통해 semantic rich한 정도를 알 수 있으며 이는 Xl과 Xm을 구분 짓는 기준이 된다. 앞서 다루었던 언어 복잡도를 기반으로 최소한의 신뢰도를 확보한 그룹이 Xm으로 선택된다. 즉, Xm은 신뢰도 기준을 통과한 의미적 클러스튿릐 집합이다.
아래 그림은 의미적 복잡도에 따른 비트 표현 길이를 보여준다. 의미 복잡도가 증가할수록 필요한 비트 수는 비례했다. 제안한 방법이 더 적은 길이로 표현이 가능하나 복잡도가 낮은 경우엔 기존 방법이 더 나은 결과를 보였다. 이 부분에선 Xm의 비율이 낮기에 제안한 방법이 기존 방법보다 성능이 제한적일 수 있다. 구체적으로, 표현 길이는 최대 57.22% 감소했다.

다음으론 의미 복잡도와 semantic impact의 연관관계를 보여준다. 여기서 또한 저 복잡도에선 기존 방법이 더 나은 결과를 보인다. 최대 71.9%의 성능 향상이 나타났다.

한계 및 발전 방향
- 실험 데이터셋 제한성: CIFAR-10/100, ImageNet-10/Dogs 같은 이미지 데이터셋에 기반한 시뮬레이션만 수행했으며 이는 논문에서 소개한 실제 6G 응용과는 거리가 있어 범용성 검증이 부족하다.
- 메모리저블 데이터(Xm) 처리 방식의 단순화: Xm은 “의미가 부족하므로 클래식 통신으로 전송”이라는 단순한 전략만 제시했으며 압축, 요약 혹은 다른 방식으로 최적화할 수 있다.
- 실시간성 및 네트워크 환경 고려 부족: contrastive learning 기반 프레임워크는 계산량이 크고 학습 과정이 무거워 실제 무선 네트워크에 지연, 자원 제약을 고려한 최적화가 부족하다.
- 다중 모달리티 확장 부족: 이미지 중심의 검증에 머물러 있으며, 텍스트·음성·센서 데이터 등 다양한 모달리티에 대한 적용 가능성은 실험되지 않았다.