논문 링크:
Deep Learning Enabled Semantic Communication Systems
Recently, deep learned enabled end-to-end communication systems have been developed to merge all physical layer blocks in the traditional communication systems, which make joint transceiver optimization possible. Powered by deep learning, natural language
ieeexplore.ieee.org
출처: H. Xie, Z. Qin, G. Y. Li and B. -H. Juang, "Deep Learning Enabled Semantic Communication Systems," in IEEE Transactions on Signal Processing, vol. 69, pp. 2663-2675, 2021, doi: 10.1109/TSP.2021.3071210.
요약
DeepSC는 아래와 같은 구조를 갖는다. 송신기와 수신기는 각각 배경 지식을 갖고 있으며 상황에 따라 다른 학습 데이터로 표현된다. Semantic 노이즈는 단어, 문장, 기호의 모호성 때문에 의미 해석에 영향을 주는 경우를 말한다. 물리 채널에 의한 잡음은 AWGN, multipath와 같이 신호 감쇠/왜곡을 유발하는 잡음이다.

제안하는 DeepSC 방법은 통신 시스템을 End to End(E2E)로 학습시키고 트랜스포머를 기반으로 전송 용량을 최대화한다. DeepSC 모델은 시맨틱 인코더, 채널 인코더, 채널 디코더, 시맨틱 디코더로 구성된다. 먼저 semantic 인코더는 전송할 텍스트에서 transofrmer기반 인코더 층을 여러 개 사용하여 문장의 의미를 추출한다. 이다음에 채널 인코더는 의미 벡터를 실제 전송 가능한 심볼로 변환한다. 채널 인코더는 채널에 신호가 손상되더라도 의미를 보존할 수 있게 설계되며 dense layer를 통해 심볼을 생성한다.

수신기는 cross entropy, mutual information 두 가지 손실 함수로 최적화한다. 첫 번째 항 cross entropy는 원래 문장과 복원된 문장 사이의 의미적 차이를 최소화하는 역할을 한다. 두 번째 항 mutual information은 송신 심볼과 수신 심볼 사이에 공유되는 정보량을 나타내며 데이터 전송률을 높이는 역할을 한다. λ는 두 손실 사이의 가중치로 의미 정확성과 데이터 전송률의 균형을 결정한다.
\[
L_{\text{total}} = L_{CE}(s, \hat{s}; \alpha, \beta, \chi, \delta)
- \lambda \, L_{MI}(x, y; T, \alpha, \beta)
\]
트랜스포머 모델은 multi-head self-attention 메커니즘을 사용하며 이는 문장 안에서 단어들 사이의 관계를 파악한다. 예를 들어 "it"이란 대명사가 등장할 때 문장 전체를 살펴 대명사 "it"이 "monkey"를 가리킨다는 것을 알 수 있다.

DeepSC는 두 단계를 거쳐 학습이 이루어진다. 먼저 첫번째 단계로, 트랜스포머 기반 semantic 인코더를 통해 의미 표현 M을 얻고 이를 채널 인코더로 변환해 심볼 X를 생성한다. 생성된 심볼은 물리적 채널을 통해 전송되며 수신기는 잡음 섞인 신호 Y를 받는다. X와 Y를 통해 mutual information이 계산되며 SGD를 통해 이 추정 모델의 파라미터를 최적화한다. 다음으로 전체 네트워크 훈련이 이루어진다. 수신기는 잡음 섞인 신호 Y를 받고 채널 디코더로 복원하여 \( \hat{M} \)을 얻고 semantic 디코더는 이를 다시 \( \hat{s} \)로 재구성한다. 이후 전체 네트워크는 손실함수를 SGD로 최적화한다.

이 논문에서 제안하는 Trasnfer Learning을 통해 다양한 통신 환경에서도 빠르게 적응할 수 있으며 재학습을 빠르게 진행할 수 있다. 다른 배경 지식, 학습 데이터를 갖게 되는 경우엔 semantic 인코더와 디코더의 일부를 다시 학습한다. 이때 채널 환경은 동일하다 가정하면 채널 인코더와 디코더는 그대로 두고(freeze) 학습하지 않는다. 반대로 채널 특성이 달라지는 경우에는 semantic 인코더와 디코더를 고정하고 채널 인코더와 디코더를 재설계, 재학습한다. 이러한 Transfer Learning를 통해 필요한 부분만 새로 학습시켜 네트워크를 빠르게 학습시킬 수 있다.

BLEU는 두 문장을 비교할 때 단어 단위의 일치 정도만 계산하여 의미적으로 같은 내용을 담고 있어도 낮은 점수를 받을 수 있다. 이에 따라 텍스트 전달 성능을 의미 단위에서 올바르게 평가하기 위해 sentence similarity를 사용한다. 기존의 word2vec과 같은 방법은 한 단어를 고정된 벡터로 표현하기에 한 단어가 여러 의미를 가질 수 있는 polysemy(다의성)을 고려하지 못한다. Sentence similarity는 사전 학습이 이루어진 BERT 대규모 언어 모델을 통해 의미 벡터 간의 코사인 유사도를 계산한다.
\[
\text{match}(\hat{s}, s)
= \frac{B_{\Phi}(s)\cdot B_{\Phi}(\hat{s})^{\top}}
{\left\|B_{\Phi}(s)\right\| \, \left\|B_{\Phi}(\hat{s})\right\|}
\]
SNR이 12dB 이상일 땐 전통적 방식이 DNN 기반 방식보다 더 좋은 성능을 보였다. 그러나 낮은 SNR 구간에서는 딥러닝 기반 접근법이 기존 방식보다 더 높은 BLEU를 가졌다. 이는 잡음이 심한 환경에서 딥러닝 기반 접근이 의미를 더 잘 복원할 수 있음을 보여준다.

마찬가지로 sentence similarity에 대해서도 DeepSC는 기존 방식보다 더 높은 문장 유사도를 기록했다.

Mutual Information 추정 모델을 사용해 학습한 경우, 그렇지 않은 경우보다 더 높은 MI 값을 얻을 수 있다. 추정 모델을 사용하면 SNR 4dB에서 얻은 MI가 모델을 사용하지 않은 SNR 9dB에서 얻은 값과 비슷하다. 추정 모델은 DeepSC 성능을 저 SNR에서도 개선하여 높은 데이터 전송률을 달성할 수 있게 돕는다.

Transfer Learning을 통해 학습하면 그렇지 않은 경우보다 Erasure, Rician 채널에서의 학습 속도가 빨라진다. (a), (b)에서 적은 epoch 수에도 모델이 수렴한다. (c), (d)에서는 TL을 적용하여 더 빠르게 학습한 경우에도 BLEU 점수가 비슷하다.

DeepSC는 JSCC보다 계산 효율성이 약간 떨어지지만, 의미 복원 성능이 훨씬 뛰어나기에 실제 적용에 적합하다고 할 수 있다.

한계
- 데이터셋 의존성: 이 논문은 유럽 의회 코퍼스를 사용하여 특정 텍스트 데이터셋을 기반으로 시뮬레이션했다. 다른 언어, 도메인, 비정형 데이터에 대한 일반화 성능은 검증되지 않았다.
- 응용 범위 제한: 논문은 텍스트 전송에만 초점을 맞춰 음성이나 영상 같은 멀티모달 데이터에 대한 확장이 더욱 필요하다.
- 채널 모델 단순화: AWGN과 Rayleigh 페이딩 채널을 대상으로 실험했으나 실제 무선 환경은 훨씬 더 복잡한 간섭과 왜곡이 존재한다.
- 성능 지표의 한계: sentence similarity라는 새로운 지표를 제안했지만 이는 여전히 특정 언어 모델인 BERT의 한계와 편향을 그대로 반영할 수 있다.
- 복잡성 및 자원 요구: complexity analysis에서 확인할 수 있듯이 JSCCㅂ다 처리 시간이 길고 대규모 네트워크 학습과 전이 학습에 상당한 계산 자원이 필요하다.
- 성능 향상 요구: 기존의 JSCC보다 더 나은 성능을 확보했으나 여전히 저 SNR에서 성능이 열화 되며 0.4 밑의 BLEU 점수가 관찰된다.