Wireless Communications

[논문 리뷰] Life-long Learning for Reasoning-based Semantic Communication

은최 2026. 1. 15. 15:25

논문 링크:

 

Life-long Learning for Reasoning-based Semantic Communication

Semantic communication is an emerging paradigm that focuses on understanding and delivering semantics or meaning of messages. Most existing semantic communication solutions define semantic meaning as the labels of objects recognized from a given form of so

ieeexplore.ieee.org

 

출처: J. Liang, Y. Xiao, Y. Li, G. Shi and M. Bennis, "Life-long Learning for Reasoning-based Semantic Communication," 2022 IEEE International Conference on Communications Workshops (ICC Workshops), Seoul, Korea, Republic of, 2022, pp. 271-276.


요약

 

기존의 SC 시스템들은 몇 가지 한계를 갖는다:

  • 단일 객체의 속성이나 특징만을 고려하고 객체 사이의 관계는 고려하지 않는다. 
  • 동일한 신호를 보더라도 배경 지식에 따라 사용자마다 의미를 다르게 해석할 수 있다는 점을 고려하지 않는다.
  • semantic 의미가 미리 정의된 닫힌 집합안에 제한되어 새로운 의미를 지속적으로 학습, 추가하기 어렵다. 

   이에 따라 이 논문에선 추론에 기반한 R-SC 시스템을 제안한다. 위 문제를 해결하기 위해 그래프 기반 구조를 제안하며 이는 1) entity, (2) relations, (3) reasoning rules로 구성되며 복잡한 의미 사이의 관계를 반영한다. 이런 그래프 기반 구조는 고차원 특징을 갖기에 embedding-based semantic interpretation (ESI) 구조를 이용해 이를 저 차원 임베딩으로 변환한다. 또한 수신자가 받은 신호를 바탕으로 의미를 재구성하거나 발신자의 의도를 이해할 수 있는 inference function이 도입된다. 마지막으로 닫힌 의미 집합의 한계를 극복하기 위해 Life-long learning 방법이 사용된다. 이를 통해 통신 시스템은 끊임없이 새로운 의미, 관계, 맥락을 학습해 나갈 수 있다.

 

   일반적인 SC 시스템은 아래 그림과 같은 구조도를 갖는다. Translator는 소스 신호에서 의미를 인식하고 이를 지식구조 G로 변환한다. Encoder는 Translator가 만든 의미 표현을 실제 물리 채널을 통해 전송할 수 있는 형태로 변환한다. 여기에는 redundancy 제거와 전송 과정에서 잡음으로 인해 손상되지 않도록 하는 채널 보호가 존재한다. Semantic Decoder는 수신된 신호를 표현 가능한 형태로 다시 바꾸어주고 Semantic Interpreter는 전송단에서 의미한 표현 G를 복원해내려 한다. 

 

   앞서 언급했듯, 이 논문에선 semantic 표현을 (1) entity, (2) relations, (3) reasoning rules 3가지로 구성한다. 그래프 기반의 지식 표현은 아래와 같이 나타낸. 이는 타임 슬롯 t에 도착한 i번째 삼중항(triplet)이다. 이들은 head, relation, tail로 구성되며 각각 subject, predicate, object를 나타낸다: \(\phi_t^i = \langle e_{i,t}^s, r_{i,t}, e_{i,t}^o \rangle\)

   R-SC는 단순히 엔티티들 사이의 객체를 인식하는 수준을 넘어서 보이는 것과 보이지 않는 의미를 연결하고 relations간의 관계까지 학습할 수 있다. \(\Pi_t\)가 학습된 추론 규칙이라 할 때, 불완전한 삼중항 정보는 다음과 같이 추론 규칙을 거쳐 의미를 복원할 수 있다: \(\Pi_t(\tilde{\phi}_t^i) = \hat{\phi}_t^i\)

 

  \(f(\phi_t^i)\) 함수는 삼중항들 사이의 유사도(likelihood)를 측정하기 위해 이용된다. 이 f는 의도한 의미를 잘 반영할수록 그 값이 커지며 잘 반영하지 못하면 그 값이 작아진다. 두 삼중항 사이의 semantic distance는 다음과 같이 측정할 수 있다: \(\Delta f(\phi_t^{i'}, \phi_t^{i''}) = f(\phi_t^{i'}) - f(\phi_t^{i''})\), 모든 타임 슬롯 t와 i번째 유사도 함수 f를 더한 것이 대문자 F라 할 때 두 삼중항 사이의 semantic distance는 다음과 같이 나타낼 수 있다.
\[
\Omega(\Phi_t, \Phi'_t) = F(\Phi_t) - F(\Phi'_t)
\]
   또한 이 논문에선 Life-long learning process를 도입하여 시스템이 시간이 지남에 따라 지속적으로 새로운 데이터와 경험을 통해 학습하도록 만든다. 추론 함수 f는 이 과정에서 지속적으로 업데이트되어 새로운 의미, 관계, 맥락을 학습해 나간다. R-SC는 아래와 같이 전송된 표현과 복원된 표현 사이의 semantic distance를 최소화하는 것을 목표한다. 
\[
\min \sum_{t=1}^{\infty} \Omega \left( \mathbf{\Phi}_t, \hat{\mathbf{\Phi}}_t \right)
\]

   엔티티와 relation 임베딩을 하나의 값으로 반영하기 위해 이 논문에선 inference function f를 additive, linear, multiplicative의 3가지로 구성한다. 이는 각각 g(·), h(·), l(·)에 해당한다. 지식 그래프에서 참인 관계를 나타내는 삼중항(positive triplet)에 대해선 추론 함수 f의 출력값을 0에 가깝게 학습시키고 negative triplet에 대해선 함수 출려값을 양수로 만들어 그 값이 positive triplet과의 의미적 거리에 비례하도록 학습시킨다. 이 방법은 기존 TransE, DistMult와 달리 단순 거리 계산을 넘어선 의미적 차이를 반영한다.
\[
f(\phi_t^i) = g(\phi_t^i) + h(\phi_t^i) + l(\phi_t^i)
\]


  제안하는 inference 함수는 triplet 사이의 유사성뿐만 아니라 semantic 의미의 빠진 부분까지 복원해 낼 수 있다. \(\tilde{\phi}_t^i\)가 빈부분이 존재하는 미완성된 삼중항이라 할 때 reasoning rule \(\Pi_t\)는 아래와 같이 나타낼 수 있다.
\[
\Pi_t\left(\tilde{\phi}_t^i\right) = \tilde{\phi}_t^i \oplus \varphi_t^i
\]
\(\varphi_t^i\)는 삼중항의 빠진 부분에 대한 복원이며 아래와 같은 식을 통해 구한다. 즉 이 과정은 삼중항의 빠진 부분을 f로 복원해 미완성 triplet과 결합하는 것이다. 
\[
\varphi_t^i = \underset{e^s, e^o \in \mathcal{E}_t,\, r \in \mathcal{R}_t}{\arg\min} f\left(\tilde{\phi}_t^i\right)
\]

   학습 절차는 다음과 같은 단계로 구성된다. 먼저 positive/negative triplet을 데이터 셋으로 준비하여 구성하고 엔티티와 관계들 간 의미 차이를 계산한다. 이러한 의미 차이를 순위화해 ranked constant \(c''(\phi, \phi')\)를 수신기에 전달한다. 수신기는 송신기로부터 받은 라벨과 임베딩을 통해 positive/negative 학습 세트를 만들고 아래와 같은 손실 함수를 학습한다:
\[
\mathcal{L} = \sum_{\phi \in \hat{\Phi}_t^+} \sum_{\phi' \in \hat{\Phi}_t^-} \max\left\{0, f(\phi) - f(\phi') + c''(\phi, \phi')\right\}
\]
수신기는 송신기로 손실 값을 전달하고 송신기는 SGD로 임베딩을 업데이트한다. 송신기는 업데이트된 임베딩을 수신기로 다시 전송한다. 이런 과정을 반복하며 임베딩은 점점 더 의미적으로 정확한 표현을 학습하게 된다. 

 

   다음으로 Life-long Model Updating에선 모델을 한 번 학습하고 끝내지 않고 계속해서 갱신한다. 새로운 entity와 relation을 발견했을 때 이를 positive set에 추가한다. 발견한 관계가 negative set에 있을 땐 그것을 positive set에 옮긴 후 negative set에 다른 데이터를 생성한다. 이렇게 데이터 셋이 업데이트된 후에 학습 과정은 다시 반복된다. 이 과정이 길어질수록 새로 추가되는 데이터도 줄고 업데이트도 줄어들 것이다. 대부분의 자주 쓰이는 엔티티와 관계를 학습한 상태라면 새로운 데이터와 업데이트가 적어진다. 새로운 데이터가 부족해도 앞서 언급한 추론 규칙을 통해 누락된 의미 정보를 스스로 채워 넣으며 업데이트를 지속할 수 있다. 

 

   데이터 셋으로 실험한 결과 아래 그림 2. 와 같이 제안한 방법은 더 적은 패킷 에러율을 보였다. 또한 Fig. 3에서와 같이 수렴 속도도 증가한 것을 확인할 수 있다. Additive 추론 함수는 Linear 추론함수보다 초기엔 더 적은 수렴 속도를 보이나 결국 더 빠르게 수렴하고, 계산하기도 더 쉽다. 이에 따라 additive가 추론 함수에 적합한 형태라고 할 수 있다. 

 

 

   다음으로 Fig. 4는 헤드 또는 테일 정보가 없어졌을 때의 복원 정확도를 나타낸다. 제안한 추론 함수는 reasoning rule을 사용해 최대 76%, 48%의 복원 정확도를 나타냈다. 마지막으로 Fig. 5는 두 엔티티에 대한 임베딩 분포를 보여준다. 두 엔티티는 각자의 영역을 유지하고 있다. 이를 통해 임베딩 기반 문장 거리 방식이 그래프 기반 지식을 잘 반영하고 있다고 볼 수 있다. 


한계 및 발전 방향

  • 확률적 맥락 해석의 한계: 맥락을 반영한다고 하지만 결국 주어진 데이터셋 내에서 가장 높은 확률의 의미를 선택하는 방식에 머물렀다. 새로운 상황이나 데이터셋에 없는 맥락에서는 추론 능력이 제한된다. 
  • 고차원 그래프 표현의 복잡성: 객체 간 관계를 그래프로 모델링하는 것은 의미적으로 풍부하지만 차원이 매우 커져 계산 비용이 높아진다. 실제 통신 환경에서 실시간 처리에 부담될 수 있다. 
  • 실세계 검증 부족: 제안된 모델은 주로 시뮬레이션과 이론적 분석에 머물러 있으며 실제 응용 환경에서의 성능 검증이 부족하다. 
  • 지식 그래프 및 추론 엔진 결합: Logical/Bayesian Reasoning을 통합해 의미 복원 능력을 강화할 수 있다.
  • 멀티모달 맥락 신호 활용: 언어 데이터뿐 아니라 IoT 센서(온도, 위치, 시간), 음성 억양, 사회적 관계 등 다양한 맥락 신호를 통합하여 더 인간적인 의미를 해석하게 할 수 있다. 
  • 실세계 응용 검증: 자율주행차, 스마트홈, 헬스케어 IoT 등 실제 환경에서 실험적 검증을 수행할 수 있다. 
  • 언어학·인지과학 융합: Speech Act Theory, Grice의 협력 원칙 같은 언어학적 프레임워크를 모델에 반영히야 발화가 단순 정보인지, 요청, 명령인지를 구분하는 능력을 강화할 수 있다.