Wireless Communications

[논문 리뷰] Semantics-Native Communication via Contextual Reasoning

은최 2026. 1. 9. 10:07

논문 링크: 

 

Semantics-Native Communication via Contextual Reasoning

Recently, machine learning (ML) has shown its effectiveness in improving communication efficiency by reinstating the semantics of bits. To understand its underlying principles, we propose a novel stochastic model of semantic communication, dubbed semantics

ieeexplore.ieee.org

 

출처: H. Seo, J. Park, M. Bennis and M. Debbah, "Semantics-Native Communication via Contextual Reasoning," in IEEE Transactions on Cognitive Communications and Networking, vol. 9, no. 3, pp. 604-617, June 2023.


요약

 

   기존 SC 연구들은 인코딩-디코딩 구조가 대칭적인 거울상임을 가정한다. 그러나 머신러닝 기반 SC에선 인코더와 디코더가 각각의 로컬 데이터로 따로 학습되며 화자와 청자의 맥락은 서로 다르게 된다. 이런 이질적 맥락(heterogeneous context)은 ML 기반 SC의 반복 학습을 통해 점차 학습하고 조율할 수 있으나 이 내부 동작은 블랙박스처럼 이해하기 어렵다. 기존 연구는 단순히 "ML이 알아서 학습한다"는 수준에 머물러 있어, 맥락 차이가 의미 전달에 어떤 영향을 주는지 수학적으로 모델링하는 것이 이 논문의 목표이다.

 

   아래 두 시스템은 이 논문에서 제안하는 System 1 SNC와 System 2 SNC이다. 시스템 1에선 semantic encoder를 통해 화자가 행동을 개념과 기호로 변환한다. 이 구조는 인코딩과 디코딩이 서로 거울상처럼 대응하는 구조이기에 맥락 차이에 따른 의미 오류는 해결하지 못한다. 시스템 2는 시스템 1의 구조를 유지하면서 Contextual Reasoning(맥락 추론) 추가 요소를 갖는다. 이 구조에선 화자와 청자가 실제 통신 전에 서로의 상태를 가상으로 시뮬레이션한다. 이를 통해 불필요한 의미를 줄이고 가장 효과적인 의미만 선택해서 전달할 수 있게 된다. 

   

 

   이 논문에선 Ogden & Richards의 의미 삼각형에 빗대어 의미 생성 과정을 모델링한다. 이 모델은 인간 언어가 어떻게 의미를 전달하는지를 설명하는 고전적 구조로 이 논문에선 action(행동), concepts(개념), symbols(기호)의 세 가지 요소를 연결한다. 개념을 통신 가능한 기호 형태로 변환하는 과정을 symbolization, 어떤 행동을 전달하기 위해 관련 개념을 떠올리는 과정을 conceptualization이라고 한다. 

   

 

   아래 그림은 토끼 지시(rabbit referential) 게임의 예시이다. 그림은 크게 좌측의 화자(speaker)와 우측의 청자(listner)로 나뉜다. 이들은 각자 내부에 가상 상대(virtual agent)를 포함하고 있다. 먼저 화자는 토끼가 점프한다는 특정 의도를 전달하고 싶어한다. 화자는 청자에게 이를 말하기 전에 청자가 이를 어떻게 이해할지 가상 청자(virtual listner)를 통해 시뮬레이션한다. "내가 이 개념을 말하면 청자는 어떤 행동을 떠올릴까?"를 반복적으로 추론한다. 최종적으로 화자는 점프 개념을 기호화하여 신호 s를 보낸다. 청자는 화자로부터 심볼 s를 받은 후 가상 화자를 통해 화자가 어떤 의도를 가졌을지를 추론한다. 청자도 jumping, ring과 같은 동일한 개념들을 떠올리며 화자의 의도를 추론하여 최종적으로 "토끼가 점프한다"라는 행동을 의도했다고 판단한다. 

 

위 예시를 구현하는데 있어서 두 가지 어려움이 언급된다. 

  • 맥락 의존성(context-dependence): 어떤 개념이 의미 있는지의 여부는 맥락에 따라 달라지는 어려움이 있다. 토끼라는 개념은 모든 행동에 공통적으로 등장하지만 특정 행동을 지시하는덴 별로 도움 되지 않는다. 반면 링이라는 개념은 토끼가 링을 통과하는 행동을 설명할 때에만 의미를 갖는다. 
  • 에이전트별 이질적 맥락(Heterogeneous individual contexts): 각 에이전트는 서로 다른 세계 인식, 지식, 믿음을 갖고 있기에 같은 개념이라도 화자와 청자는 서로 다른 맥락에 의해 의미 전달이 불완전해질 수 있다. 

   이러한 어려움들은 가상의 상대방을 설정해 시뮬레이션(self-SNC)하는 것을 통해 해결할 수 있다. 화자와 청자는 가상의 상대와의 반복적 추론을 통해 맥락에 맞는 정보를 고를 수 있게 되기 때문이다. 또한 이 과정에서 에이전트와 가상의 상대 사이에 상호 맥락(mutual context)이 형성되어 서로 다른 개별 맥락이 점차 수렴한다. 이를 통해 에이전트 사이의 의미 해석 불일치가 감소한다. 

 

   이런 mutual context를 M이라 할 때, 아래와 같은 목표 함수 식(8) G를 최소화하는 것이 목표다. 이 식을 직관적으로 이해하기 위해 α, β를 1이라하면 (8)은 (9)와 같은  KL divergence의 합이 된다. 이를 통해 목표 함수는 S와 M, L과 M 사이의 차이를 나타내는 함수임을 알 수 있다. 즉, G를 최소화하는 것은 상호 맥락과 화자/청자의 차이를 줄이는 것이다. 
$$
G = \lambda \left[ \mathrm{H}(S, M) - \frac{\mathrm{H}(S)}{\alpha} \right]
+ (1 - \lambda) \left[ \mathrm{H}(L, M) - \frac{\mathrm{H}(L)}{\beta} \right]
\tag{8}
$$
$$
G_{\alpha,\beta=1} 
= \lambda  D_{\mathrm{KL}}(S \parallel M) 
+ (1 - \lambda) D_{\mathrm{KL}}(L \parallel M)
\tag{9}
$$

 

   에이전트와 그의 가상 화자/청자 사이의 self-SNC 동작 확률은 아래 식 (18), (19)와 같이 나타낼 수 있다. α, β값이 커질수록 큰 값은 더 커지고, 작은 값은 더 작아져 확률 분포가 더 뾰족해지고 집중적이게 된다. 이에 따라 의사 결정이 단호해지고 모호성이 줄어들게 된다. 이처럼 αβ는 의사결정에서 어떤 정보에 더 집중할지를 조절하는 가중치 민감도 역할을 한다. 
$$
p^{[r]}_{C|A}(c \mid a; t) 
= \frac{\left( M^{[r]}_{1}(a, c; t) \right)^{\alpha}}
       {\sum_{c' \in C} \left( M^{[r]}_{1}(a, c'; t) \right)^{\alpha}}
\tag{18}
$$

$$
p^{[r]}_{A|C}(a \mid c; t) 
= \frac{\left( M^{[r]}_{2}(a, c; t) \right)^{\beta}}
       {\sum_{a' \in A} \left( M^{[r]}_{2}(a', c; t) \right)^{\beta}}
\tag{19}
$$

 

  αβ가 커질수록 확률 분포는 더욱 집중되고 모호성이 감소하여 모델은 여러 후보 중에서 가장 가능성이 큰 개념/행동을 빠르게 선택하게된다. 이에 따라 아래 (a)에선 α, β 증가에 따라 학습 속도가 증가한다. 이러한 원리에 따라 (b)에선 α, β가 증가할수록 각 action에 대응하는 concept 선택이 단호해지는 것을 확인할 수 있다.

 

 

   α와 β가 클수록 빠르게 수렴하고 그 값이 1에 가까울수록 학습속도는 느리다. 이에 따라 α = 1, β = 1일 때의 학습 반복 횟수가 적을 때엔 그 값이 클 때보다 신뢰도가 낮으나 반복 횟수가 증가할수록 그 상승폭이 두드러진다. 이는 빠른 수렴속도보단 오히려 느리고 꾸준한 수렴이 더 합리적인 결과를 낼 수 있음을 보여준다. 

 

 

   또한 아래 그림과 같이 α와 β가 작을 때는 초기에는 reliability가 낮으나 iteration을 많이 수행하면 self-SNC가 점차 수렴하면서 reliability가 크게 향상된다. 반복 횟수가 증가하면 더 적은 라운드로도 높은 신뢰도를 확보할 수 있기에 통신 지연을 줄일 수 있다.

 

 

   아래 그림은 System 1,2 SNC의 SR 길이를 비교한다. 시스템 2는 시스템 1보다 항상 더 적은 SR길이를 가진다. α,β = 2.0 일 땐 α,β = 1.5일 때보다 SR 길이가 항상 더 작으며 이는 앞서 다루었듯, 모호성이 줄어들어 생긴 결과로 보인다. (b)와 (c)는 BEC (Binary Erasure Channel) 상황에서의 SR 길이를 보여주며 노이즈가 없는 (a)와 비교했을 때 길이가 평균적으로 증가하는 것을 확인할 수 있다. 

 

 

    마지막으로 확률 분포에 작은 교란(Perturbation)을 주어 신뢰도를 확인해보았다. 이를 완화하기 위해 E2C와 C2E 확률값을 수점 둘째 자리에서 반올림(quantization)한 결과 신뢰도가 노이즈에 더 견고하게 유지되는 것을 확인할 수 있다.


한계 및 발전 방향

 

  • 현실성 제약: 실험 설정이 작은 A와 C, 인위적 A2C/C2A 샘플링이기에 실제 복잡한 멀티 모달 환경에서의 성능이 불확실하며 채널 모델이 단순한 BEC 모델에 국한되어 있어 실제 무선 채널에서의 동작이 검증되지 않았다.
  • 계산 지연 비용: self-SNC 반복과 greedy 선택의 계산 복잡도( \(O(K R |A|^2 |C|^2)\) )가 커, 실시간·저전력 장치에서 적용이 어렵다.
  • 하이퍼 파라미터 민감성: α,β,λ 값에 따라 수렴 속도와 정확도가 크게 달라지기에 최적값 탐색과 일반화가 까다롭다.
  • perturbation 민감성:  A2C/C2A는 perturbation에 민감하며 quantization으로 완화는 가능하지만 근본적 해결책은 아니다.
  • 평가 지표의 한계: SR 비트 길이와 신뢰도를 이용하여 평가했기에 인간 이해도, 태스크 성능등의 실용 지표가 부족하다.
  • 지식·인과성 미고려: 개념 간 인과관계나 nuisance factor에 대한 불변성(invariance)을 모델에 직접 반영하지 않았다.