이전 글에서 Abstract와 Introduction까지 다루었던 내용을 이번 글에선 Architecture 부분까지 다루어 보려 한다!
1편 링크:
[논문 리뷰] A Survey on Semantic Communications for Intelligent Wireless Networks
논문 전문: https://arxiv.org/pdf/2202.03705 출처: Iyer, S., Khanai, R., Torse, D. et al. A Survey on Semantic Communications for Intelligent Wireless Networks. Wireless Pers Commun 129, 569–611 (2023). - 개요지금까지의 통신 기술은 Shann
chateun.tistory.com
논문 전문: https://arxiv.org/pdf/2202.03705
출처: Iyer, S., Khanai, R., Torse, D. et al. A Survey on Semantic Communications for Intelligent Wireless Networks. Wireless Pers Commun 129, 569–611 (2023).
Semantic Communication Architecture
5G 기술로의 발전에서 무선 통신망은 단순히 통신만을 행하지 않고 "Computation" 까지 행하기 시작했다. 즉, 단순히 신호를 주고받는 것을 넘어서 센싱, 계산, 제어, 실행이 지능형 기기들에서 같이 이루어지는 것이다. 6G 환경에서는 이보다 더 나아가 AI/ML 도구들이 전 계층에서 사용될 것이다. 이에 따라 데이터량은 더욱 증가할 것이며 이를 더욱 잘 처리하기 위해 거의 이상적인 수준의 필터링, 전송, 프로토콜 등이 요구될 것이다. 즉 AI/ML의 사용으로 늘어난 데이터량을 처리할 새로운 방식이 필요하다.
Abstract와 Intro에 따르면 우리는 통신망의 대역폭, 전송량등을 level 1에 따라 늘리며 통신망을 발전시켜왔다. 그러나 자원의 제한으로 인해 용량, 처리량, 저장공간을 획기적으로 늘리면서 새로운 통신망을 구성하기는 어려울 것이다. 이런 상황에서 통신망을 발전시키는 방법은 Shanon의 연구에서 제시된다. 이는 정확한 신호의 전달보다 의미 전달에 집중을 한 level 2와, 의미가 올바른 결과를 내는가 (Effectiveness)에 해당하는 level 3이다..

이렇게 간략히 새로운 지능형 통신망 구조에 대해서 소개한 후, 이 survey 논문에선 최신 연구 동향에 대해서 다룬다.
그러나 이 내용이 semmantic comm을 처음 접하는 나에겐 잘 와닿지 않아 우선은 넘기는 것이 좋을 거 같다.
관련 연구 분야들을 이렇게 많이 정리하는게 어떻게 가능한지 궁금할 따름이다.
Model and Representation
다음으로 이 섹션에선, semmantic communication에 대해 글(?)로 정리한다.
Semmantic 통신은 다음과 같은 경우에 효과적이다
(i) recovers true meaning of the data sent by the transmitter from the data which has been received
전달하려던 진짜 의미를 복원했는지가 중요하다. 단순히 비트가 정확히 전달되는 것보단 의미가 전달됐는지를 중시한다는 뜻 같다.
(ii) increases the related knowledge from the data which has been received
직역하면 수신자의 지식이 증가해야 한다..는 뜻이고, 이는 수신자가 메시지를 해석하여 자신의 지식기반을 확장시킨다고도 생각할 수 있다. 예를 들어, 송신자가 “The exam was extremely difficult.”라고 전송한다면
수신자는 자신의 지식을 기반으로
- “그 사람이 잘 못 봤을 가능성이 높다”
- “앞으로 시험 난이도 경향에 대한 이해가 업데이트된다”
- "그 사람이 힘들겠구나 → 감정 상태 정보도 업데이트”
와 같은 의미 해석 과정을 거치면서 자신의 지식 기반을 갱신할 수 있다.
다음으로 semmantic 통신 은 level 1과 구분되는데...
(i) semantic content decides the data amount rather than the probability of symbol generation
기존의 Level1 통신은 확률에 따라 심볼 bit을 부과하는 statistical redundancy 중심이었다. 그러나 semantic 통신에선 중요한 의미인지에 따라 데이터 양이 달라진다. 핵심적인 정보들은 더욱더 정교한 embedding, 무거운 모델을 사용하여 데이터양이 늘어날 수 있다. 즉, 의미의 중요도가 데이터 양을 결정한다.
(ii) exact content of the data is important rather than the mean data
Shannon L1 통신은 데이터를 확률 분포에 따라 취급한다. 예를 들어, Huffman 코딩은 자주 발생하는 심볼은 더 짧은 코드로 보낸다. 가장 중요한 것은 평균적인 정보량(엔트로피)이다. 그러나 semantic 관점에선 이러한 확률보단 문장의 핵심 내용을 중시한다.
문장: "My dog passed away yesterday."
Shannon 관점:
- "my", "yesterday" 같은 단어는 corpus에서 많이 등장
- mean data 기준으로는 아주 평범한 문장
Semantic 관점:
- 의미는 매우 중요함 (슬픔, 위로 필요)
- 평균적 단어 빈도와 상관없다
- 의미적 weight가 큼
(iii) information also depends on knowledge level at transmitter and receiver
Semantic 통신에선 송신기와 수신기는 어떤 지식을 공유하고 있느냐에 따라 동일한 데이터도 다른 의미를 갖는다. 예를 들어,
"He's cold"
- 의학 지식: 체온이 낮다
- 감정적 문맥: 차갑다(무뚝뚝)
와 같이 같은 문장도 송/수신단의 지식 수준에 따라 다른 의미로 해석될 수 있다.
Source and Channel Coding
이다음 섹션에선 semantic 모델에 대해 조금 더 구체적으로 다룬다.

그림과 같은 3 계층에서, 송신자와 수신자는 환경과 상호작용하며 agent(인간 혹은 기계)로 모델링 된다. 이러한 agent들은 전송단의 지식기반에서 정해진 규칙들에 따라 m ∈ MT의 메시지를 전송단에서 생성한다. 이렇게 생성된 메시지를 물리적으로 전달하기 위해 data (m)은 symbol sequence, s ∈ S로 변환된다. 이러한 변환 함수는 s = f(m)로 나타낸다. 이 변환 함수는 항상 일대일 대응 함수가 아니며 하나의 의미에 여러 개의 표현이 대응될 수 있다. 이처럼 하나의 메시지가 다른 여러 문장으로 표현될 수 있으며 이런 것을 의미 표현의 모호성 (ambiguity)라고 한다.
$$
p_T(s) = \sum_{m \in M_T \,:\, s = f(m)} p_{M_T}(m)
$$
전송단에서 symbol s를 전송할 확률은 심볼에 해당하는 메시지들의 확률의 합과 같다.
예를 들어, symbol s는 다음 3개의 문장에 의해서 만들어질 때
- m1 = “I am tired” → s
- m2 = “I feel sleepy” → s
- m3 = “I want to rest” → s
각 문장의 등장 확률이 다음과 같으면
- p(m1) = 0.3
- p(m2) = 0.1
- p(m3) = 0.2
심볼 s의 확률은 세 문장 확률의 합인 0.3+0.1+0.2 = 0.6이 된다.
$$
H_T(S) = - \sum_{s_i \in S} p(s_i)\, \log_2 p_T(s_i)
$$
- 이와 같이 구한 심볼 확률을 통해, semantic 엔트로피를 계산할 수 있다.
$$
H_T(S) = - \sum_{s_i \in S} p(s_i)\, \log_2\!\big( p_T(s_i) \big)
$$
- 하나의 symbol이 갖는 불확실성에 대한 수식
$$
H_T(S) = H_T(M) + H_T(S \mid M) - H_T(M \mid S)
$$
\(H_T(M)\) 은 메시지 자체가 갖는 불확실성
\(H_T(S|M)\) 은 같은 의미를 갖는 문장이 표현 방식이 달라서 생기는 불확실성
→ semantic redundancy, 같은 의미인데 표현 방식이 다른 경우
\(H_T(M|S)\) 은 하나의 문장이 여러 의미로 해석될 때 생기는 불확실성
→ semantic ambiguity, 하나의 문장이 여러 가지로 해석될 때 생기는 애매모호함
즉, 심볼 S의 전체 불확실성 = 메시지 불확실성 + 심벌 중복성 − (심볼이 주어졌을 때 메시지 모호성)
$$
I(M;S) = H_T(M) - H_T(M \mid S) = H_T(S) - H_T(S \mid M)
$$
mutual information은 메시지(M)와 심볼(S)이 공유하는 “의미 정보량”
첫 번째 표현은 심볼 S에 대한 정보를 알고 있을 때 메시지 M에 대해 사라지는 불확실성을 나타내고.
두 번째 표현은 메시지를 알았을 때 심볼 S에 대해 불확실성이 감소하는 정도를 나타낸다.
위 식은 Shannon의 chain rule의 형태를 바꾼 식이다
1) Shannon의 기본 Chain Rule
$$
H(M, S) = H(M) + H(S \mid M)
$$
$$
H(M, S) = H(S) + H(M \mid S)
$$
2) 두 식은 joint entropy H(M,S) 를 공유
$$
H(M) + H(S \mid M)
=
H(S) + H(M \mid S)
$$
3) 위 식을 H(S)에 대해 정리하면, 논문의 식 (5)가 나온다
$$
H(S) = H(M) + H(S \mid M) - H(M \mid S)
$$
Entropy 다음으론 semantic encoder와 decoder에 대해서 다루어진다.
Semantic Encoder
- 송신 데이터에서 의미를 추출하고,
의미 전달에 필요 없는 정보는 압축·제거한다. - 이를 위해선, 송·수신기가 공유하는 지식(knowledge)과
공통 모델(common model)을 기반으로 "관련된 의미 요소"를 판단한다.
의미 요소를 판별하는 예:
- 이미지 → 고양이, 사람, 자동차와 같은 객체
- 텍스트 → 주어, 중요한 명사/동사, 형용사
Semantic Decoder
- 수신 신호 r 먼저 syntactic decoding 하여
심볼 시퀀스 s′ 생성 - 이후 수신기 내부의 지식 기반을 활용해
s′ 를 메시지 m′ 로 변환 - 목표는 송신 메시지 m과 의미적으로 동일한 m′ 을 얻는 것
(같은 구조가 아니어도 된다) - 더 나아가, 수신기 입장에서 의미가 잘 전달되었는지 평가해
성공 여부를 판단한다.
다음으론 semantic 통신 오류에 관한 내용이 다루어진다, 이를 syntatic 통신과 비교할 수 있다.
synatic, semantic 오류는 다음과 같은 원인들에 의해 발생한다
- syntactic: 랜덤 노이즈, 간섭 → 수신된 심볼 s′가 원본 s와 다를 때
- semantic: 송·수신기 지식 기반 차이, 잘못된 해석 → 의미 메시지 m′가 원본 의미 m과 다를 때
두 계층은 서로에 의존적이면서 독립적(?)이기도 하다
- semantic 계층은 syntatic 계층의 decoding에 의존적이나, syntatic 오류가 반드시 semantic 오류로 이어지지 않는다
- 수신기의 지식 기반을 활용하면 문장이 일부 틀려도 의미는 정확히 복원될 수 있음
- 반대로, syntatic 오류가 없어도 지식기반이 다르면 semantic 오류가 발생할 수 있다
이렇게 말(?)로 설명된 semantic 모델은 수식으론 아래와 같이 표현될 수 있다
복잡해 보이는 수식이나 이를 말로 설명하면
받은 신호 r을 기반으로 같은 symbol s를 만들어내는 m 중에서 가장 확률이 높은 m을 선택하는 것이다
$$
m^{*} = \arg\max_{m: s=f(m)} p(m \mid r) = \arg\max_{m: s=f(m)} p(m, s, r)
$$
마르코프 정리(?)를 사용하면 공식을 다시 쓸 수 있다
$$
m^{*} = \arg\max_{m: s=f(m)} \; p(r \mid s)\, p(s \mid m)\, p(m)
$$
식의 세 가지 확률 중 \( p(s\! \mid \!m) \)의 역할이 가장 중요하다, 다른 두 확률은 알려져 있는 값이기 때문이다
이 \( p(s\! \mid \!m) \)은 의미 m이 주어졌을 때 심볼 s로 바뀌어 전송되는지 나타내는 확률, 즉 encoder이다.
이 중요한 encoding을 어떻게 설계하느냐에 따라 오류 복원 성능이 달라진다.
앞서 다루었듯, syntatic에서 오류가 발생해도 semantic에서 올바르게 받을 수 있기 때문이다.
수학적인 이해가 부족한 거 같아 이에 대해 조금 더 알아보면...
- p(m) (알고 있는 값)
- 의미 m이 평소 얼마나 자주 등장하는지 나타내는 확률
- 의미에 대한 "사전 확률" 역할
- 예: 고양이 관련 문장이 자주 등장한다면 p(m=고양이) 값이 크다
2. \( p(s\! \mid \!m) \)(key role!!)
- 의미 m이 주어졌을 때 그것이 어떤 표현 s로 바뀌어 전송되는지 나타내는 확률
- 즉, semantic encoder가 의미를 어떻게 표현하는지에 대한 규칙
- 예: 의미가 “강아지”일 때 가능한 표현
- dog
- puppy
- small dog
- 이 값이 semantic 복원 능력에 직접적인 역할을 한다
3. \( p(r\! \mid \!s) \) (알고 있는 값)
- 심볼 s를 전송했을 때 채널에서 노이즈가 섞여 r 이 도착할 확률
- 물리 채널(전파, 잡음, 간섭 등)의 특성을 나타내는 값
- 예: AWGN에서는 r = s + noise 형태로 모델링 된다, 즉 알려져 있는 값이다
이렇게 semantic architecture에 대해서 조금 더 공부하고 정리해 봤다.
아마 다음으론 이 논문의 cross layer 부분을 정리하거나 semantic 시뮬레이션을 해볼 거 같다.

'Wireless Communications' 카테고리의 다른 글
| [논문 리뷰] A Survey on Semantic Communications for Intelligent Wireless Networks-3 (0) | 2025.11.24 |
|---|---|
| 간단한 Semantic 통신 시뮬레이션 (0) | 2025.11.21 |
| [논문 리뷰] A Survey on Semantic Communications for Intelligent Wireless Networks (0) | 2025.11.18 |
| 딥러닝 기반 통신 채널 추정-2 (Residual Learning) (0) | 2025.05.09 |
| 딥러닝 기반 통신 채널 추정-1 (CNN) (0) | 2025.04.30 |