논문 링크:
Cognitive Semantic Communication Systems Driven by Knowledge Graph
Semantic communication is envisioned as a promising technique to break through the Shannon limit. However, the existing semantic communication frameworks do not involve inference and error correction, which limits the achievable performance. In this paper,
arxiv.org
출처: F. Zhou, Y. Li, X. Zhang, Q. Wu, X. Lei, and R. Q. Hu, “Cognitive semantic communication systems driven by knowledge graph,” arXiv preprint arXiv:2202.11958, Feb. 2022.
I. Introduction
knowledge graph를 활용한 cognitive semantic communication system구조가 제안된다. 수신단에선 T5 model을 통해 필요한 의미 정보를 복원해낸다.
- Semantic Symbol Abstraction: 송신자가 보내고 싶은 원문 텍스트 m에서 head–relation–tail 구조의 트리플을 추출한다. KG(지식 그래프)에 존재하는 엔티티 쌍을 기반으로 이루어진다. s = f(m)
- Conventional Communication Modules: 의미 심볼 s를 실제 무선 채널로 보내기 위해 비트열로 변환, 보호, 전송하는 단계이다. 트리플의 head, relation, tail을 고정 길이 정수 코드로 변환해 전송한다. 지식 그래프를 이용해 오류를 보정한다.
- Semantic Symbol Recognition: 수신단에선 KG2Text를 통해 트리플을 자연어 문장으로 변환한다.

II. Cognitive Semantic Communication
자연어는 표현이 다양하고 중복이 많지만, 의미는 훨씬 더 간결하고 구조적이다. 따라서 의미만 전송하는 것이 더 효율적이다.
- Semantic Redundancy: 두 문장의 표현은 다르지만 의미가 동일한 경우를 나타낸다. 의미 기반 통신에선 이런 자연어 중복을 제거하고 의미만 전송하여 압축 효율을 높일 수 있다.
- Semantic Ambiguity: 하나의 의미가 여러 자연어 문장으로 표현될 수 있는 것을 나타낸다.

Fig. 3은 하나의 문장이 제안된 시스템을 통해 어떻게 처리되는지를 단계별로 보여준다.
- Text2KG Aligner: 문장을 분석해 지식 그래프에 존재하는 엔티티와의 관계를 추출해 트리플로 변환한다.
- Conventional Communication System: 추출된 트리플들은 전송 가능한 비트열로 변환되어 채널을 통과한다.
- T5 (KG2Text): 복원된 트리플들을 입력받아 자연어 문장으로 다시 생성한다.

III. Knowledge Graph and System Implementation
Text2KG alignment algorithm
- 정렬된 트리플들을 담아둘 빈 리스트 alignment_triples를 하나 만든다.
- 입력 텍스트를 문장 단위 s로 쪼개고, 각 문장 s에 대해 하나씩 반복한다.
- 지식 그래프(KG)에 들어 있는 모든 트리플 (h, r, t)에 대해 반복한다.
- 현재 보고 있는 문장 s안에 엔티티 h와 엔티티 t가 같이 등장하면 이 문장이 (h, r, t) 트리플을 표현하고 있다고 본다.
- 조건을 만족하면, 트리플 (h, r, t)를 alignment_triples에 추가한다.

Correction Algorithm
- 채널에서 깨진 비트열을, KG에 있는 트리플 코드들을 기준으로 가장 비슷한 것으로 교정
- o: 채널을 통과한 뒤 수신기가 받은 비트열
- KG_coding: 지식 그래프에 있는 모든 트리플을 비트로 인코딩한 코드들의 집합
- similar(a, b): 두 비트열 a와 b가 얼마나 다른지를 계산하는 함수, 루프가 끝나면 sim = a와 b 사이에 다른 비트의 개수
- tmp 리스트 생성: KG에 있는 모든 트리플 코드를 하나씩 꺼내서 수신된 코드 o와의 차이(sim)를 tmp에 저장
- tmp에서 가장 큰 값의 인덱스를 선택해 인코딩 수행하여 에러 정정 (max가 아니라 min이 자연스러울 거 같다)
- 이를 통해 해밍거리가 가장 작은 KG값을 o와 대체

IV. Simulation Results
문장 길이와 문장 수가 증가할 때 제안한 방법은 다른 방법 대비 더 적은 수의 비트를 사용했다. 즉 더 훌륭한 semantic 압축률을 갖는 것을 알 수 있다.


Sentence similarity와 BLEU 면에서도 baseline 방법 대비 그 성능이 잘 보존되었다. 확률이 0일 땐 베이스라인이 더 높은 결과를 보이기도 하나 제안한 방법도 0.9 이상으로 의미 이해에 문제 없는 수준이다.


송신/수신 신호들의 전송 예시
- Lossless: TX와 RX 문장이 의미뿐 아니라 표현까지 그대로 보존
- Rephrasing but lossless semantics: 표현은 다르지만 의미는 완전히 동일, 의미 기반 통신의 핵심 철학
- Align redundant information: KG에 저장된 지식이 더 풍부해서 TX 문장에는 없던 추가 정보가 RX에서 등장
- An inexplicable error: 의미 기반 통신이 실패한 경우, 완전히 다른 문장이 생성됨.
- Disambiguation: TX 문장이 모호한 표현을 포함하고 있을 때 RX 문장은 더 명확한 의미 표현으로 바뀌는 경우
