Wireless Communications

[논문 리뷰] Emergent Communication in Multi-Agent Reinforcement Learning for Future Wireless Networks

은최 2026. 3. 10. 17:51

논문 링크

 

Multi-agent Reinforcement Learning with Emergent Communication using Discrete and Indifferentiable Message

This paper proposes an integrated model of multi-agent reinforcement learning with emergent communication based on probabilistic generative models called MASAC- ECo that enables two agents to learn cooperative actions. In this model, agents receive message

ieeexplore.ieee.org

 

출처: H. Ebara, T. Nakamura, A. Taniguchi and T. Taniguchi, "Multi-agent Reinforcement Learning with Emergent Communication using Discrete and Indifferentiable Message," 2023 15th International Congress on Advanced Applied Informatics Winter (IIAI-AAI-Winter), Bali, Indonesia, 2023, pp. 366-371.


 

   이 논문에서는 Multi-agent reinforcement learning with emergent communication (EC-MARL) 방법을 제안한다. Emergent communication은 에이전트들이 자연스럽게 새로운 통신 프로토콜을 학습하고 발전시키는 과정을 의미한다. 에이전트들은 서로의 행동과 메시지를 통해 적절한 메시지를 학습한다.

 

MARL은 다음과 같은 상황들에서 필요하다. 

  1. 부분 관찰 환경 (Partially Observable Environment): 각 에이전트는 전체 환경 상태를 알 수 없고 자기 관찰값만 가질 때, 다른 에이전트의 관찰 정보가 필요하지만 직접 접근할 수 없으므로 메시지를 통해 공유해야한다.
  2. 비정상성 (Non-stationarity): 한 에이전트의 행동 결과 보상은 다른 에이전트의 의사결정에 따라 달라지는 상황일 때 각 에이전트들은 자신의 정책이나 의사결정 과정을 공유해야 안정적으로 학습할 수 있다. 

 

 

Fig. 1


  • 그림 상단: 도시 환경 속에서 여러 에이전트가 상호작용하는 모습을 나타낸다.
  • 왼쪽 (At time t): 각 에이전트는 자신의 관찰값과 이전 시점의 메시지 집합을 입력으로 받는다. 각 에이전트들은 정책을 통해 행동을 결정하고 메시지 네트워크를 통해 새로운 메시지를 생성한다. 그리고 이 모든 에이전트들은 공유된 네트워크 구조를 사용한다. 
  • 오른쪽 (At time t+1): 다음 시점에선 갱신된 관찰값과 새롭게 결합된 메시지를 받아 다시 행동과 메시지를 산출한다. 

 

  • 하단 (Goal-oriented communication): 송신 에이전트 i, k는 메시지를 생성한다. 메시지들은 메시지 결합기를 통해 합쳐진다. 다른 에이전트 j는 수신자로서 자신의 관찰값과 결합된 메시지를 활용해 행동을 결정한다. 이 과정은 목표를 달성하기 위한 목적 지향 통신이다. 
  • 이와 같은 과정을 통해 에이전트들은 새로운 통신 프로토콜과 적절한 메시지를 보내는 방법을 학습한다.