논문 링크:
Multi-agent Reinforcement Learning with Emergent Communication using Discrete and Indifferentiable Message
This paper proposes an integrated model of multi-agent reinforcement learning with emergent communication based on probabilistic generative models called MASAC- ECo that enables two agents to learn cooperative actions. In this model, agents receive message
ieeexplore.ieee.org
출처: H. Ebara, T. Nakamura, A. Taniguchi and T. Taniguchi, "Multi-agent Reinforcement Learning with Emergent Communication using Discrete and Indifferentiable Message," 2023 15th International Congress on Advanced Applied Informatics Winter (IIAI-AAI-Winter), Bali, Indonesia, 2023, pp. 366-371.
이 논문에서는 Multi-agent reinforcement learning with emergent communication (EC-MARL) 방법을 제안한다. Emergent communication은 에이전트들이 자연스럽게 새로운 통신 프로토콜을 학습하고 발전시키는 과정을 의미한다. 에이전트들은 서로의 행동과 메시지를 통해 적절한 메시지를 학습한다.
MARL은 다음과 같은 상황들에서 필요하다.
- 부분 관찰 환경 (Partially Observable Environment): 각 에이전트는 전체 환경 상태를 알 수 없고 자기 관찰값만 가질 때, 다른 에이전트의 관찰 정보가 필요하지만 직접 접근할 수 없으므로 메시지를 통해 공유해야한다.
- 비정상성 (Non-stationarity): 한 에이전트의 행동 결과 보상은 다른 에이전트의 의사결정에 따라 달라지는 상황일 때 각 에이전트들은 자신의 정책이나 의사결정 과정을 공유해야 안정적으로 학습할 수 있다.
Fig. 1
- 그림 상단: 도시 환경 속에서 여러 에이전트가 상호작용하는 모습을 나타낸다.
- 왼쪽 (At time t): 각 에이전트는 자신의 관찰값과 이전 시점의 메시지 집합을 입력으로 받는다. 각 에이전트들은 정책을 통해 행동을 결정하고 메시지 네트워크를 통해 새로운 메시지를 생성한다. 그리고 이 모든 에이전트들은 공유된 네트워크 구조를 사용한다.
- 오른쪽 (At time t+1): 다음 시점에선 갱신된 관찰값과 새롭게 결합된 메시지를 받아 다시 행동과 메시지를 산출한다.

- 하단 (Goal-oriented communication): 송신 에이전트 i, k는 메시지를 생성한다. 메시지들은 메시지 결합기를 통해 합쳐진다. 다른 에이전트 j는 수신자로서 자신의 관찰값과 결합된 메시지를 활용해 행동을 결정한다. 이 과정은 목표를 달성하기 위한 목적 지향 통신이다.
- 이와 같은 과정을 통해 에이전트들은 새로운 통신 프로토콜과 적절한 메시지를 보내는 방법을 학습한다.
