논문 링크:
Federated Learning: Challenges, Methods, and Future Directions
Federated learning involves training statistical models over remote devices or siloed data centers, such as mobile phones or hospitals, while keeping data localized. Training in heterogeneous and potentially massive networks introduces novel challenges tha
ieeexplore.ieee.org
출처:
T. Li, A. K. Sahu, A. Talwalkar and V. Smith, "Federated Learning: Challenges, Methods, and Future Directions," in IEEE Signal Processing Magazine, vol. 37, no. 3, pp. 50-60, May 2020.
서론
Federated Learning(FL)은 데이터를 중앙 서버로 모으지 않고 각 기기에서 로컬 학습을 수행한 뒤 모델 업데이트만 중앙으로 공유하는 방식이다. 이 방법은 데이터를 로컬에서 보유하기 때문에 개인정보 보호에 유리하며 작은 모델 업데이트만 공유하기 때문에 네트워크 부담을 감소시킨다.

위 그림과 같이 스마트폰 키보드의 다음 단어를 예측하는 경우 텍스트 데이터는 예민한 정보를 담고 있을 수 있기에 각 기기에서 예측 모델을 학습한 후 데이터를 대신 업데이트만 중앙으로 전송한다. 중앙 서버는 이러한 업데이트를 종합하여 글로벌 모델을 각 기기들에 전송한다. 이 과정은 어떤 수렴이나 정지 기준을 달성할 때까지 반복된다. 이 외에도 조직, 병원, IoT, 자율주행차등에서 FL은 활용된다.
FL은 첫번째 식과 같이 전체 목적 함수 F를 최소화하는 w를 찾는 것이 목적이다. F는 k번째 디바이스의 목적 함수이며 p는 각 디바이스의 가중치이다. 두번째 식과 같이, 각 디바이스의 로컬 목적 함수는 개별 데이터 샘플의 손실함수들의 평균 합으로 결정된다. 즉, 각 디바이스에서 자신의 데이터로 손실을 계산한 후 서버는 이를 합쳐서 전체 모델을 업데이트한다.
$$
\min_{w} F(w) \quad \text{where} \quad F(w) = \sum_{k=1}^{m} p_k F_k(w)
$$
$$
F_k(w) = \frac{1}{n_k} \sum_{j=1}^{n_k} f_j\!\left(w; x_j, y_j\right)
$$
주요 도전 과제
Challenge 1: Expensive Communication
FL에선 수백만 대의 스마트폰과 같은 기기들이 참여하기에 네트워크 통신 속도가 로컬 학습 속도보다 느려 병목이 발생하게 된다. 그러기에 전체 데이터를 보내는 대신 각 기기들은 학습한 작은 메시지나 모델 업데이트만 서버와 주고 받는다. 통신 라운드 횟수를 줄이거나 메시지 크기를 줄이는 해결방향이 있다.
Challenge 2: Systems Heterogeneity
FL에 참여하는 기들은 성능, 네트워크 연결, 배터리 수준등 시스템 특성이 각자 제각각이기에 여러 문제가 발생한다. 전체 네트워크에서 일부 기기만 참여해 활성 기기 비율이 낮고 학습 도중 기기가 중도 탈락해 안정적인 학습이 어려우며 지연 문제가 심각해지거나 결과의 편향이 생길 수 있다. 이를 해결하기 위해 연구자들은 참여하는 기기가 소수일 수 있기에 적은 수의 참여자만으로도 학습이 진행될 수 있도록 설계해야하며 다양한 성능과 환경을 가진 기기들을 모두 수용할 수 있어야 한다. 또한 학습 도중 기기가 네트워크 상황등으로 인해 중도 탈락할 수 있기에 이를 고려하여 학습이 계속 진행될 수 있도록 알고리즘은 견고하게 설계되어야 한다.
Challenge 3: Statistical Heterogeneity
기존 distributed optimization에선 각 데이터들에 IID 가정을 하나 FL에서는 이 가정이 성립하지 않는다. 데이터 불균형 때문에 학습이 느려지거나 straggler가 존재하며 이에 따라 모델링, 분석, 평가가 더욱 복잡해진다. 이에 대한 해결책으로 각 기기 마다 특화된 모델링인 멀티태스크 학습과 메타러닝이 있다.
Challenge 4: Privacy Concerns
FL은 원본 데이터 대신 각 기기에서 학습한 모델 업데이트만 공유하나 이 업데이트를 통해서도 민감한 정보를 유출할 수 있다. 이에 대한 해결책으로 secure multiparty computation과 같은 암호화 기법과 differential privacy 같은 방법이 있는데 이런 기법들은 보안 강화에 도움이 되지만 시스템 효율성과 성능을 저하시킨다. 연구자들은 보안과 성능 사이의 균형을 고민해야한다.
관련 연구 조사: Communication-efficiency
Local Updating은 mini-batch 방식의 한계를 극복하기 위해 등장한 기법으로, 통신 효율을 높이고 계산-통신 균형을 유연하게 맞출 수 있으며, 페더레이티드 러닝에서는 FedAvg 같은 알고리즘으로 사실상 표준이 되었다. 하지만 데이터 이질성 문제로 수렴 보장이 어려운 한계가 있다.

Local updating은 통신 횟수를 줄여주지만, 여전히 각 라운드마다 전송되는 메시지 크기가 크면 네트워크 부담이 크다. 이를 줄이기 위해 모델 압축 기법이 사용된다. 기존 error compensation 기법은 기기가 자주 참여하지 않으면 로컬에서 누적된 오류가 오래된 상태가 정확성을 떨어뜨리기에 FL에 그대로 사용하기 어렵다. 이를 해결하기 위해 희소화, 저랭크화, 양자화, 손실/무손실 압축 같은 새로운 전략이 연구되고 있다.

일반적인 FL은 Centralized, 스타 네트워크 구조를 사용한다. 중앙 서버가 모든 기기와 연결되어 업데이트를 받아 집계한 뒤 다시 배포하지만 이 방법은 통신 비용이 커진다. Decentralized Training에선 기기들이 서버를 거치지 않고 이웃 기기들과 직접 통신하며 학습을 진행한다. 이를 통해 중앙 서버의 부담을 줄이고, latency나 대역폭 문제를 완화할 수 있다. 이론적으로는 통신 비용을 줄일 수 있지만 선형 모델에만 제한되거나 모든 기기가 동시에 참여해야 한다는 가정이 필요하다. 추가 변형으로 계층적(hierarchical) 구조도 제안되었는데 엣지 서버가 기기들의 업데이트를 모아 집계한 후 클라우드 서버가 엣지 서버들의 결과를 다시 집계한다.
연구 방향
Extreme Communication Schemes: 페더레이티드 러닝에서 실제로 얼마나 많은 통신이 필요한지 아직 명확하지 않다. 기존 방식은 대규모 네트워크나 이질적인 데이터에서는 아직 잘 이해되지 않으며 one-shot/few-shot 방법은 이론적 분석이나 대규모 실험은 아직 부족해 실용성 검증이 필요하다.
Communication Reduction & Pareto Frontier: Local updating, model compression 등으로 통신량을 줄일 수 있다. 실제 시스템을 만들려면 이 기법들의 조합, 정확도와 통신량 사이의 trade-off를 분석해야 함. (Pareto frontier: 동일한 통신 예산에서 다른 방법보다 더 높은 정확도를 달성하는 지점) 실제 시스템을 위해서는 정확도-통신량 trade-off를 Pareto frontier 관점에서 체계적으로 분석해야 한다.
Novel models of asynchrony: 기기(스마트폰, IoT 등)는 학습 전용이 아닌 본래 다른 작업을 수행하는 장치이다. 대부분의 기기는 특정 시점에 비활성 상태일 수 있고, 모든 기기가 동시에 참여하지 않는다. 기존의 bounded delay 가정은 현실적이지 않으며 참여 여부는 더 불확실하다. 이러한 한계점에 따라 기기가 자율적으로 깨어나 서버와 통신하는 이벤트 기반 비동기 모델을 새롭게 연구할 필요가 있다.
결론
페더레이티드 러닝은 엣지에서 학습하는 새로운 패러다임이며, 기존 방식과 다른 도전 과제(통신 효율, 시스템 이질성, 데이터 이질성, 프라이버시 강화)등을 가진다. 이를 해결하기 위한 다양한 연구 성과를 검토했으며, 앞으로는 학제적 협력이 필수적이다.
한계
- 논문은 주로 서베이와 개념적 논의에만 집중되어 있어 대규모 실험이나 실제 시스템 구현 결과가 부족하다. 제안된 아이디어들이 현실 환경에서 효과적인지 입증되지 않았다.
- 기존 연구들을 잘 정리했지만 저자 고유의 새로운 알고리즘, 이론적 기여가 뚜렷하지 않다고 평가될 수 있다.
- FedAvg가 non-IID 환경에서 발산하는 경우 수렴 보장에 대한 해결책이 부족하다.
- Differential Privacy, SMC 같은 기법들이 언급되지만 구체적인 분석은 부족하다.
- 논문에서도 언급했듯이, supervised learning에만 초점을 두고 있어 실제 응용에서 중요한 unsupervised learning, reinforcement, online learning에 대해서 다루지 않는다.
- 통일된 평가 기준과 대규모 비교 실험이 부족하다. 이에 따라 재현성이 떨어질 수 있다.