이 연구에서는 메타 학습이 이러한 문제를 해결하기 위한 자연스러운 선택임을 보여주고, 이전 접근 방식의 글로벌 모델 대신 매개변수화된 알고리즘(또는 메타 학습자)이 공유되는 연합 메타 학습 프레임워크 FedMeta를 제안합니다. FedMeta는 LEAF 데이터 세트와 실제 생산 데이터 세트에 대한 광범위한 실증 평가를 수행했으며, FedMeta가 연합 학습의 선도적인 최적화 알고리즘인 FedAvg(Federated Averaging)에 비해 더 빠른 수렴으로 필요한 통신 비용을 2.82-4.33배 절감하고 정확도를 3.23%-14.84% 증가시켰음을 입증했습니다. 또한 FedMeta는 매개변수화된 알고리즘만 모바일 장치와 중앙 서버 간에 전송되고 원시 데이터가 서버에 수집되지 않기 때문에 사용자 개인 정보를 보호합니다
Introduction
많은 시나리오에서 데이터는 다양한 클라이언트 간에 분산되고 개인 정보 보호에 민감하므로 모델 학습을 위해 중앙 서버에 원시 데이터를 수집하는 것이 비현실적입니다. 한편, 모바일 장치의 스토리지 및 계산 능력이 증가함에 따라 기계 학습 모델 학습과 같은 계산을 클라우드에서 에지 장치로 이동하는 것이 점점 더 매력적으로 다가오고 있습니다.
통계적 문제의 경우, 탈중앙화 데이터는 IID가 아니고 고도로 개인화되고 이질적이어서 모델 정확도가 크게 떨어집니다
체계적인 문제의 경우 장치 수는 일반적으로 기존의 분산 설정보다 훨씬 더 많습니다. 게다가, 각 장치는 저장, 계산 및 통신 용량 측면에서 상당한 제약을 가질 수 있습니다. 이 두 가지 문제를 해결하기 위해 [14]는 SGD를 사용한 로컬 학습의 Epoch 수와 배치 크기를 유연하게 결정할 수 있는 FedAvg(Federated Averaging) 알고리즘을 제안하여 높은 정확도를 달성하고 계산과 통신 비용 간의 균형을 달성했습니다.
Meta-learning과 federated learning을 연결한다. Meta-learning에서 매개 변수화 된 알고리즘은 많은 수의 작업에서 천천히 학습되며, 특정 모델은 각 작업의 알고리즘에 의해 빠르게 학습된다. 작업별 모델은 학습된 다음 쿼리 집합에서 테스트되고 테스트 결과는 알고리즘을 업데이트 하는데 사용된다. 반면 federated learning은 알고리즘이 서버에서 유지 관리되고 모델 학습을 위해 클라이언트에 배포된다.
comparing federated meta-learning with federated learning
연합 메타 학습 프레임 작업은 서버와 클라이언트 간에 전송되는 정보가 전역 모델이 아닌 알고리즘(매개 변수)이라는 점을 제외하고는 연합 학습과 유사해 보일 수 있습니다. 그러나 Federated learning은 모든 클라이언트의 데이터를 활용하도록 대규모 n-way 분류기를 훈련해야 하는 반면, k-way 분류기는 매번 하나의 클라이언트에 대해 예측을 하기 때문에 충분합니다. 모델이 크면 통신 및 계산 비용이 증가합니다. 관련 매개변수를 업데이트하기 위해 모델의 일부만 클라이언트에 보낼 수 있지만, 이를 위해서는 부분을 결정하기 위해 사전에 클라이언트의 개인 데이터에 대한 지식이 필요합니다. 반면에 메타 학습에서 알고리즘은 다양한 범주를 포함하는 작업을 훈련할 수 있습니다. 예를 들어, MAML(Model-Agnostic Meta-Learning) 알고리즘은 특정 범주에 관계없이 k-way 작업에 대한 메타 학습을 통해 k-way 분류기에 대한 초기화를 제공할 수 있습니다. 따라서 페더레이션 메타 러닝 프레임워크에서는 MAML을 사용하여 n개의 범주를 모두 사용하여 k-way 분류기 초기화를 메타 학습할 수 있습니다. 이러한 방식으로 연합 메타 학습은 통신 및 계산 비용을 상당히 낮춥니다.
contributuions
federated setting의 알고리즘 설계 측면에 중점을 두며, 광범위한 실험결과와 함께 새로운 프레임워크 제시.
1. 메타학습이 연합 설정을 위한 자연스러운 선택임을 보여주고, 메타학습 알고리즘을 연합학습과 통합한 FedMeta라는 새로운 연합 학습 메타 프레임 워크 제안
(서버에 데이터가 수집되지 않고 클라이언트 개인정보 보호 가능, MAML 및 Meta-SGD 설명 위한 프레임워크에 통합)
2. LEAF데이터셋에 대한 실험실행하여 FedMeta 프레임 워크에 포함된 실행 예제를 정확도, 계산 비용 및 통신 비용 측면에서 FedAvg와 비교 (FedMeta가 더 적거나 비슷한 오버헤드로 더 높은 정확도를 보임)
3 개인된 기록을 가지고 있는 산업 추천 작업에 FedMeta를 적용하고, 더 높은 정확도를 달성한다는 것을 실험으로 보임.
Related work
본 내용은 논문을 참고해주세요.
Federated Meta-Learning
이 섹션에서는 제안된 연합 메타 학습 프레임워크를 자세히 설명합니다. 먼저 메타 학습 접근 방식에 대해 논의하고 MAML(Model-Agnostic Meta-Learning)[5] 및 Meta SGD[12] 알고리즘을 실행 예제로 제시합니다. 그런 다음 메타 학습 알고리즘이 연합 설정에서 구현되는 방법을 설명합니다
The Meta-Learning Approach
메타 학습의 목표는 새로운 작업을 위해 심층 신경망과 같은 모델을 빠르게 훈련할 수 있는 알고리즘 A를 메타 학습하는 것입니다. 알고리즘 A는 일반적으로 매개 변수화되어 있으며, 매개 변수는 작업 모음을 사용하여 메타 학습 프로세스에서 업데이트됩니다. 메타 학습의 작업 T는 지원 집합 DT S = (xi yi) DT S i=1 및 쿼리 집합 DT Q = (xi yi) DT Q i=1 로 구성되며, 둘 다 레이블이 지정된 데이터 포인트를 포함합니다. 알고리즘 A는 서포트 세트 DT S에 대해 모델 f를 훈련시키고 내부 업데이트라고 하는 파라미터 T를 출력합니다. 그런 다음 모델 fT는 쿼리 세트 DT Q에 대해 평가되고 일부 테스트 손실 LDT Q(T)는 A의 훈련 능력을 반영하도록 계산됩니다. 마지막으로, 테스트 손실을 최소화하기 위해 A가 업데이트되며, 이를 외부 업데이트라고 합니다 지원 및 쿼리 집합은 일반화 가능성을 최대화하기 위해 분리되어 있습니다. 메타 훈련은 에피소드 배치가 작업 분포에서 샘플링되는 메타 훈련 방식입니다. 따라서 알고리즘A는 다음 목표에 따라 최적화됩니다.
MAML 알고리즘[5]이 대표적인 그래디언트 기반 메타 학습 방법으로, 그래디언트 업데이트 단계를 통해 모델을 훈련합니다. 알고리즘AforMAML은 모델에 대한 초기화를 제공하기 위해 간단히 사용됩니다. 특히, foreachtaskTthealgorithmmaintain = 이는 modelf의 매개 변수의 초기 값을 제공합니다. 그런 다음 지원 세트DT S에 변형되고 훈련 손실이 있는 기울기 단계를 사용하여 T로 업데이트됩니다LDT S ( ):= 1 DT S (xy) DT S (f (x) y), 여기서 손실함수, 예를 들어 이미지 분류 작업에 대한 교차 엔트로피.마지막으로 fT는 쿼리 세트DT QandthetestlossLDT Q ( T):= 1 DT Q (x y) DT Q (fT (x) y)가 계산된다. 방정식(1)의 최적화 목표는 다음과 같이 인스턴스화됩니다. 여기서 는 내부 기울기 업데이트에 대한 학습률입니다.
BasedonMAML,Meta-SGD[12]는 초기화 및 저녁 학습 속도를 동시에 학습하기 위해 단계적으로 학습합니다. 테스트 손실LDT Q ( T)는 SGD를 사용하여 외부 루프를 사용하여 외부 루프에서 업데이트 할 수 있습니다. 또한, 학습률은 좌표에 해당하는 동일한 차원의 벡터입니다. Meta-SGD의 최적화 목표는 다음과 같이 작성할 수 있습니다.
The Federated Meta-Learning Framework
연합 학습[14] 설정에서 학습 데이터는 클라이언트 집합에 분산되며, 서버에 데이터를 수집하지 않고 모델을 공동으로 학습하는 것을 목표로 합니다. 모델은 클라이언트에 배포되고 학습되며, 서버는 클라이언트에서 수집된 업데이트된 모델의 평균을 구하여 공유 모델을 유지 관리합니다. 휴대폰 사용자를 위한 추천과 같은 많은 실제 응용 프로그램에서 모델은 동일한 클라이언트 집합에 대한 예측을 수행하는 데 사용됩니다.
우리는 메타 학습을 연합 학습 프레임워크에 통합합니다. 목표는 클라이언트 간에 분산된 데이터를 사용하여 알고리즘을 공동으로 메타 학습하는 것입니다. MAML을 실행 예제로 사용하여 모든 클라이언트의 데이터를 함께 사용하여 모델에 대한 초기화를 학습하는 것을 목표로 합니다. MAML에는 유지 관리되는 초기화를 사용하여 작업별 모델을 학습하는 내부 루프와 작업의 테스트 손실로 초기화를 업데이트하는 외부 루프의 두 가지 최적화 수준이 포함되어 있습니다. 페더레이션 설정에서 각 클라이언트 u는 서버에서 초기화를 검색하고, 디바이스에 있는 데이터의 지원 세트 Du S를 사용하여 모델을 학습시키고, 별도의 쿼리 세트 Du Q에 대한 테스트 손실 LDu Q( )를 서버로 보냅니다. 서버는 초기화를 유지 관리하고 클라이언트의 미니 배치에서 테스트 손실을 수집하여 업데이트합니다.
이 과정에서 전송되는 정보는 모델 파라미터 초기화(서버에서 클라이언트로)와 테스트 손실(클라이언트에서 서버로)로 구성되며, 서버에 데이터를 수집할 필요가 없습니다. Meta-SGD의 경우 벡터는 알고리즘 매개변수의 일부로 전송되고 내부 루프 모델 학습에도 사용됩니다
알고리즘 1은 MAML 및 Meta SGD를 사용한 페더레이션 메타 러닝 프레임워크를 보여주며, 여기서 통신 라운드는 메타 러닝 용어의 에피소드에 해당합니다. 알고리즘은 AlgorithmUpdate 프로시저에서 유지 관리됩니다. 각 업데이트 라운드에서 서버는 샘플링된 클라이언트 집합에서 ModelTrainingMAML 또는 ModelTrainingMeta-SGD를 호출하여 테스트 손실을 수집합니다. 메타 학습 후 클라이언트 u에 모델을 배포하기 위해 u의 학습 세트를 사용하여 초기화를 업데이트하고 얻은 u를 사용하여 예측합니다
Experiments
Evaluation Scheme
모든 실험에서 우리는 무작위로 클라이언트의 80%를 교육 클라이언트로, 10%의 클라이언트를 검증 클라이언트로, 나머지는 테스트 클라이언트로 선택하는데, 이는 새로운 클라이언트로 일반화할 수 있는 능력을 연합 학습의 중요한 속성으로 간주하기 때문입니다. 각 클라이언트에 대해 로컬 데이터는 지원 집합과 쿼리 집합으로 나뉩니다. FedMeta는 제한된 데이터로 신규 사용자에게 얼마나 효율적으로 적응할 수 있는지 연구하기 위해 각 고객에 대한 지원 세트로 사용되는 데이터의 비율 p를 다양화합니다. 이 섹션의 나머지 부분에서는 이 설정을 "p Support"로 나타냅니다.
전통적인 연합 학습의 경우 FedAvg(Federated Averaging algorithm)[14]를 고려하는데, 이는 로컬 SGD(Stochastic Gradient Descent) 업데이트의 평균을 기반으로 하는 휴리스틱 최적화 방법이며 볼록하지 않은 설정에서 경험적으로 잘 작동하는 것으로 나타났습니다. 공정한 비교를 위해 FedAvg(Meta)에 의해 비활성화된 FedAvg의 메타 학습 버전도 구현합니다. 직관적인 FedAvg와 달리 FedAvg(Meta)는 테스트 클라이언트의 지원 세트를 사용하여 서버에서 받은 모델 초기화를 테스트하기 전에 미세 조정하며, 이는 메타 학습의 본질인 "미세 조정을 위한 학습"을 구현합니다. 학습 프로세스 중에 FedAvg 및 FedAvg(Meta)는 모두 학습 클라이언트의 모든 데이터를 사용합니다.
연합 메타 학습의 경우 MAML, MAML의 1차 근사치(FOMAML로 표시) [5] 및 Meta-SGD[12]의 세 가지 최적화 지향 알고리즘이 포함되어 있으며, 모두 모델에 구애받지 않는 방법이며 FedMeta 프레임워크 내에서 쉽게 구현할 수 있습니다. FOMAML은 2차 파생 상품이 생략된 MAML의 단순화된 버전으로, MAML과 유사한 성능을 가지면서도 계산 비용이 약 33% 빨라지는 것으로 보고되었습니다[5]. 따라서 시스템 오버헤드를 비교할 때 FOMAML을 추가로 고려합니다. 구현에 대한 자세한 내용은 부록에 나와 있습니다
LEAF Datasets
먼저 페더레이션 설정에 대한 벤치마크인 LEAF[3]를 살펴봅니다. LEAF는 세 가지 데이터 세트로 구성됩니다: (1) 62 클래스 이미지 분류를 위한 FEMNIST는 널리 사용되는 MNIST 데이터 세트의 더 복잡한 버전 역할을 합니다[9]. 데이터는 숫자/문자의 작성기를 기준으로 분할됩니다. (2) 윌리엄 셰익스피어 전집(The Complete Works of William Shake speare)[21]에서 발췌한 다음 인물 예측을 위한 셰익스피어. 각 연극에서 말하는 각 역할은 다른 클라이언트로 간주됩니다. (3) Sentiment140 [6] 2-class 감정 분류의 경우, 트윗에 제시된 이모티콘을 기반으로 트윗에 주석을 달아 자동으로 생성됩니다. 각 트위터 사용자는 클라이언트로 간주됩니다. 펨니스트의 경우 CNN 모델을, 셰익스피어의 경우 누적 문자 수준 LSTM 모델을, Sent140의 경우 LSTM 분류기를 사용합니다. 펨니스트, 셰익스피어, 센드140에 대해 각각 10, 20, 25로 설정된 k 레코드 미만의 비활성 클라이언트를 필터링합니다. 데이터 세트 및 채택한 모델에 대한 자세한 내용은 부록에 나와 있습니다.