EWC (Elastic Weight Consolidation)
개요
EWC(Elastic Weight Consolidation)는 딥러닝에서 연속 학습(Continual Learning) 문제를 해결하기 위해 고안된 정규화 기법이다. 신경망이 새로운 작업을 학습할 때 이전 작업에 중요한 가중치를 보존하여 파괴적 망각(Catastrophic Forgetting)을 방지한다. 2017년 DeepMind의 James Kirkpatrick 등이 제안한 이 방법은 가중치의 중요도를 피셔 정보 행렬(Fisher Information Matrix)로 측정하고, 중요한 가중치의 변화를 억제하는 제약을 추가한다.
주요 내용
배경: 파괴적 망각 문제
신경망은 새로운 데이터로 학습할 때 이전에 학습한 지식을 급격히 잊어버리는 경향이 있다. 이는 생물학적 뇌와 달리 인공 신경망이 안정성-가소성 딜레마(Stability-Plasticity Dilemma)를 해결하지 못하기 때문이다. EWC는 이 문제를 해결하기 위해 각 가중치의 중요도를 평가하고, 중요한 가중치는 크게 변경하지 않도록 제약한다.
수학적 원리
EWC는 베이지안 관점에서 접근한다. 새로운 작업 B를 학습할 때, 이전 작업 A의 사후 확률을 보존하는 방향으로 학습한다. 손실 함수는 다음과 같이 정의된다:
L(θ) = L_B(θ) + λ Σ_i (F_i (θ_i - θ_A,i)^2)
여기서 L_B는 새로운 작업의 손실, λ는 정규화 강도, F_i는 피셔 정보 행렬의 대각 성분으로 가중치 i의 중요도를 나타낸다. θ_A,i는 작업 A 학습 후의 가중치 값이다. 피셔 정보 행렬은 각 가중치가 출력에 미치는 민감도를 측정하며, 이는 가중치의 분산 역수와 관련된다.
알고리즘 절차
1. 작업 A 학습 후, 각 가중치에 대한 피셔 정보 행렬 F를 계산한다.
2. 작업 A의 최적 가중치 θ_A를 저장한다.
3. 작업 B 학습 시, 손실 함수에 정규화 항을 추가하여 θ_A에서 크게 벗어나지 않도록 제약한다.
4. 필요시 여러 작업에 대해 반복적으로 적용할 수 있다.
장점과 한계
- 장점: 구현이 간단하고, 다양한 네트워크 구조에 적용 가능하며, 연속 학습에서 우수한 성능을 보인다.
- 한계: 피셔 정보 행렬 계산에 추가 비용이 들고, 작업 수가 많아질수록 정규화 항이 누적되어 성능이 저하될 수 있다. 또한, 가중치 간 상호작용을 고려하지 않는 대각 근사(Diagonal Approximation)를 사용하므로 정확도가 떨어질 수 있다.
변형 및 확장
- Online EWC: 작업이 순차적으로 들어올 때 피셔 정보를 점진적으로 업데이트하는 방식.
- MAS (Memory Aware Synapses): 피셔 정보 대신 출력 변화에 기반한 중요도 측정.
- SI (Synaptic Intelligence): 가중치 변화 경로를 추적하여 중요도를 동적으로 계산.
최신 동향
2024-2025년 기준, EWC는 연속 학습 분야에서 여전히 중요한 기준점(Baseline)으로 사용된다. 최근 연구는 EWC를 메모리 기반 방법(예: Experience Replay)과 결합하여 성능을 향상시키는 방향으로 진행된다. 또한, 트랜스포머 기반 모델(예: GPT, BERT)에 EWC를 적용하여 파인튜닝 시 이전 작업의 성능을 유지하는 연구가 활발하다. 특히, 대규모 언어 모델(LLM)의 지속적 학습에서 EWC가 파괴적 망각을 완화하는 효과가 입증되었으나, 계산 비용 문제로 인해 경량화된 변형이 제안되고 있다. 2025년에는 EWC를 기반으로 한 메타 학습(Meta-Learning) 접근법이 등장하여, 여러 작업 간의 중요도를 자동으로 조정하는 방법이 주목받고 있다.
관련 주제
- [[연속 학습 (Continual Learning)]]
- [[파괴적 망각 (Catastrophic Forgetting)]]
- [[피셔 정보 행렬 (Fisher Information Matrix)]]
---
AI 자동 생성 문서 · 커뮤니티가 함께 개선합니다