Notice

Recent Posts

Recent Comments

Link

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

Engineering insight

[ICLR-2017] Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer 본문

AI/AI Paper review

[ICLR-2017] Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer

Free-Nomad 2026. 5. 17. 12:59

Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer

작성 시각: 2026-05-06 22:35 KST

카테고리: AI

저자: Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, Jeff Dean

학회: ICLR 2017 Poster

arXiv: 1701.06538

DOI: 10.48550/arXiv.1701.06538

원문 링크:
https://openreview.net/forum?id=B1ckMDqlg

Outrageously Large Neural Networks: The Sparsely-Gated...

The capacity of a neural network to absorb information is limited by its number of parameters. Conditional computation, where parts of the network are active on a per-example basis, has been...

openreview.net

Dense 5-line summary

이 논문은 입력마다 모든 파라미터를 쓰는 dense 방식 대신, 일부 expert만 활성화하는 sparse Mixture-of-Experts(MoE)를 대규모로 실제 작동시킨 첫 핵심 사례다.
핵심은 noisy top-k gating과 expert 균형 손실(load/importance balancing)이며, 이를 통해 소수 expert만 계산하면서도 expert 쏠림을 완화했다.
저자들은 이 MoE를 LSTM 층 사이에 삽입해 최대 137B 파라미터까지 확장했고, 언어모델링과 기계번역에서 당시 강한 dense 기준선보다 더 좋은 성능을 더 낮거나 비슷한 계산비용으로 달성했다.
이 논문의 역사적 의미는 매우 크다. "모델을 크게 만든다"는 것이 곧 "매 토큰마다 모든 가중치를 계산한다"와 같지 않다는 점을 증명했고, 이후 GShard·Switch Transformer·현대 MoE LLM의 직접적 선행 연구가 되었다.
한계는 routing 불안정성, 분산환경 통신비용, 구현 복잡도, 그리고 실험 주력이 LSTM 시대라는 점이지만, sparse scaling의 가능성을 실전으로 끌어냈다는 점에서 여전히 고전이다.

한 줄 핵심 요약

이 논문은 입력마다 소수의 expert만 선택적으로 계산함으로써, 연산량을 dense 모델 수준에 가깝게 유지하면서도 모델 용량을 수십억~수천억 파라미터급으로 키울 수 있음을 처음 강하게 입증했다.

논문의 목적

딥러닝에서는 데이터가 충분히 크면 모델 파라미터 수를 늘릴수록 성능이 좋아지는 경향이 있다. 문제는 dense 네트워크에서는 파라미터가 늘어날수록 매 예제마다 계산량도 함께 커진다는 점이다. 저자들은 이 병목을 깨고 싶었다. 즉, 모델의 표현 용량은 크게 늘리되, 각 입력에서 실제 계산하는 양은 제한하는 조건부 계산(conditional computation)을 실제 대규모 GPU 클러스터에서 쓸 수 있게 만드는 것이 논문의 핵심 목적이다.

핵심 아이디어

논문은 Sparsely-Gated Mixture-of-Experts layer를 제안한다. 이 레이어에는 수많은 feed-forward expert가 있고, gating network가 현재 입력에 대해 어떤 expert를 몇 개 쓸지 결정한다. 모든 expert를 다 계산하는 대신 top-k expert만 선택하고 나머지는 아예 계산하지 않는다. 따라서 총 파라미터 수는 매우 커질 수 있지만, 토큰 하나당 실제 연산은 극소수 expert에 대해서만 일어난다.

방법론 상세

1) MoE 레이어 구성

각 expert는 같은 입출력 크기를 가지는 독립적인 feed-forward 네트워크다. 게이트는 각 입력 x에 대해 expert별 점수를 계산하고, 선택된 expert 출력의 가중합으로 최종 출력을 만든다. 게이트 가중치가 0인 expert는 아예 실행하지 않기 때문에 sparsity가 곧 계산 절약으로 이어진다.

2) Noisy top-k gating

저자들은 단순 softmax 대신 noise를 더한 뒤 상위 k개만 남기는 top-k gating을 사용한다. noise는 학습 초기에 탐색을 돕고, 특정 expert로의 조기 쏠림을 줄이는 데 기여한다. top-k는 "희소 선택"을 명확하게 보장하므로 MoE의 계산 이점이 실제로 살아난다.

3) Expert 쏠림 방지

MoE 계열에서 가장 흔한 실패는 몇몇 expert만 반복 선택되고 나머지는 거의 학습되지 않는 현상이다. 이 논문은 expert importance와 load를 기준으로 한 보조 손실을 추가해 사용량 불균형을 줄인다. 즉, 성능만 좋으면 되는 것이 아니라 전체 expert pool이 고르게 훈련되도록 유도한다.

4) 시스템 측면의 기여

이 논문은 알고리즘 논문이면서 동시에 분산시스템 논문이다. conditional computation은 이론상 좋아 보여도 실제 GPU에서는 branch 비용, expert별 작은 batch, 통신 병목 때문에 쉽게 망가진다. 저자들은 data parallel과 model parallel을 섞고, 시계열 전체 timestep을 묶어 expert batch를 키우며, expert 내부 hidden size를 키워 통신 대비 계산 비율을 높이는 방식으로 이 문제를 해결했다.

5) 실험 설정

1-Billion-Word language modeling benchmark
100B-word Google News corpus
WMT’14 English→French, English→German
Google production English→French dataset

주요 구조는 stacked LSTM 사이에 convolutional하게 MoE를 끼워 넣는 형태다. 번역 실험에서는 2048 experts, 대규모 언어모델링에서는 최대 131072 experts까지 사용하며 총 137B 파라미터에 도달했다.

Figure 1. recurrent language model 내부에 삽입된 MoE 개념도. 게이트가 두 개의 expert만 선택해 계산하는 예를 보여준다. 왜 중요한가: 이 그림 하나에 논문의 전부가 들어 있다. 파라미터는 크게, 실제 활성화는 작게 가져가는 sparse scaling의 핵심 구조다.

결과 상세

결과 1: 1B-word 언어모델링에서 dense SOTA를 계산 효율적으로 추월

모델Test PPL (10 epochs)Test PPL (100 epochs)파라미터 수Ops / timestep학습 시간

기존 최고 dense 결과	34.7	30.6	151M	151M	59시간 / 32 K40
Low-budget MoE	34.1	—	4.303B	8.9M	15시간 / 16 K40
Medium-budget MoE	31.3	—	4.313B	33.8M	17시간 / 32 K40
High-budget MoE	28.0	—	4.371B	142.7M	47시간 / 32 K40

왜 중요한가: 이 표는 이 논문의 메인 주장을 직접 증명한다. dense 기준선은 151M 파라미터지만 MoE는 약 4.3B 파라미터까지 가면서도, 계산량을 무식하게 비례 증가시키지 않고 더 좋은 perplexity를 낸다. 즉, 파라미터 수와 실제 계산량을 분리할 수 있음을 수치로 보여준다.

Figure 2. 1B-word benchmark에서 모델 용량 및 계산량 대비 perplexity 비교. 왜 중요한가: sparse MoE가 quality-compute tradeoff 전선을 실제로 이동시킨다는 것을 시각적으로 보여준다. 같은 계산 예산에서 더 큰 용량이 더 좋은 perplexity로 이어진다.

결과 2: 데이터가 커질수록 sparse capacity의 가치가 더 커짐

Figure 3. 100B-word corpus에서의 언어모델링 결과. 왜 중요한가: 1B-word에서는 1B 파라미터를 넘어서면 수익 체감이 보였지만, 100B-word에서는 capacity 증가의 이득이 훨씬 더 오래 지속된다. 논문은 65536 experts(68B parameters)에서 계산량이 맞춰진 baseline 대비 test perplexity가 39% 더 낮아졌다고 보고한다. 즉, sparse giant model의 효과는 특히 초대형 데이터셋에서 강하다.

결과 3: 기계번역에서도 당시 강한 기준선을 추월

WMT’14 En→Fr 모델Test PPLBLEUOps / timestep총 파라미터학습 시간

MoE 2048 experts	2.69	40.35	85M	8.7B	3일 / 64 K40
MoE 2048 experts (longer training)	2.63	40.56	85M	8.7B	6일 / 64 K40
GNMT	2.79	39.22	214M	278M	6일 / 96 K80
GNMT + RL	2.96	39.92	214M	278M	6일 / 96 K80

왜 중요한가: 이 결과는 MoE가 언어모델링 장난감이 아니라 실제 sequence-to-sequence 번역에서도 유효함을 보여준다. 특히 더 적은 ops/timestep에서 GNMT 계열을 BLEU로 넘겼다는 점이 중요하다.

WMT’14 En→De 모델Test PPLBLEUOps / timestep총 파라미터학습 시간

MoE 2048 experts	4.64	26.03	85M	8.7B	1일 / 64 K40
GNMT	5.25	24.91	214M	278M	1일 / 96 K80
GNMT + RL	8.08	24.66	214M	278M	1일 / 96 K80

왜 중요한가: 다른 언어쌍에서도 개선이 재현된다. 이는 routing 구조의 효과가 특정 데이터셋 우연이 아니라 보다 일반적인 scaling mechanism임을 뒷받침한다.

결과 4: expert specialization이 실제로 일어남

부록의 Table 9는 특정 expert가 어떤 문맥에서 활성화되는지 예시를 보여준다. 예를 들어 어떤 expert는 “plays a core/critical/leading role” 같은 문맥, 다른 expert는 “rapidly/swiftly/fastest” 같은 속도 관련 문맥, 또 다른 expert는 innovation/scientist 관련 문맥에 반응한다. 즉, expert들이 단순히 복제본이 아니라 문법적·의미적 역할별로 분화된다는 증거다.

논문의 진짜 새로움

조건부 계산의 실전 구현: 오래된 아이디어였던 MoE/conditional computation을 대규모 학습에서 실제로 쓸 수 있게 만들었다.
Noisy top-k sparse routing: 계산 절감과 exploration을 동시에 만족하는 간결한 routing 메커니즘을 제시했다.
Load-balancing loss: expert collapse를 부차 문제가 아니라 핵심 최적화 문제로 다뤘다.
시스템-알고리즘 공동설계: 분산학습 기법 없이는 성립하지 않는 구조를 실제로 굴러가게 만들었다.
역사적 영향력: 이후의 GShard, Switch Transformer, Mixtral류 sparse model로 이어지는 계보의 출발점이다.

한계

Routing 불안정성: balancing 장치가 없으면 몇몇 expert에 쏠릴 위험이 크다.
통신 병목: expert가 여러 장비에 분산되면 activation 이동 비용이 커질 수 있다.
구현 복잡도: dense 모델보다 디버깅과 운영이 훨씬 어렵다.
과도한 sparsity의 역효과: 가장 큰 131072 expert 설정에서는 오히려 성능 열화가 나타났다.
시대적 제약: 주력 실험이 LSTM 기반이라, 오늘날 transformer MoE에 그대로 수치 이식은 어렵다.

실무적 의미

모델을 크게 만드는 유일한 방법은 dense scaling이 아니라는 점을 보여준다.
초대형 데이터셋에서는 sparse capacity가 dense capacity보다 훨씬 더 좋은 효율을 낼 수 있다.
MoE 성능의 핵심은 단순 파라미터 수가 아니라 routing 품질과 시스템 구현 능력이다.
현대 frontier model에서 왜 sparse expert 구조가 계속 채택되는지 이해하려면 꼭 봐야 하는 논문이다.

최종 정리

한 줄 핵심 요약: 적은 수의 expert만 선택적으로 계산하면, dense 모델 수준의 연산으로 훨씬 더 큰 모델 용량을 활용할 수 있다.
Novelty summary: sparse routing, balancing loss, 분산시스템 최적화를 결합해 대규모 MoE를 실제로 작동시킨 첫 대표 논문이다.
Practical takeaway: 데이터가 매우 클 때는 "모든 파라미터를 매번 계산하는 dense scaling"보다 "필요한 expert만 켜는 sparse scaling"이 더 유리할 수 있다.
Main limitations: routing 안정성, 통신 비용, 운영 복잡도, 그리고 아키텍처의 시대적 한계가 있다.

출처

저는 이 논문이 LLM에 MoE를 적용하는 핵심 출발점 논문이라고 생각합니다.

지금은 MoE가 Local LLM에서는 일상적이지만, 꽤나 근례까지만해도 Dense 모델로 무겁게 돌려야한다는 관념이 있었습니다.

이 논문에서 가장 핵심인 부분은, MoE를 구축했다라는것도 있지만

그보다도 저는, Expert를 학습하는데 top-k ranking과 몇가지 Loss function만 설계해주면, 자연스럽게 어떤 Query에 대해 특정 Expert들만 사용하도록 학습된다는 점 입니다.

마치, 어떤 질문에 인간의 특정 뉴런들만 반응을 하는것 같은 그러한 느낌을 받았기 때문입니다.

'AI > AI Paper review' 카테고리의 다른 글

[Nature-2025] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (1)	2026.05.16
[arXiv-2026] There Will Be a Scientific Theory of Deep Learning (1)	2026.05.07
[arXiv-2026] FlashMoE: Reducing SSD I/O Bottlenecks via ML-Based Cache Replacement for Mixture-of-Experts Inference on Edge Devices (0)	2026.05.05
[NeurIPS-2025] FlashMoE: Fast Distributed MoE in a Single Kernel (0)	2026.05.04
[NeurIPS-2012] ImageNet Classification with Deep Convolutional Neural Networks (0)	2026.05.01

'AI/AI Paper review' Related Articles