HetuMoE: An Efficient Trillion-scale Mixture-of-Expert Distributed Training System

Nie, Xiaonan
Zhao, Pinxue
Miao, Xupeng
Zhao, Tong
Cui, Bin

Publication date

November 2022

Abstract

As giant dense models advance quality but require large amounts of GPU budgets for training, the sparsely gated Mixture-of-Experts (MoE), a kind of conditional computation architecture, is proposed to scale models while keeping their computation constant. Specifically, the input tokens are routed by the gate network and only activates part of the expert network. Existing MoE training systems only support part of mainstream MoE models (e.g. Top k) training under expensive high-bandwidth GPU clusters. In this paper, we present HetuMoE, a high-performance large-scale sparse MoE training system built on Hetu. HetuMoE provides multiple gating strategies and efficient GPU kernel implementations. To further improve the training efficiency on commo...

Extracted data

We use cookies to provide a better user experience.

Data Protection

HetuMoE: An Efficient Trillion-scale Mixture-of-Expert Distributed Training System

Abstract

Extracted data

HetuMoE: An Efficient Trillion-scale Mixture-of-Expert Distributed Training System

Abstract

Extracted data

Related items

Related items