Switch Transformer · JERRYLSU

MoE: Mixture of Experts

sparsely-activated model: 为每个传入的样本选择不同的参数。拥有庞大的参数，然而计算代价不变。

Switch Transformer: 简化MoE路由算法，减少通讯和计算开销。

arch1

Related Posts

Published

Jan 21, 2025

Category

LLM

Tags

LLM 9
MoE 1

Contact