MoE: Mixture of Experts

sparsely-activated model: 为每个传入的样本选择不同的参数。拥有庞大的参数,然而计算代价不变。

Switch Transformer: 简化MoE路由算法,减少通讯和计算开销。

arch1

Share on: TwitterFacebookEmail

Comments


Related Posts


Published

Category

NLP

Tags

Contact