标签: MoE

包含标签 "MoE" 的所有文章：

Transformer与混合专家（MoE）：大型语言模型的架构对比
发表:2025年3月20日 at 15:00
在自然语言处理（NLP）领域，Transformer模型凭借其强大的性能成为主流架构。然而，随着模型规模的不断扩大，计算效率和推理速度成为新的瓶颈。为了解决这些问题，混合专家（Mixture of Experts, MoE）架构应运而生。
一文搞懂混合专家（MoE）模型
发表:2025年2月27日 at 05:00
在探索最新的大语言模型（LLM）时，“MoE”这一术语频繁出现在各种标题之中。DeepSeek-V3便是一个实力强劲的混合专家（MoE）模型，其总参数量高达6710亿，且在处理每个标记（token）时，能够智能地激活约370亿的参数，实现高效计算。

Transformer与混合专家（MoE）：大型语言模型的架构对比