解锁万亿参数的奥秘:大语言模型中的混合专家(MoE)架构

解锁万亿参数的奥秘:大语言模型中的混合专家(MoE)架构

3个月前

随着深度学习进入一个新时代,大型语言模型(LLM)的能力边界被不断拓宽,但其背后是呈指数级增长的计算和能源消耗。这种“能力越大,代价越大”的困境,正成为阻碍技术普惠的巨大壁垒。在这场性能与效率的博弈中 …

全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点

全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点

1年前

【新智元导读】Time-MoE采用了创新的混合专家架构,能以较低的计算成本实现高精度预测。研发团队还发布了Time-300B数据集,为时序分析提供了丰富的训练资源,为各行各业的时间序列预测任务带来了新 …