Cache Me If You Can:陈丹琦团队如何「抓住」关键缓存,解放LLM内存?

Cache Me If You Can:陈丹琦团队如何「抓住」关键缓存,解放LLM内存?

4个月前

机器之心报道 机器之心编辑部 普林斯顿大学计算机科学系助理教授陈丹琦团队又有了新论文了。 近期,诸如「长思维链」等技术的兴起,带来了需要模型生成数万个 token 的全新工作负载。 大多数语言模型都基 …

Token经济,风起陇东

Token经济,风起陇东

6个月前

DeepSeek大火之后,为模型训练和推理市场带来计算量上的大幅增长。根据黄仁勋的测算,模型推理需要的算力消耗比我们当下以为的还要多100倍。 面对DeepSeek机遇,算力中心企业却喜忧参半。 喜的 …