再一次震动世界,DeepSeek展示终极野心要为大模型开辟新突破路径
1个月前打开今日头条查看图片详情 大型语言模型(LLM)的“上下文窗口”军备竞赛正将其推向一个根本性的计算悬崖。从几千个token到百万,乃至千万token,这场竞赛的背后是Transformer架构的核心瓶 …
Cache Me If You Can:陈丹琦团队如何「抓住」关键缓存,解放LLM内存?
6个月前机器之心报道 机器之心编辑部 普林斯顿大学计算机科学系助理教授陈丹琦团队又有了新论文了。 近期,诸如「长思维链」等技术的兴起,带来了需要模型生成数万个 token 的全新工作负载。 大多数语言模型都基 …
Token经济,风起陇东
8个月前DeepSeek大火之后,为模型训练和推理市场带来计算量上的大幅增长。根据黄仁勋的测算,模型推理需要的算力消耗比我们当下以为的还要多100倍。 面对DeepSeek机遇,算力中心企业却喜忧参半。 喜的 …