token – 微精选

再一次震动世界，DeepSeek展示终极野心要为大模型开辟新突破路径

再一次震动世界，DeepSeek展示终极野心要为大模型开辟新突破路径

1个月前

打开今日头条查看图片详情大型语言模型（LLM）的“上下文窗口”军备竞赛正将其推向一个根本性的计算悬崖。从几千个token到百万，乃至千万token，这场竞赛的背后是Transformer架构的核心瓶 …

DeepSeek、GPT-5带头转向混合推理，一个token也不能浪费

DeepSeek、GPT-5带头转向混合推理，一个token也不能浪费

3个月前

Cache Me If You Can：陈丹琦团队如何「抓住」关键缓存，解放LLM内存？

Cache Me If You Can：陈丹琦团队如何「抓住」关键缓存，解放LLM内存？

6个月前

机器之心报道机器之心编辑部普林斯顿大学计算机科学系助理教授陈丹琦团队又有了新论文了。近期，诸如「长思维链」等技术的兴起，带来了需要模型生成数万个 token 的全新工作负载。大多数语言模型都基 …

Token经济，风起陇东

8个月前

DeepSeek大火之后，为模型训练和推理市场带来计算量上的大幅增长。根据黄仁勋的测算，模型推理需要的算力消耗比我们当下以为的还要多100倍。面对DeepSeek机遇，算力中心企业却喜忧参半。喜的 …