dpad – 微精选

2个月前

在大型语言模型的优化中，业界通常认为计算量与模型性能正相关。然而，杜克大学陈怡然教授团队的一项最新研究DPad，却揭示了一个反直觉的现象：对于扩散大语言模型（dLLMs），通过一种「先验丢弃」策略， …

微精选