
LLM知识蒸馏新突破:90%参数压缩,图像融合效果不减反增!
11天前龙哥寄语:当大模型遇见蒸馏术,就像把百科全书装进了口袋书——这份来自中科大的’瘦身秘籍’,让图像融合既保住了智慧,又甩掉了赘肉! 论文标 …

学术版ChatGPT登场!科研神器OpenScholar让LLM帮你搞定文献综述
2个月前编辑:乔杨 【新智元导读】Ai2和华盛顿大学联合Meta、CMU、斯坦福等机构发布了最新的OpenScholar系统,使用检索增强的方法帮助科学家进行文献搜索和文献综述工作,而且做到了数据、代码、模型 …

苹果一篇论文得罪大模型圈?Transformer不会推理,只是高级模式匹配器!所有LLM都判死刑
8个月前新智元报道 编辑:peter东 Aeneas 【新智元导读】苹果研究者发现:无论是OpenAI GPT-4o和o1,还是Llama、Phi、Gemma和Mistral等开源模型,都未被发现任何 …

Yann LeCun最新万字演讲:致力于下一代AI系统,我们基本上不做LLM了!(阅)
8个月前作者:Datawhale 链接:https://mp.weixin.qq.com/s/fzxIH2X-yvBfQXyJWiRo_w 本文仅用于学术分享,如有侵权,请联系后台作删文处理 导读 Yann …

以图灵机为师:通过微调训练让大语言模型懂执行计算过程
8个月前本文来自南京大学计算机学院软件研究所,聚焦于开放环境下的智能软件新技术研究,定位国际学术前沿,面向国家关键需求,承担了一系列国家科技部和基金委重大/重点科研项目。团队拥有包括中科院院士等多名国家级人才 …

深入了解大模型的微调——什么是LoRA,PEFT,DeepSpeed,ZeRO
8个月前自从谷歌的那篇开创性的论文《注意力就是你所需要的一切》发表以来,大型语言模型 (LLM) 就随着ChatGPT的发布而风靡全球,这导致了生成式人工智能和 OpenAI 等公司的兴起。现在,一些大型商业 …

综合RLHF、DPO、KTO优势,统一对齐框架UNA来了
8个月前论文主要作者: 1. 王智超:本科就读于厦门大学土木工程系,研究生博士就读于佐治亚理工并获得土木工程和计算机工程硕士及机械工程博士,现任职于 Salesforce,专注于 LLM Alignment。 …

内部先验知识与RAG冲突了怎么办?对LLM如何平衡内外部知识的一些思考
9个月前LLM 内部先验知识与 RAG 冲突了怎么办? 前段时间在华为诺亚完成了一篇有关 Adaptive RAG 的工作,现在在做对齐架空世界知识与现实世界知识,尤其是智能游戏 NPC 的工作。分享一下有关 …

大佬亲身示范:操纵AI如此简单,LLM不仅「发疯」还造谣诽谤
9个月前新智元报道 编辑:乔杨 Frey 【新智元导读】当谷歌的Gemini建议给比萨加胶水时,网友尚能发挥娱乐精神玩梗解构;但当LLM输出的诽谤信息中伤到到真实人类时,AI搜索引擎的未来是否值得再三 …

Transformer推理天花板被谷歌打破?DeepMind首席科学家亮出84页PPT,却遭LeCun反对
9个月前新智元报道 编辑:编辑部 HXZ 【新智元导读】随OpenAI爆火的CoT,已经引发了大佬间的激战!谷歌DeepMind首席科学家Denny Zhou拿出一篇ICLR 2024论文称:CoT可 …