绝了!大模型提效不用大改参数,RL训练的三门“筛选机制”曝光

绝了!大模型提效不用大改参数,RL训练的三门“筛选机制”曝光

13天前

离开Meta的田渊栋团队,最近抛出了个让大模型圈炸锅的研究。 明明RL训练能让模型在数学、编程上突飞猛进,可仔细一看,居然只改动了极少数参数。 作为天天跟大模型打交道的人,这个现象我之前也纳闷过。 O …

DeepMind再登Nature:AI Agent造出了最强RL算法!

DeepMind再登Nature:AI Agent造出了最强RL算法!

1个月前

人工智能(AI)的主要目标之一,是设计出能够像人类一样在复杂环境中自主预测、行动、最终实现目标的智能体(Agent)。智能体的训练离不开强化学习(RL),相关研究也已经持续了几十年,但让智能体自主开发 …

RL新思路!复旦用游戏增强VLM通用推理,性能匹敌几何数据

RL新思路!复旦用游戏增强VLM通用推理,性能匹敌几何数据

1个月前

  新智元报道   编辑:LRST 【新智元导读】复旦大学NLP实验室研发Game-RL,利用游戏丰富视觉元素和明确规则生成多模态可验证推理数据,通过强化训练提升视觉语言模型的推理能力。创新性地提出C …

停止RL研究!前OpenAI研究员:互联网才是唯一重要的技术

停止RL研究!前OpenAI研究员:互联网才是唯一重要的技术

6个月前

A former OpenAI researcher urges to halt reinforcement learning studies, emphasizing that the internet remains the ultimate technological force. This perspective sparks debate over the future priorities in AI development and digital innovation.