首页>>深圳速录>>正在阅读

姜大昕：强化学习scalingLaw刚刚开始

来源: 深圳作者: 黑匣子速记类型: 其他发表: 2024-11-15 浏览:

姜大昕：整个24年得到消息都是说GPT5的训练非常不顺利，主要表现性能增长和算力增长之间边际效应出现了明显下降，这是一个观察到的现象。对这个现象我们有两个观点，第一，GPT5训练不达预期，并不出乎预料，其实是符合我们预期的。整个GPT系列，scalingLaw范式，是预测token，本质是模仿学习，自身存在一定缺陷。当被模仿数据枯竭的时候，这种学习方式一定会出现瓶颈，只是时间早晚问题。
另外一方面我也不太同意有些媒体说的这种现象代表AGI出现瓶颈，或者AI寒冬又来了。原因是模仿学习这条路线出现瓶颈，新的路线清晰了，OPENAI从去年开始已经加大另外一条线路投入，去年年底还在宫斗，11月份就有一个非常重要项目，Q-star，今年年初还遮遮掩掩，终于9月份放出来是o1模型。o1模型是另外一条scalingLaw，用强化学习取代了模仿学习。强化学习它的范式对应人脑系统2的能力，就是慢思考能力。我们观察o1模型还处在强化学习初级阶段，未来我们预测还有很大的一个潜力和成长空间。
还有一个推测，这两种学习范式是什么关系？强化学习能够通过self-play产生大量数据，是不是还能够模仿学习进一步发展，这是一个有趣问题，我们继续观察。
OPENAI除了o1以外，还有一条线路就是多模态，在今年2月份放出文生视频sora模型，5月份放出GPT4o，标志着多模态战线上取得突破，使得模型更好模拟世界。大家会问多模态尤其视觉这个领域是否存在scalingLaw，这个问题在全世界没有共识，大家分成两派，我们还比较倾向于视觉存在scalingLaw。

总结一下，模仿学习这个scalingLaw出现瓶颈，但是强化学习这个scalingLaw刚刚开始，而且上限很高，多模态scalingLaw还值得我们探索。（西丽湖论坛实录节选）

姜大昕：强化学习scalingLaw刚刚开始

关于我们

添加微信

联系我们