首页>>深圳速录>>正在阅读

姜大昕:强化学习scalingLaw刚刚开始


  来源: 深圳    作者:  黑匣子速记    类型: 其他    发表: 2024-11-15    浏览:   


姜大昕:整个24年得到消息都是说GPT5的训练非常不顺利,主要表现性能增长和算力增长之间边际效应出现了明显下降,这是一个观察到的现象。对这个现象我们有两个观点,第一,GPT5训练不达预期,并不出乎预料,其实是符合我们预期的。整个GPT系列,scalingLaw范式,是预测token,本质是模仿学习,自身存在一定缺陷。当被模仿数据枯竭的时候,这种学习方式一定会出现瓶颈,只是时间早晚问题。
    另外一方面我也不太同意有些媒体说的这种现象代表AGI出现瓶颈,或者AI寒冬又来了。原因是模仿学习这条路线出现瓶颈,新的路线清晰了,OPENAI从去年开始已经加大另外一条线路投入,去年年底还在宫斗,11月份就有一个非常重要项目,Q-star,今年年初还遮遮掩掩,终于9月份放出来是o1模型。o1模型是另外一条scalingLaw,用强化学习取代了模仿学习。强化学习它的范式对应人脑系统2的能力,就是慢思考能力。我们观察o1模型还处在强化学习初级阶段,未来我们预测还有很大的一个潜力和成长空间。
    还有一个推测,这两种学习范式是什么关系?强化学习能够通过self-play产生大量数据,是不是还能够模仿学习进一步发展,这是一个有趣问题,我们继续观察。
    OPENAI除了o1以外,还有一条线路就是多模态,在今年2月份放出文生视频sora模型,5月份放出GPT4o,标志着多模态战线上取得突破,使得模型更好模拟世界。大家会问多模态尤其视觉这个领域是否存在scalingLaw,这个问题在全世界没有共识,大家分成两派,我们还比较倾向于视觉存在scalingLaw。

    总结一下,模仿学习这个scalingLaw出现瓶颈,但是强化学习这个scalingLaw刚刚开始,而且上限很高,多模态scalingLaw还值得我们探索。(西丽湖论坛实录节选)