No.4 强化学习(Reinforcement Learning)和人类反馈强化学习
2025-06-14
之前介绍的预训练 + SFT,虽然已经能让 LLM 完成大部分工作,但在后训练阶段我们还能继续增强它,因此引入 强化学习(RL), 简单来说,RL 给模型提供了另一种**“自我探索与优化”**的能力
之前介绍的预训练 + SFT,虽然已经能让 LLM 完成大部分工作,但在后训练阶段我们还能继续增强它,因此引入 强化学习(RL), 简单来说,RL 给模型提供了另一种**“自我探索与优化”**的能力
如之前所说,后训练成本相比预训练低得多, 并不需要再用到全部互联网数据。
基座模型虽然能模仿互联网内容续写内容, 或者像 Copilit 那样补全代码, 但还不够有用 , 如何让模型变得有用呢?尤其是,如何让它像 ChatGPT 一样能够与人进行多轮对话、回答问题?这就需要 SFT(监督微调)
GPT 中的 Generative Pre-trained Transformer 的 Pre-trained 就是指的这一步
4o 的生图工终于在公布差不多1 年后,终于开放使用了,看看我们能利用这个模型实际做一些什么 (因为这篇主要是为了向同事介绍这个模型,因此不少图用了公司 logo,所以这里的分享会对 logo打码)
不过从简单的说就是和 SD 这样的扩散生图的模型不同, 4o 的生图采用了自回归的方式也是和生成对话一样有顺序的生成的,因此能获得比较精确的效果
LLM 究竟是什么呢? 一方面,它确实有一些非常神奇、令人惊叹的能力;另一方面,它在某些方面也并不擅长。所以, 在这个对话框背后究竟是什么?我们输入任何东西,按下回车,会出现一段文字——产生这些文字的原理是什么?我们到底在和什么“对话”? 相信如果我们能大概了解它的能力,也对我们更好地使用它有很大的帮助(而不是说我们真的要去训练模型)