LLM | Huhu's blog

No.4 强化学习（Reinforcement Learning）和人类反馈强化学习

2025-06-14

之前介绍的预训练 + SFT，虽然已经能让 LLM 完成大部分工作，但在后训练阶段我们还能继续增强它，因此引入 强化学习(RL), 简单来说，RL 给模型提供了另一种**“自我探索与优化”**的能力

No.3 后训练让 LLM 能和你连续对话

2025-05-25

如之前所说,后训练成本相比预训练低得多, 并不需要再用到全部互联网数据。

基座模型虽然能模仿互联网内容续写内容, 或者像 Copilit 那样补全代码, 但还不够有用 , 如何让模型变得有用呢？尤其是，如何让它像 ChatGPT 一样能够与人进行多轮对话、回答问题？这就需要 SFT（监督微调）

No.2 预训练：让神经网络预测“下一个 token”

2025-05-10

什么是预训练

GPT 中的 Generative Pre-trained Transformer 的 Pre-trained 就是指的这一步

ChatGPT 终于能原生画图了，我们能用它做点什么？(GPT-4o 原生图片输出能力介绍)

2025-04-02

4o 的生图工终于在公布差不多1 年后,终于开放使用了,看看我们能利用这个模型实际做一些什么 (因为这篇主要是为了向同事介绍这个模型,因此不少图用了公司 logo,所以这里的分享会对 logo打码)

不过从简单的说就是和 SD 这样的扩散生图的模型不同, 4o 的生图采用了自回归的方式也是和生成对话一样有顺序的生成的,因此能获得比较精确的效果

No.1 ChatGPT 的训练数据来源

2025-03-16

LLM 究竟是什么呢? 一方面，它确实有一些非常神奇、令人惊叹的能力；另一方面，它在某些方面也并不擅长。所以, 在这个对话框背后究竟是什么？我们输入任何东西，按下回车，会出现一段文字——产生这些文字的原理是什么？我们到底在和什么“对话”？相信如果我们能大概了解它的能力,也对我们更好地使用它有很大的帮助(而不是说我们真的要去训练模型)

Huhu's blog