GPT 模型#

GPT(Generative Pre-trained Transformer)系列模型由 OpenAI 提出,是现代大语言模型(LLM)的一条重要发展路线。它的核心在于生成,开创了通过大规模自回归预训练来构建强大通用语言模型的范式,是“解码器路径”模型的典范。

核心架构:Transformer 解码器#

GPT 的架构完全由一堆堆叠起来的 Transformer 解码器 组成。这意味着它的核心是带掩码的自注意力机制(Masked Self-Attention)

这种解码器的架构决定了 GPT 的本质特性:

  • 自回归(Autoregressive):在处理或生成文本时,模型在任何一个位置都只能关注到它之前的内容,这使得 GPT 天然地适合执行根据已有内容、续写下一个词的任务。

  • 单向性(Unidirectional):信息流是严格从左到右的。

预训练任务:标准语言建模#

GPT 的预训练任务非常直接和经典:就是标准语言建模。

目标是预测序列中的下一个词,给定所有前面的词。

\[ P(w_t | w_1, w_2, ..., w_{t-1}) \]

模型在一个极其庞大的、未标记的文本语料库(例如,整个互联网的文本)上进行这个任务的训练。通过不断地预测下一个词,模型被迫学习到语法、语义、事实知识以及各种复杂的语言模式。

微调 (Fine-Tuning)#

预训练完成后,GPT 可以针对特定的下游任务进行微调。例如,在模型顶部添加一个线性层,就可以将其用于情感分类、文章分类等任务。由于其生成性质,它也能够直接用于文本摘要、翻译和对话等任务。

GPT 的演进:规模与能力的涌现#

GPT 系列的发展清晰地展示了“规模定律(Scaling Laws)”的力量:即随着模型参数、数据量和计算量的指数级增长,模型的能力会“涌现”出意想不到的飞跃。

  • GPT-1 (2018):首次验证了“生成式预训练 + 任务微调”这一范式的有效性。

  • GPT-2 (2019):显著扩大了模型规模(最多 15 亿参数)。它最引人注目的发现是,一个足够大的语言模型无需任何微调,就能在 零样本(Zero-shot) 设置下执行多种任务。例如,你只要给它一个翻译任务的开头 translate to french: ...,它就能理解并继续完成任务。

  • GPT-3 (2020):再一次实现了巨大的规模跨越(最多 1750 亿参数)。GPT-3 的一个核心贡献是展示了上下文学习(In-context Learning) 的惊人能力。这意味着你甚至不需要微调模型,只需在输入提示(Prompt)中提供几个任务的示例(少样本学习, Few-shot Learning),模型就能理解你的意图并执行相应的任务。

  • ChatGPT (2022):ChatGPT 是 OpenAI 基于 GPT-3.5 和 GPT-4 等基础模型,通过 指令微调(Instruction Tuning)基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF) 技术,专门优化而成的对话式 AI 产品。它能够理解并遵循人类指令,进行多轮对话,并生成高质量、有帮助的文本,极大地推动了生成式 AI 的普及和应用。

Llama 系列:开源社区的推动者#

Llama (Large Language Model Meta AI) 是由 Meta 公司开发的另一个极其重要的“仅解码器”模型家族。它与 GPT 系列共享相同的核心架构和自回归训练目标,但其最大的贡献在于其开放的发布策略,极大地催化了开源大语言模型生态的繁荣。

架构与创新#

虽然基本范式与 GPT 相同,但 Llama 系列在其具体实现上引入了多项当时最先进的架构改进,例如:

  • SwiGLU 激活函数:替代了标准的 ReLU,以提升性能。

  • 旋转位置嵌入 (Rotary Positional Embeddings, RoPE):一种更高效、更灵活的位置编码方式。

  • RMSNorm:一种简化的层归一化方法,以提高训练稳定性。

核心影响:开放权重#

与 GPT-3/4 等闭源模型不同,Meta 开放了 Llama 模型的权重。这使得全世界的研究者、工程师和创业公司第一次能够接触到、研究和修改一个与顶尖闭源模型性能相当的基础模型。这一举动直接引爆了开源社区的创新浪潮,各种基于 Llama 微调的、针对特定任务或语言的模型层出不穷。

系列演进#

  • Llama 2 (2023):在 Llama 1 的基础上,使用了更大规模的数据进行训练,并重点提升了模型的安全性。其发布的 Llama 2-Chat 模型经过了严格的指令微调和 RLHF,在当时被认为是性能最强的开源对话模型之一。

  • Llama 3 (2024):进一步将预训练数据量扩大到惊人的 15T token,并在模型性能上再次树立了开源模型的新标杆,在多个基准测试上展现出与顶尖闭源模型竞争的实力。

总结#

GPT 系列模型证明了自回归语言建模和大规模训练的巨大潜力。它不仅是强大的文本生成器,更通过上下文学习展示了一种与模型交互的全新方式,为后来的指令微调和 ChatGPT 的诞生铺平了道路。而 Llama 系列模型则在此基础上,通过其开放权重的策略,极大地推动了全球开源社区的发展和创新。总的来说,GPT 和 Llama 共同确立了“仅解码器”架构作为当今主流大语言模型基石的地位,尤其擅长自然语言生成相关的任务。