LLM-Learn# 神经网络 概述 神经网络 线性回归 Softmax回归 多层感知机 激活函数 训练和推理 训练和推理 模型推理 损失与优化 反向传播的梯度计算 正则化 卷积神经网络 卷积神经网络 CNN 的核心组件 著名的 CNN 模型 自然语言处理 (NLP) 传统NLP基础 文本预处理 文本表示 基本 NLP 任务与概念 循环神经网络 (RNN & LSTM) 循环神经网络 (RNN) RNN 的局限:长程依赖问题 长短期记忆网络 (LSTM) GRU (Gated Recurrent Unit) Transformer Transformer 架构 整体架构:编码器-解码器 其他关键组件 总结 Transformer 训练过程详解 1. 编码器计算过程 2. 解码器训练过程:教师强制 (Teacher Forcing) 3. 损失计算与反向传播 Transformer 推理过程详解 1. 编码器计算过程 2. 多头自注意力机制 (Multi-Head Self-Attention) 3. 残差连接与层归一化 (Add & Norm) 4. 位置前馈网络 (Position-wise Feed-Forward Network) 5. 解码器推理过程:自回归生成 总结 现代大语言模型 预训练语言模型 预训练与微调 常见模型类型 GPT 模型 核心架构:Transformer 解码器 预训练任务:标准语言建模 微调 (Fine-Tuning) GPT 的演进:规模与能力的涌现 Llama 系列:开源社区的推动者 总结 BERT 模型 预训练任务 微调 (Fine-Tuning) BERT 的实际应用 提示工程 常用提示技巧 模型参数 指令微调与RLHF 检索增强生成 核心思想 向量数据库 RAG 系统的典型架构 RAG 的优势 混合专家模型 模型量化与推理优化 模型量化 (Quantization) 推理优化 (Inference Optimization) 模型评估 AI技术栈 附录 AI应用 Ollama Stable Diffusion WebUI ComfyUI AI相关软件框架 Hugging Face Transformers OpenCV torchvision timm (PyTorch Image Models) diffusers PEFT (Parameter-Efficient Fine-Tuning) 支撑 LLM 开发和应用的软件生态系统 数学基础 1. 线性代数 (Linear Algebra) 2. 微积分 (Calculus) 3. 概率论与统计 (Probability and Statistics) 4. 优化理论 (Optimization Theory) 5. 交叉熵 (Cross-Entropy) Matplotlib A Simple Plot PyTorch:深度学习框架 1. 核心概念 2. 常用模块与函数 3. GPU 加速 论文 链接 教程 术语