AI技术栈#
现代 AI(尤其是大语言模型)的生态系统从下至上可以大致划分为几个层次:
硬件与驱动层。这是所有计算的基础,为 AI 模型的训练和推理提供必需的算力。这一层执行海量的并行计算,尤其是矩阵乘法。例如:
NVIDIA GPUs: 目前 AI 领域绝对的主导者,如 A100, H100 系列。
Google TPUs: Google 自主研发的、为加速其内部(尤其是 TensorFlow)模型而设计的专用芯片。
CUDA: NVIDIA 创建的并行计算平台和编程模型,是其硬件生态的护城河。
训练/微调框架层。这一层提供了构建和训练神经网络的底层工具和库。开发者使用它们来定义模型架构、执行反向传播和参数优化,是深度学习研究和开发的基础语言。例如:
PyTorch: 由 Meta 主导的开源框架,以其灵活性、易用性和庞大的社区生态而成为目前学术界和工业界的首选。
TensorFlow: 由 Google 开发的框架,以其强大的生产部署能力和生态系统(如 TFX)而闻名。
JAX: Google 的另一个高性能数值计算库,结合了 Autograd 和 XLA,在研究社区中越来越受欢迎。
模型层。这一层是预训练好的、具备通用能力的模型本身,它们提供基础的感知、理解、推理和生成能力,是 AI 应用的“智慧核心”,但通常不直接面向最终用户。例如:
语言模型: GPT 系列 (OpenAI), Llama 系列 (Meta), Claude 系列 (Anthropic), Gemini 系列 (Google), Mistral 系列。
视觉模型: Stable Diffusion, Midjourney, DALL-E 系列。
模型服务与推理优化层。当模型训练好后,需要将其部署为可供调用的服务。这一层负责将模型部署为服务,并进行性能优化,是模型的“高性能引擎”,专注于让这个服务过程更高效。例如:
vLLM: 一个开源的高性能 LLM 推理和部署服务引擎。其核心技术 PagedAttention 极大地提升了推理的吞吐量和内存效率。
TensorRT-LLM: NVIDIA 官方推出的推理优化库,深度集成自家硬件,提供极致性能。
Text Generation Inference (TGI): 由 Hugging Face 推出的主流 LLM 服务解决方案。
应用框架层。这一层负责编排复杂的业务逻辑和任务流,将模型的能力与外部数据和工具结合起来。帮助开发者快速构建、组合和管理 LLM 应用的逻辑。例如:
LangChain: 最具代表性的 LLM 应用开发框架,提供了丰富的组件、链(Chains)和代理(Agents)来构建复杂的应用。
LlamaIndex: 一个专注于 RAG(检索增强生成)的“数据框架”。它在连接 LLM 与外部数据方面(如数据加载、索引、查询)尤其强大。
应用层。将底层的 AI 能力封装成易于使用的产品或服务,是最终用户直接交互、解决特定问题的产品。例如:
对话机器人: ChatGPT, Claude.ai。
AI 绘画工具: Midjourney, ComfyUI。
本地模型运行工具: Ollama。
编程助手: GitHub Copilot。