AI相关软件框架#

Hugging Face Transformers#

它在 PyTorch、TensorFlow 等底层框架之上,提供了对上千种 Transformer 模型(如 BERT, GPT)的标准实现。开发者无需从零开始构建模型,可以直接使用 transformers 库加载预训练模型,并利用其 Trainer API 在框架上进行便捷的微调。LangChain 等应用框架通常会深度集成 transformers 库,通过它调用和操作模型,以执行应用逻辑中的具体步骤。

可以将其理解为一个标准化的“模型引擎套件”,极大地降低了使用和训练 SOTA 模型的门槛,是事实上的模型生态标准。

OpenCV#

历史悠久且功能强大的经典计算机视觉算法库。可对图像进行读取、缩放、裁剪、颜色转换和数据增强,可对结果进行可视化,例如在图像上绘制检测框或分割掩码。

torchvision#

PyTorch 官方的计算机视觉库,它提供了一套基础全面的工具,包括:

  • models:提供 ResNet, ViT 等经典、稳定的模型实现。

  • datasets:方便地加载 ImageNet, CIFAR-10 等标准数据集。

  • transforms:提供标准的图像变换和数据增强功能。

timm (PyTorch Image Models)#

timm 的核心优势是提供了海量的、紧跟研究前沿的SOTA 图像模型。

diffusers#

由 Hugging Face 推出的,专注于AI 生成(AIGC)领域扩散模型的工具箱。它将复杂的扩散过程(如 Stable Diffusion)拆解为模型、调度器等模块化组件,让开发者可以灵活地构建和定制自己的文生图、图生图等生成流水线。

PEFT (Parameter-Efficient Fine-Tuning)#

由 Hugging Face 开发,专门用于高效微调大模型。它将 LoRA, QLoRA 等参数高效微调技术封装成简单接口,使在消费级硬件上微调巨型模型成为可能,通常与 transformers 库配合使用。

支撑 LLM 开发和应用的软件生态系统#

  • 深度学习框架:用于构建和训练神经网络。如 PyTorch, TensorFlow。

  • 高效推理框架:优化 LLM 在生产环境中的推理速度和资源消耗。如 vLLM, TensorRT-LLM。

  • 统一算子框架:用于编写高性能的自定义 GPU 算子。如 Triton。

  • Agent 框架:用于构建能够自主规划、工具使用和多步推理的 LLM 智能体。如 LangChain, LlamaIndex, AutoGen。