Full

全参数更新

LoRA [2106.09685] LoRA: Low-Rank Adaptation of Large Language Models (arxiv.org)

截屏2024-02-24 14.20.23.png

Transformer中包含许多矩阵乘法实现的稠密层,保持原有参数$W$不变,更新低秩旁路权重$\Delta W$。

权重表示为 $W_0 + \Delta W = W_0 + BA$,其中$B \in \mathbb R^{d \times r}, A \in \mathbb R^{r \times k}, r << min(d, k)$。

网络的前向表示为 $h = W_0 x + \Delta W x = W_0x + BAx$ 。

QLoRA <需要补充量化知识> [2305.14314] QLoRA: Efficient Finetuning of Quantized LLMs (arxiv.org)

剪枝、量化、蒸馏技术

截屏2024-02-24 20.15.45.png

QLoRA通过4比特NormalFloat量化技术和双量化(Double Qunatization)实现高保真的4bit微调。同时引入分页优化器技术来防止内存尖峰导致的 out-of-memory 错误。

改进:

  1. 4bit 归一化浮点数(NormalFloat, NF4):新的数据类型,正态分布权重理论上信息最优
  2. 双倍量化 Double Quantization
  3. 用于管理内存峰值的分页优化器

4bit NormalFloat

Double Quantization