全参数更新
Transformer中包含许多矩阵乘法实现的稠密层,保持原有参数$W$不变,更新低秩旁路权重$\Delta W$。
权重表示为 $W_0 + \Delta W = W_0 + BA$,其中$B \in \mathbb R^{d \times r}, A \in \mathbb R^{r \times k}, r << min(d, k)$。
网络的前向表示为 $h = W_0 x + \Delta W x = W_0x + BAx$ 。
QLoRA通过4比特NormalFloat量化技术和双量化(Double Qunatization)实现高保真的4bit微调。同时引入分页优化器技术来防止内存尖峰导致的 out-of-memory 错误。
改进: