Transform原理解析

引言 从 2017 年 Transformer 提出到今天,大模型几乎清一色采用这一架构,“Transform 原理”已经变成理解现代 AI 的必修课。Transformer 通过自注意力机制,打破了 RNN、CNN 在长序列和全局依赖上的性能瓶颈,成为 NLP、CV、语音乃至多模态任务的统一基石。根据 S&P Global 在 2024 年发布的调研,约 60% 的企业已经在生产或试点环

一文看懂 LoRA 微调和 QLoRA:原理、场景与代码实战

一文看懂 LoRA 微调和 QLoRA:原理、场景与代码实战 大模型时代,很多人都会遇到同一个问题: “我只有一块 24G 显卡,怎么微调一个几十亿参数的模型?” 如果你也有这样的困惑,那你基本上已经站在了 LoRA 和 QLoRA 的门口。 它们都是 参数高效微调(PEFT, Parameter-Efficient Fine-Tuning) 技术,让你在显存有限、存储有限的前提下,也能把大模型变