X-transformers项目解析

X-transformers项目架构概览 架构关系图 训练脚本层 (train_*.py) ├── train_copy.py ├── train_with_muon.py ├── train_entropy_tokenizer.py ├── train_parity.py ├── train_enwik8.py ├── train_length_extrapolate.py ├── train_

deepseekv3.2 的 DSA 和 MoE 技术

deepseekv3.2 的 DSA 和 MoE 技术:在算力天花板下重构大模型效率 在 2024–2025 年这轮大模型军备竞赛中,真正的稀缺品已经从“参数规模”变成了“稳定可负担的算力”。研究机构 Precedence Research 估算,全球 AI 数据中心市场规模将从 2025 年约 175 亿美元增长到 2034 年约 1657 亿美元,年复合增速超过 28%,电力与资本开支压力持续

Transform原理解析

引言 从 2017 年 Transformer 提出到今天,大模型几乎清一色采用这一架构,“Transform 原理”已经变成理解现代 AI 的必修课。Transformer 通过自注意力机制,打破了 RNN、CNN 在长序列和全局依赖上的性能瓶颈,成为 NLP、CV、语音乃至多模态任务的统一基石。根据 S&P Global 在 2024 年发布的调研,约 60% 的企业已经在生产或试点环

一文看懂 LoRA 微调和 QLoRA:原理、场景与代码实战

一文看懂 LoRA 微调和 QLoRA:原理、场景与代码实战 大模型时代,很多人都会遇到同一个问题: “我只有一块 24G 显卡,怎么微调一个几十亿参数的模型?” 如果你也有这样的困惑,那你基本上已经站在了 LoRA 和 QLoRA 的门口。 它们都是 参数高效微调(PEFT, Parameter-Efficient Fine-Tuning) 技术,让你在显存有限、存储有限的前提下,也能把大模型变