AI－Caijx

X-transformers项目解析

X-transformers项目架构概览架构关系图训练脚本层 (train_*.py) ├── train_copy.py ├── train_with_muon.py ├── train_entropy_tokenizer.py ├── train_parity.py ├── train_enwik8.py ├── train_length_extrapolate.py ├── train_

AI
Caijxlinux
2025-12-14
161 热度
0评论

deepseekv3.2 的 DSA 和 MoE 技术

deepseekv3.2 的 DSA 和 MoE 技术：在算力天花板下重构大模型效率在 2024–2025 年这轮大模型军备竞赛中，真正的稀缺品已经从“参数规模”变成了“稳定可负担的算力”。研究机构 Precedence Research 估算，全球 AI 数据中心市场规模将从 2025 年约 175 亿美元增长到 2034 年约 1657 亿美元，年复合增速超过 28%，电力与资本开支压力持续

AI
Caijxlinux
2025-12-09
127 热度
0评论

Transform原理解析

引言从 2017 年 Transformer 提出到今天，大模型几乎清一色采用这一架构，“Transform 原理”已经变成理解现代 AI 的必修课。Transformer 通过自注意力机制，打破了 RNN、CNN 在长序列和全局依赖上的性能瓶颈，成为 NLP、CV、语音乃至多模态任务的统一基石。根据 S&P Global 在 2024 年发布的调研，约 60% 的企业已经在生产或试点环

AI
Caijxlinux
2025-12-07
130 热度
0评论

一文看懂 LoRA 微调和 QLoRA：原理、场景与代码实战

一文看懂 LoRA 微调和 QLoRA：原理、场景与代码实战大模型时代，很多人都会遇到同一个问题： “我只有一块 24G 显卡，怎么微调一个几十亿参数的模型？” 如果你也有这样的困惑，那你基本上已经站在了 LoRA 和 QLoRA 的门口。它们都是参数高效微调（PEFT, Parameter-Efficient Fine-Tuning）技术，让你在显存有限、存储有限的前提下，也能把大模型变

AI
Caijxlinux
2025-12-07
97 热度
0评论