目录

学无止境

夫君子之行，静以修身，俭以养德。
非澹泊无以明志，非宁静无以致远。
夫学须静也，才须学也，
非学无以广才，非志无以成学。
慆慢则不能励精，险躁则不能治性。
年与时驰，意与日去，遂成枯落，
多不接世，悲守穷庐，将复何及！

软件——大模型的训练

2026-05-08

待分类

二、大公司是怎么训练大模型的？（全流程）

大厂（DeepSeek、阿里通义、文心、智谱）的训练分 三阶段，每一步都烧钱：

阶段 1：预训练（Pretraining）——“学知识、学语言”

数据：万亿级 token（网页、书籍、论文、代码、百科）
目标：让模型学会语法、逻辑、常识、世界知识
算力：几万张 A100/H100，训几周～几个月
成本：几千万～几亿人民币

阶段 2：监督微调（SFT）——“学听话、学指令”

数据：百万级高质量指令 - 回答对（人工 + 机器生成）
目标：让模型听懂人类指令、按要求输出
算力：几千张卡，训几天
产出：Chat 版模型（如 DeepSeek-Chat、Qwen-Chat）

阶段 3：对齐（RLHF/DPO）——“学价值观、讲人话”

数据：人类偏好对比（A 回答好于 B）
目标：减少胡说、符合价值观、更自然
方法：RLHF（训练奖励模型 + PPO）或 DPO（直接偏好优化）
成本：极高，人工标注贵

一句话：预训练堆算力 + 数据，SFT 堆质量，对齐堆人工 + 算法。

三、训练数据从哪里来？（大厂 + 个人都能用）

1）大厂主要来源（万亿级）

公开网页爬虫：Common Crawl、中文网页（过滤广告 / 低质）
书籍 / 长文：BooksCorpus、古籍、现代图书（版权合规）
百科 / 知识：Wikipedia、维基百科、行业知识库
代码：GitHub（过滤低质 / 自动生成代码）
新闻 / 论文：权威媒体、学术数据库（arxiv、CNKI）
合成数据：用大模型生成高质量指令 - 回答对（SFT 主力）
自有数据：产品对话日志、行业合作数据（脱敏后）

2）个人 / 本地可用数据（免费 + 公开）

中文：
- CLUECorpus2020：100GB 中文通用语料
- Wikipedia 中文：百科知识
- 阿里云 Qwen 开源数据集：指令微调数据
英文：
- Common Crawl、OpenWebText、Stack Exchange
行业：
- 医疗：MIMIC-II（公开临床数据）
- 法律：中国裁判文书网公开数据

3）数据处理（大厂 / 个人都要做）

去重：删除重复文本（避免模型死记硬背）
过滤：去掉广告、色情、低质、太短文本
分词：切成 token（中文用 jieba+BPE）
格式化：转成模型输入格式（JSONL / 纯文本）

********************************************************************************************************
                               安得广厦千万间，大庇天下寒士俱欢颜！
********************************************************************************************************