软件——大模型的训练
二、大公司是怎么训练大模型的?(全流程)
大厂(DeepSeek、阿里通义、文心、智谱)的训练分 三阶段,每一步都烧钱:
阶段 1:预训练(Pretraining)——“学知识、学语言”
- 数据:万亿级 token(网页、书籍、论文、代码、百科)
- 目标:让模型学会语法、逻辑、常识、世界知识
- 算力:几万张 A100/H100,训几周~几个月
- 成本:几千万~几亿人民币
阶段 2:监督微调(SFT)——“学听话、学指令”
- 数据:百万级高质量指令 - 回答对(人工 + 机器生成)
- 目标:让模型听懂人类指令、按要求输出
- 算力:几千张卡,训几天
- 产出:Chat 版模型(如 DeepSeek-Chat、Qwen-Chat)
阶段 3:对齐(RLHF/DPO)——“学价值观、讲人话”
- 数据:人类偏好对比(A 回答好于 B)
- 目标:减少胡说、符合价值观、更自然
- 方法:RLHF(训练奖励模型 + PPO)或 DPO(直接偏好优化)
- 成本:极高,人工标注贵
一句话:预训练堆算力 + 数据,SFT 堆质量,对齐堆人工 + 算法。
三、训练数据从哪里来?(大厂 + 个人都能用)
1)大厂主要来源(万亿级)
- 公开网页爬虫:Common Crawl、中文网页(过滤广告 / 低质)
- 书籍 / 长文:BooksCorpus、古籍、现代图书(版权合规)
- 百科 / 知识:Wikipedia、维基百科、行业知识库
- 代码:GitHub(过滤低质 / 自动生成代码)
- 新闻 / 论文:权威媒体、学术数据库(arxiv、CNKI)
- 合成数据:用大模型生成高质量指令 - 回答对(SFT 主力)
- 自有数据:产品对话日志、行业合作数据(脱敏后)
2)个人 / 本地可用数据(免费 + 公开)
- 中文:
- CLUECorpus2020:100GB 中文通用语料
- Wikipedia 中文:百科知识
- 阿里云 Qwen 开源数据集:指令微调数据
- 英文:
- Common Crawl、OpenWebText、Stack Exchange
- 行业:
- 医疗:MIMIC-II(公开临床数据)
- 法律:中国裁判文书网公开数据
3)数据处理(大厂 / 个人都要做)
- 去重:删除重复文本(避免模型死记硬背)
- 过滤:去掉广告、色情、低质、太短文本
- 分词:切成 token(中文用 jieba+BPE)
- 格式化:转成模型输入格式(JSONL / 纯文本)
********************************************************************************************************
安得广厦千万间,大庇天下寒士俱欢颜!
********************************************************************************************************