目录

学无止境


夫君子之行,静以修身,俭以养德。
非澹泊无以明志,非宁静无以致远。
夫学须静也,才须学也,
非学无以广才,非志无以成学。
慆慢则不能励精,险躁则不能治性。
年与时驰,意与日去,遂成枯落,
多不接世,悲守穷庐,将复何及!

软件——大模型的训练

二、大公司是怎么训练大模型的?(全流程)

大厂(DeepSeek、阿里通义、文心、智谱)的训练分 ​三阶段​,每一步都烧钱:

阶段 1:预训练(Pretraining)——“学知识、学语言”

  • 数据:​万亿级 token​(网页、书籍、论文、代码、百科)
  • 目标:让模型学会语法、逻辑、常识、世界知识
  • 算力:​几万张 A100/H100​,训几周~几个月
  • 成本:几千万~几亿人民币

阶段 2:监督微调(SFT)——“学听话、学指令”

  • 数据:​百万级高质量指令 - 回答对​(人工 + 机器生成)
  • 目标:让模型听懂人类指令、按要求输出
  • 算力:几千张卡,训几天
  • 产出:Chat 版模型(如 DeepSeek-Chat、Qwen-Chat)

阶段 3:对齐(RLHF/DPO)——“学价值观、讲人话”

  • 数据:人类偏好对比(A 回答好于 B)
  • 目标:减少胡说、符合价值观、更自然
  • 方法:RLHF(训练奖励模型 + PPO)或 DPO(直接偏好优化)
  • 成本:极高,人工标注贵

一句话:​预训练堆算力 + 数据,SFT 堆质量,对齐堆人工 + 算法​。


三、训练数据从哪里来?(大厂 + 个人都能用)

1)大厂主要来源(万亿级)

  1. 公开网页爬虫​:Common Crawl、中文网页(过滤广告 / 低质)
  2. 书籍 / 长文​:BooksCorpus、古籍、现代图书(版权合规)
  3. 百科 / 知识​:Wikipedia、维基百科、行业知识库
  4. 代码​:GitHub(过滤低质 / 自动生成代码)
  5. 新闻 / 论文​:权威媒体、学术数据库(arxiv、CNKI)
  6. 合成数据​:用大模型生成高质量指令 - 回答对(SFT 主力)
  7. 自有数据​:产品对话日志、行业合作数据(脱敏后)

2)个人 / 本地可用数据(免费 + 公开)

  • 中文:
    • CLUECorpus2020​:100GB 中文通用语料
    • Wikipedia 中文​:百科知识
    • 阿里云 Qwen 开源数据集​:指令微调数据
  • 英文:
    • Common Crawl​、​OpenWebText​、Stack Exchange
  • 行业:
    • 医疗:​MIMIC-II​(公开临床数据)
    • 法律:中国裁判文书网公开数据

3)数据处理(大厂 / 个人都要做)

  1. 去重​:删除重复文本(避免模型死记硬背)
  2. 过滤​:去掉广告、色情、低质、太短文本
  3. 分词​:切成 token(中文用 jieba+BPE)
  4. 格式化​:转成模型输入格式(JSONL / 纯文本)
********************************************************************************************************
                               安得广厦千万间,大庇天下寒士俱欢颜!
********************************************************************************************************