研发大模型的血液--万字长文详谈数据工程
Published on May 6, 2024
LLM
微调
数据工程
该文章讨论了研发大模型数据工程的方法和技巧,包括预训练阶段、领域增强预训练阶段、微调阶段和推理阶段等。
摘要
该文章首先介绍了数据在大型语言模型(LLM)的训练中的作用,然后讨论了预训练阶段和微调阶段的数据处理方法。在预训练阶段,需要使用通用文本和专用文本,并对数据进行预处理,以消除噪声、冗余、无关和潜在有害的数据。在领域增强预训练阶段,需要使用领域自适应预训练和领域自适应检索模型的检索增强生成。在微调阶段,需要构建指令格式的实例,以有监督的方式微调 LLM。在推理阶段,需要设计适合的提示策略,以揭示 LLM 完成特定任务的能力。
观点
- 数据在大型语言模型(LLM)的训练中起着基础性作用。
- 预训练阶段需要使用通用文本和专用文本,并对数据进行预处理。
- 领域增强预训练阶段需要使用领域自适应预训练和领域自适应检索模型的检索增强生成。
- 微调阶段需要构建指令格式的实例,以有监督的方式微调 LLM。
- 推理阶段需要设计适合的提示策略,以揭示 LLM 完成特定任务的能力。
- 数据工程核心诉求是能处理所有风格的研发资产,将形成预训练语料或者指令微调数据集。
- 需要明确的是Prompt(ICL)、微调和检索增强生成并非矛盾,它们可以同时使用,以利用每种方法的优点。
《Maeiee成长感悟》- 从北漂到准父亲的生活洞察
生活在快速节奏的都市,作为程序员和即将迎来人生新角色的我,经历了无数难忘的瞬间和深刻的思考。这些体验和感悟,我渴望与你分享。
《Maeiee成长感悟》是一个收集我所有重要生活事件和心得的地方。每一篇文章都是对过去经历的反思和对未来生活的展望,真实记录作为一个程序员、副业探索者、终身学习者、一个准爸爸和一个北漂的多重身份之间的平衡与挑战。
这里没有华丽的辞藻,只有最真实的思考和感受,希望它们能触动你的心弦,也许能在你的生活旅程中提供一些启示和慰藉。