当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > 百川模型对话微调数据准备指南

百川模型对话微调数据准备指南

2026-05-30 14:34:01 0浏览收藏

本文详细介绍了将ShareGPT数据集适配百川2-13B-4bits模型进行高质量对话微调的全流程方法——从格式标准化、中英文分离标注，到注入OpenClaw动作指令增强实用性，再到双重脱敏清洗敏感信息，最终借助百川自身模型进行动态质量评估与筛选，确保训练数据在结构合规、语言纯净、任务对齐、隐私安全和响应可靠五大维度全面达标，为开发者提供一套开箱即用、兼顾效果与安全的工业级微调数据准备方案。

ShareGPT数据集用于Baichuan模型训练的方法：百川模型对话微调的数据准备指南

如果您计划使用ShareGPT数据集对百川模型（特别是Baichuan2-13B-4bits）进行对话微调，则需注意该数据集原始格式与百川训练接口不直接兼容，且存在指令结构缺失、角色标注混乱、中英文混杂未清洗等问题。以下是适配百川模型微调要求的数据准备方法：

一、数据格式标准化转换

ShareGPT数据集以JSONL格式存储多轮对话，但百川2-13B-Chat系列模型在LoRA微调时严格依赖单轮“指令-输入-输出”三元结构，需将原始多轮会话拆解并重映射为符合//模板的样本。

1、使用Python脚本加载原始sharegpt.jsonl文件，逐行解析conversations字段。

2、遍历每轮对话，识别user与assistant角色交替序列，将相邻的user→assistant对提取为一条独立样本。

3、对每条样本应用统一模板：将user消息作为instruction字段，若后续存在system或context字段则合并入input字段，assistant回复作为output字段。

4、过滤掉含非UTF-8字符、长度超过4096 token的样本，以及assistant回复为空或仅含标点符号的无效条目。

二、中英文混合内容分离与标注

ShareGPT中约38%的对话为纯中文、42%为纯英文、20%为中英混杂。百川2-13B虽支持双语，但微调阶段若混训会导致中文任务准确率下降约7–11个百分点；必须按语言维度切分并单独构建子集，再为每条数据添加language标签用于后续采样控制。

1、调用langdetect库对每条instruction字段执行语言检测，阈值设为confidence > 0.95。

2、将检测结果为zh的样本写入sharegpt_zh.jsonl，en样本写入sharegpt_en.jsonl，其余归入sharegpt_mixed.jsonl。

3、在每条数据中插入"language": "zh"或"language": "en"字段，并确保该字段位于JSON对象顶层。

4、对sharegpt_mixed.jsonl中的每条样本，使用规则匹配（如中文字符占比70%）进一步划分为偏中/偏英两类，避免强制归类。

三、OpenClaw任务指令注入增强

原始ShareGPT缺乏OpenClaw所需的结构化动作表达能力，直接使用会导致模型在接入OpenClaw后无法生成可执行的操作序列。需通过模板注入方式，在部分高质量中文样本中嵌入典型OpenClaw指令模式，提升模型对本地自动化任务的理解边界。

1、从~/.openclaw/logs/目录提取最近300条成功执行的taskTrace日志，抽取高频instruction-output对（如“截图保存到桌面”→“Shift+Command+4, delay 1.5s, save to ~/Desktop”）。

2、在sharegpt_zh.jsonl中随机选取20%样本，在其instruction末尾追加括号注释，例如：“请写一封邮件（需适配OpenClaw邮件发送动作）”。

3、对对应output字段，人工重写为包含明确动作关键词的版本，如：“调用mail.send接口，收件人：leader@example.com，主题：周报，正文：……”。

4、保存增强后数据为sharegpt_zh_oc.jsonl，并在训练时设置该文件采样权重为普通中文样本的1.8倍。

四、敏感信息与冗余内容脱敏清洗

ShareGPT数据源自真实用户导出的ChatGPT对话，其中包含大量邮箱、手机号、路径名、API密钥等敏感字段，若未经处理直接参与训练，将导致百川模型在推理阶段泄露隐私信息或生成非法路径调用。必须执行两级脱敏：静态正则替换 + 动态上下文掩码。

1、定义敏感模式正则集：邮箱（\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b）、IPv4（\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\b）、绝对路径（\/[a-zA-Z0-9_\-\.\/]+）。

2、对所有instruction与output字段执行全局替换，将匹配项统一替换为[REDACTED_EMAIL]、[REDACTED_IP]、[REDACTED_PATH]。

3、启用transformers.Tokenizer的add_special_tokens功能，将上述占位符注册为特殊token，防止分词器将其切碎。

4、对含多个连续[REDACTED_*]标记的样本，额外添加“contains_redacted”: true字段以便训练时动态丢弃高噪声样本。