当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据

复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据

来源:机器之心 2023-10-04 08:24:06 0浏览 收藏

本篇文章给大家分享《复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据》,覆盖了科技周边的常见基础知识,其实一个语言的全部知识点一篇文章是不可能说完的,但希望通过这些问题,让读者对自己的掌握程度有一定的认识(B 数),从而弥补自己的不足,更好的掌握它。

随着智慧司法的兴起,智能化方法驱动的智能法律系统有望惠及不同群体。例如,为法律专业人员减轻文书工作,为普通民众提供法律咨询服务,为法学学生提供学习和考试辅导。

由于法律知识的独特性和司法任务的多样性,此前的智慧司法研究方面主要着眼于为特定任务设计自动化算法,难以满足对司法领域提供支撑性服务的需求,离应用落地有不小的距离。而大型语言模型(LLMs)在不同的传统任务上展示出强大的能力,为智能法律系统的进一步发展带来希望。

近日,复旦大学数据智能与社会计算实验室(FudanDISC)发布大语言模型驱动的中文智慧法律系统 ——DISC-LawLLM。该系统可以面向不同用户群体,提供多样的法律服务。此外,实验室还构建了评测基准 DISC-Law-Eval,从客观和主观两个方面来评测法律大语言模型,模型在评测中的表现相较现有的法律大模型有明显优势。

课题组同时公开包含 30 万高质量的监督微调(SFT)数据集 ——DISC-Law-SFT,模型参数和技术报告也一并开源。

复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据

  • 主页地址:https://law.fudan-disc.com
  • Github 地址:https://github.com/FudanDISC/DISC-LawLLM
  • 技术报告:https://arxiv.org/abs/2309.11325

01 样例展示

用户有法律方面的疑问时,可以向模型咨询,描述疑问,模型会给出相关的法律规定和解释、推荐的解决方案等。

复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据

                                 图 1 法律咨询示例

专业法律者和司法机关,可以利用模型完成法律文本摘要、司法事件检测、实体和关系抽取等,减轻文书工作,提高工作效率。复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据
                                  图 2 司法文书分析

法律专业的学生在准备司法考试过程中,可以向模型提出问题,帮助巩固法律知识,解答法律考试题。

复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据

                                 图 3 考试助手示例

在需要外部法条做支撑时,模型会根据问题在知识库中检索相关内容,给出回复。

复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据

                                图 4 检索增强场景下的对话

02 DISC-LawLLM 介绍

DISC-LawLLM 是基于我们构建的高质量数据集 DISC-Law-SFT 在通用领域中文大模型 Baichuan-13B 上进行全参指令微调得到的法律大模型。值得注意的是,我们的训练数据和训练方法可以被适配到任何基座大模型之上。

DISC-LawLLM 具有三个核心能力:

1. 基础的法律文本处理能力。针对法律文本理解与生成的不同基础能力,包括信息抽取、文本摘要等,我们基于现有的 NLP 司法任务公开数据和真实世界的法律相关文本进行了微调数据的构建。

2. 法律推理思维能力。针对智慧司法领域任务的需求,我们使用法律三段论这一法官的基本法律推理过程重构了指令数据,有效地提高了模型的法律推理能力。

3. 司法领域知识检索遵循能力非常重要。在解决智慧司法领域的问题时,通常需要根据问题的相关背景法条或案例进行检索。为了增强智能法律处理系统的检索和遵循能力,我们为其配备了检索增强的模块

模型的整体框架如图 5 所示:

复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据

                                   图5 模型在不同的法律场景下服务于不同的用户

03 方法:数据集 DISC-Law-SFT 的构造

复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据

                                     图 6 DISC-Law-SFT 的构造

DISC-Law-SFT 分为两个子数据集,分别是 DISC-Law-SFT-Pair 和 DISC-Law-SFT-Triplet,前者向 LLM 中引入了法律推理能力,而后者则有助于提高模型利用外部知识的能力。

复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据

                                     表 1:DISC-Law-SFT 数据集内容介绍

数据来源

DISC-Law-SFT 数据集的数据来源于三部分,一是与中国法律相关的 NLP 司法任务公开数据集,包括法律信息抽取、实体与关系抽取、司法文本摘要、司法考试问答、司法阅读理解、罪名 / 刑期预测等;二是收集了来自真实世界的法律相关的原始文本,如法律法规、司法案件、裁判文书、司法相关的考试等;三是通用的开源数据集,我们使用了 alpaca_gpt4_data_zh 和 Firefly,这样可以丰富训练集的多样性,减轻模型在 SFT 训练阶段出现基础能力降级的风险。

指令对构造

对上述一、二来源的数据转换为 “输入 - 输出” 指令对后,我们采用以下三种方式对指令数据重构,以提高数据质量。

  • 行为塑造

在法律三段论中,大前提为适用的法律规则,小前提为案件事实,结论为法律判断。这构成了法官的一个基本的法律推理过程。每一个案例都可以通过三段论得出一个明确的结论,如下所述:
大前提:法律规则
小前提:案件事实
结论:法律判断

我们利用 GPT-3.5-turbo 来完成行为塑造的重构,细化输出,确保每个结论都从一个法律条款和一个案例事实中得出。

  • 知识扩充

对于行为塑造不适用的多项选择题,我们直接使用法律知识扩展输出,以提供更多的推理细节。许多与法律相关的考试和知识竞赛只提供答案选项,我们使用 LLM 来扩展所涉及的法律知识,给出正确的答案,并重建指令对。

  • 思维培养

思维链(CoT)已被证明能有效地提高模型的推理能力。为了进一步赋予模型法律推理能力,我们设计了具有特定法律意义的思维链,称为 LCoT,要求模型用法律三段论来推导答案。LCoT 将输入 X 转换为如下的提示:
在法律三段论中,大前提是适用的法律规则,小前提是案件事实,结论是对案件的法律判断。
案件:X
让我们用法律三段论来思考和输出判断:

指令三元组构造

为了训练检索增强后的模型,我们构造了 DISC-Law-SFT-Triplet 子数据集,数据为 形式的三元组,我们使用指令对构造中列出的三种策略对原始数据进行处理,获得输入和输出,并设计启发式规则来从原始数据中提取参考信息。

04 实验

训练

DISC-LawLLM 的训练过程分为 SFT 和检索增强两个阶段。

  • 检索增强

虽然我们使用了高质量的指令数据对 LLM 进行微调,但它可能会由于幻觉或过时的知识而产生不准确的反应。为了解决这个问题,我们设计了一个检索模块来增强 DISC-LawLLM。

给定一个用户输入,检索器通过计算它们与输入的相似性,从知识库返回最相关的 Top-K 文档。这些候选文档,连同用户输入,用我们设计的模板构造后输入到 DISC-LawLLM 中。通过查询知识库,模型可以更好地理解主要前提,从而得到更准确可靠的答案。

复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据

                                   图 7:检索增强的 DISC-LawLLM

评测方法

  • 评测基准 DISC-Law-Eval

我们构建了一个公平的智能法律系统评估基准 DISC-Law-Eval,从客观和主观的角度来评估,填补了目前还没有基准来对智能法律体系全面评估这一空白。

复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据

                                  图 8:DISC-Law-Eval 评测基准

  • 客观评测

为了客观、定量地评估智能法律系统的法律知识和推理能力,我们设计了一个客观的评价数据集,由一系列中国法律标准化考试和知识竞赛的单项和多项选择题组成,并根据内容复杂性和演绎难度,将问题分为困难、正常和容易三个层次。它可以提供一个更具挑战性和可靠的方法来衡量模型是否可以利用其知识来推理正确的答案。我们通过计算精度来表明性能。

  • 主观评测

主观评测部分,我们采用问答的范式进行评估,模拟主观考试问题的过程。我们从法律咨询、在线论坛、与司法相关的出版物和法律文件中手工构建了一个高质量的测试集。我们用 GPT- 3.5-turbo 作为裁判模型来评估模型的输出,并用准确性、完整性和清晰度这三个标准提供 1 到 5 的评分。

评测结果

  • 比较模型

将我们的模型 DISC-LawLLM (不外接知识库) 与 4 个通用 LLM 和 4 个中文法律 LLM 进行比较,包括 GPT-3.5-turbo、ChatGLM-6B 、Baichuan-13B-Chat 、Chinese-Alpaca2-13B ;LexiLaw 、LawGPT、Lawyer LLaMA、ChatLaw 。

  • 客观评测结果

DISC-LawLLM 在所有不同难度水平的测试中超过所有比较的同等参数量的大模型。即使与具有 175B 参数的 GPT- 3.5-turbo 相比,DISC-LawLLM 在部分测试上也表现出了更优越的性能。表 2 是客观评测结果,其中加粗表示最佳结果,下划线表示次佳结果。

复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据                                        表 2:客观评测结果

  • 主观评测结果

在客观评测中,DISC-LawLLM 获得了最高的综合得分,并在准确性和清晰度这两项标准中得分最高。表 3 是主观评测结果,其中加粗表示最佳结果。

复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据

                                       表 3:主观评测结果

05 总结

我们发布了 DISC-LawLLM,一个提供多应用场景下法律服务的智能法律系统。基于公开的法律领域 NLP 任务数据集、法律原始文本和开源通用指令数据集,按照法律三段论重构了法律指令进行监督微调。为了提高输出的可靠性,我们加入了一个外部检索模块。通过提高法律推理和知识检索能力,DISC-LawLLM 在我们构建的法律基准评测集上优于现有的法律 LLM。该领域的研究将为实现法律资源平衡等带来更多前景和可能性,我们发布了所构建的数据集和模型权重,以促进进一步的研究。

理论要掌握,实操不能落!以上关于《复旦大学团队发布中文智慧法律系统DISC-LawLLM,构建司法评测基准,开源30万微调数据》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
Golang与FFmpeg: 如何实现音频解码与编码Golang与FFmpeg: 如何实现音频解码与编码
上一篇
Golang与FFmpeg: 如何实现音频解码与编码
什么样的企业最需要Python开发人员?
下一篇
什么样的企业最需要Python开发人员?
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 毕业宝AIGC检测:AI生成内容检测工具,助力学术诚信
    毕业宝AIGC检测
    毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
    9次使用
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    26次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    21次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    26次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    26次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码