当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 支持七种语言的生物医学领域开源LLM模型首次进行大规模多语言评估

支持七种语言的生物医学领域开源LLM模型首次进行大规模多语言评估

来源:机器之心 2024-03-13 23:36:26 0浏览 收藏

大家好,我们又见面了啊~本文《支持七种语言的生物医学领域开源LLM模型首次进行大规模多语言评估》的内容中将会涉及到等等。如果你正在学习科技周边相关知识,欢迎关注我,以后会给大家带来更多科技周边相关文章,希望我们能一起进步!下面就开始本文的正式内容~

首次大规模多语言评估,支持7种语言,生物医学领域7B开源LLM
编辑 | X
大语言模型 (LLM) 已应用于医疗保健和医学等专业领域。尽管有各种为健康环境量身定制的开源 LLM,但将通用 LLM 应用于医学领域仍存在重大挑战。

最近,法国阿维尼翁大学(Avignon Université)、南特大学(Nantes Université)和 Zenidoc 的研究小组推出了 BioMistral,这是一个专为生物医学领域量身定制的开源 LLM。BioMistral基于 Mistral 模型开发,通过在 PubMed Central 进行进一步的预训练,为生物医学研究提供了更强大的工具。

研究人员对 BioMistral 进行了全面评估,评估基于包括 10 项既定的英语医学问答 (QA) 任务在内的基准。此外,他们进一步研究了通过采用量化和模型合并方法获得的轻量级模型。

结果证明了 BioMistral 与现有开源医疗模型相比具有卓越的性能,并且与专有模型相比具有竞争优势。

为了解决医学 LLM 在面临英语以外数据较少的挑战时的问题,我们将其基准进行了翻译,并在其他七种语言中进行了评估。这一举措代表了医学领域 LLM 首次进行大规模多语言评估的重要里程碑。

相关研究以「BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains」为题,发布在预印平台 arXiv 上。

首次大规模多语言评估,支持7种语言,生物医学领域7B开源LLM

论文链接:https://arxiv.org/abs/2402.10373

研究人员将实验中获得的数据集、多语言评估基准、脚本和所有模型都免费发布。

首次大规模多语言评估,支持7种语言,生物医学领域7B开源LLM

开源地址:https://huggingface.co/BioMistral/BioMistral-7B

BLOOM 和 LLaMA 等开源 LLM,促进了其在医学等专业领域的创新使用。

然而,将 LLM 融入医疗保健和医学带来了独特的挑战和机遇。

开源医疗模型的采用受到限制,主要是由于缺乏允许商业使用,且性能可与大型或专有模型相媲美的轻量级模型。为了解决这一差距,需要开发基于开源基础模型的专用模型,例如 GPT-Neo、LLaMa 2 或 Mistra,并在保持性能的同时优化它们,以便在消费级设备上使用。

在此,研究团队提出了 BioMistral 7B,这是一种专为生物医学领域量身定制的专业 LLM,源自 Mistral 7B Instruct v0.1,并在 PubMed Central 上进一步进行了预训练。

研究贡献包括:

  • BioMistral 7B 的构建,这是生物医学领域第一个基于 Mistral 的开源模型,包括对不同评估策略的分析,例如少样本上下文学习和监督微调。

  • 一项原创研究,引入了 10 项英语医学问答 (QA) 任务的基准,自动翻译成其他 7 种语言(西班牙语、德语、葡萄牙语、俄语、法语、阿拉伯语和中文),促进对现有最先进的开源医学 LLM 的评估,并揭示了其在不同语言背景下的多语言潜力和稳健性。

  • 对模型在多语言环境下的真实性和校准性进行大量深入的定量分析。

  • 对通过各种有效量化方法导出的一套轻量级模型进行严格评估。

  • 探索 Mistral 7B Instruct 和 BioMistral 7B 模型之间的新颖模型合并技术,允许利用专业和通用 LLM 的常识推理技能。

BioMistral 7B 结合了量化和合并的模型变体,与其他开源 7B 模型相比,在多语言医学评估基准上展示了最先进的性能。

首次大规模多语言评估,支持7种语言,生物医学领域7B开源LLM

图 1:3 次情境学习的性能。分数代表准确性 (↑),并且是 3 个随机种子的平均值。BioMistral 7B Ensemble、DARE、TIES 和 SLERP 是结合了 BioMistral 7B 和 Mistral 7B Instruct 的模型合并策略。最佳模型用粗体显示,次佳模型用下划线显示。(来源:论文)

首次大规模多语言评估,支持7种语言,生物医学领域7B开源LLM

图 2:BioMistral 7B 模型与基线相比的监督微调 (SFT) 性能。*GPT-3.5 Turbo 性能是根据图 1 中的几次测试结果报告的。(来源:论文)

首次大规模多语言评估,支持7种语言,生物医学领域7B开源LLM

图 3:量化 BioMistral 7B 在 3-shot 场景中的性能。最后一列表示相对于原始模型的平均性能增益/损失。(来源:论文)

研究人员表示:「我们未来的研究旨在通过人工评估来评估 BioMistral 7B 的生成质量。此外,我们计划在前人进行的实验的基础上,使用监督微调和直接偏好优化技术来增强其多语言和聊天功能。最后,我们打算通过在进一步的预训练过程中整合 Jeffrey 散度或 Platt 缩放等技术来提高模型的校准和可靠性。」

理论要掌握,实操不能落!以上关于《支持七种语言的生物医学领域开源LLM模型首次进行大规模多语言评估》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
修改织梦CMS表名的必读注意事项修改织梦CMS表名的必读注意事项
上一篇
修改织梦CMS表名的必读注意事项
实现RPC方法的定时调用
下一篇
实现RPC方法的定时调用
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    499次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • PandaWiki开源知识库:AI大模型驱动,智能文档与AI创作、问答、搜索一体化平台
    PandaWiki开源知识库
    PandaWiki是一款AI大模型驱动的开源知识库搭建系统,助您快速构建产品/技术文档、FAQ、博客。提供AI创作、问答、搜索能力,支持富文本编辑、多格式导出,并可轻松集成与多来源内容导入。
    332次使用
  • SEO  AI Mermaid 流程图:自然语言生成,文本驱动可视化创作
    AI Mermaid流程图
    SEO AI Mermaid 流程图工具:基于 Mermaid 语法,AI 辅助,自然语言生成流程图,提升可视化创作效率,适用于开发者、产品经理、教育工作者。
    1112次使用
  • 搜获客笔记生成器:小红书医美爆款内容AI创作神器
    搜获客【笔记生成器】
    搜获客笔记生成器,国内首个聚焦小红书医美垂类的AI文案工具。1500万爆款文案库,行业专属算法,助您高效创作合规、引流的医美笔记,提升运营效率,引爆小红书流量!
    1141次使用
  • iTerms:一站式法律AI工作台,智能合同审查起草与法律问答专家
    iTerms
    iTerms是一款专业的一站式法律AI工作台,提供AI合同审查、AI合同起草及AI法律问答服务。通过智能问答、深度思考与联网检索,助您高效检索法律法规与司法判例,告别传统模板,实现合同一键起草与在线编辑,大幅提升法律事务处理效率。
    1146次使用
  • TokenPony:AI大模型API聚合平台,一站式接入,高效稳定高性价比
    TokenPony
    TokenPony是讯盟科技旗下的AI大模型聚合API平台。通过统一接口接入DeepSeek、Kimi、Qwen等主流模型,支持1024K超长上下文,实现零配置、免部署、极速响应与高性价比的AI应用开发,助力专业用户轻松构建智能服务。
    1216次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码