当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 支持七种语言的生物医学领域开源LLM模型首次进行大规模多语言评估

支持七种语言的生物医学领域开源LLM模型首次进行大规模多语言评估

来源:机器之心 2024-03-13 23:36:26 0浏览 收藏

大家好,我们又见面了啊~本文《支持七种语言的生物医学领域开源LLM模型首次进行大规模多语言评估》的内容中将会涉及到等等。如果你正在学习科技周边相关知识,欢迎关注我,以后会给大家带来更多科技周边相关文章,希望我们能一起进步!下面就开始本文的正式内容~

首次大规模多语言评估,支持7种语言,生物医学领域7B开源LLM
编辑 | X
大语言模型 (LLM) 已应用于医疗保健和医学等专业领域。尽管有各种为健康环境量身定制的开源 LLM,但将通用 LLM 应用于医学领域仍存在重大挑战。

最近,法国阿维尼翁大学(Avignon Université)、南特大学(Nantes Université)和 Zenidoc 的研究小组推出了 BioMistral,这是一个专为生物医学领域量身定制的开源 LLM。BioMistral基于 Mistral 模型开发,通过在 PubMed Central 进行进一步的预训练,为生物医学研究提供了更强大的工具。

研究人员对 BioMistral 进行了全面评估,评估基于包括 10 项既定的英语医学问答 (QA) 任务在内的基准。此外,他们进一步研究了通过采用量化和模型合并方法获得的轻量级模型。

结果证明了 BioMistral 与现有开源医疗模型相比具有卓越的性能,并且与专有模型相比具有竞争优势。

为了解决医学 LLM 在面临英语以外数据较少的挑战时的问题,我们将其基准进行了翻译,并在其他七种语言中进行了评估。这一举措代表了医学领域 LLM 首次进行大规模多语言评估的重要里程碑。

相关研究以「BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains」为题,发布在预印平台 arXiv 上。

首次大规模多语言评估,支持7种语言,生物医学领域7B开源LLM

论文链接:https://arxiv.org/abs/2402.10373

研究人员将实验中获得的数据集、多语言评估基准、脚本和所有模型都免费发布。

首次大规模多语言评估,支持7种语言,生物医学领域7B开源LLM

开源地址:https://huggingface.co/BioMistral/BioMistral-7B

BLOOM 和 LLaMA 等开源 LLM,促进了其在医学等专业领域的创新使用。

然而,将 LLM 融入医疗保健和医学带来了独特的挑战和机遇。

开源医疗模型的采用受到限制,主要是由于缺乏允许商业使用,且性能可与大型或专有模型相媲美的轻量级模型。为了解决这一差距,需要开发基于开源基础模型的专用模型,例如 GPT-Neo、LLaMa 2 或 Mistra,并在保持性能的同时优化它们,以便在消费级设备上使用。

在此,研究团队提出了 BioMistral 7B,这是一种专为生物医学领域量身定制的专业 LLM,源自 Mistral 7B Instruct v0.1,并在 PubMed Central 上进一步进行了预训练。

研究贡献包括:

  • BioMistral 7B 的构建,这是生物医学领域第一个基于 Mistral 的开源模型,包括对不同评估策略的分析,例如少样本上下文学习和监督微调。

  • 一项原创研究,引入了 10 项英语医学问答 (QA) 任务的基准,自动翻译成其他 7 种语言(西班牙语、德语、葡萄牙语、俄语、法语、阿拉伯语和中文),促进对现有最先进的开源医学 LLM 的评估,并揭示了其在不同语言背景下的多语言潜力和稳健性。

  • 对模型在多语言环境下的真实性和校准性进行大量深入的定量分析。

  • 对通过各种有效量化方法导出的一套轻量级模型进行严格评估。

  • 探索 Mistral 7B Instruct 和 BioMistral 7B 模型之间的新颖模型合并技术,允许利用专业和通用 LLM 的常识推理技能。

BioMistral 7B 结合了量化和合并的模型变体,与其他开源 7B 模型相比,在多语言医学评估基准上展示了最先进的性能。

首次大规模多语言评估,支持7种语言,生物医学领域7B开源LLM

图 1:3 次情境学习的性能。分数代表准确性 (↑),并且是 3 个随机种子的平均值。BioMistral 7B Ensemble、DARE、TIES 和 SLERP 是结合了 BioMistral 7B 和 Mistral 7B Instruct 的模型合并策略。最佳模型用粗体显示,次佳模型用下划线显示。(来源:论文)

首次大规模多语言评估,支持7种语言,生物医学领域7B开源LLM

图 2:BioMistral 7B 模型与基线相比的监督微调 (SFT) 性能。*GPT-3.5 Turbo 性能是根据图 1 中的几次测试结果报告的。(来源:论文)

首次大规模多语言评估,支持7种语言,生物医学领域7B开源LLM

图 3:量化 BioMistral 7B 在 3-shot 场景中的性能。最后一列表示相对于原始模型的平均性能增益/损失。(来源:论文)

研究人员表示:「我们未来的研究旨在通过人工评估来评估 BioMistral 7B 的生成质量。此外,我们计划在前人进行的实验的基础上,使用监督微调和直接偏好优化技术来增强其多语言和聊天功能。最后,我们打算通过在进一步的预训练过程中整合 Jeffrey 散度或 Platt 缩放等技术来提高模型的校准和可靠性。」

理论要掌握,实操不能落!以上关于《支持七种语言的生物医学领域开源LLM模型首次进行大规模多语言评估》的详细介绍,大家都掌握了吧!如果想要继续提升自己的能力,那么就来关注golang学习网公众号吧!

版本声明
本文转载于:机器之心 如有侵犯,请联系study_golang@163.com删除
修改织梦CMS表名的必读注意事项修改织梦CMS表名的必读注意事项
上一篇
修改织梦CMS表名的必读注意事项
实现RPC方法的定时调用
下一篇
实现RPC方法的定时调用
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    511次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    498次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 千音漫语:智能声音创作助手,AI配音、音视频翻译一站搞定!
    千音漫语
    千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
    119次使用
  • MiniWork:智能高效AI工具平台,一站式工作学习效率解决方案
    MiniWork
    MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
    114次使用
  • NoCode (nocode.cn):零代码构建应用、网站、管理系统,降低开发门槛
    NoCode
    NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
    131次使用
  • 达医智影:阿里巴巴达摩院医疗AI影像早筛平台,CT一扫多筛癌症急慢病
    达医智影
    达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
    125次使用
  • 智慧芽Eureka:更懂技术创新的AI Agent平台,助力研发效率飞跃
    智慧芽Eureka
    智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
    127次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码