多语言医疗大模型突破：语料库构建与基准测试

简介：上海交通大学智慧医疗团队在《自然通讯》发表研究，构建了多语言医疗语料库MMedC和评测基准MMedBench，推出MMed-Llama 3模型，在多项基准测试中表现卓越，推动多语言医疗大模型发展。

在医疗信息化日益普及的今天，医疗数据的规模和质量都得到了显著提升。随着大模型时代的到来，面向精准医疗、诊断辅助、医患交互等不同场景的各类大模型层出不穷。然而，当前医疗大模型的发展仍面临一个显著挑战：大多数模型主要依赖于英语的基座模型和训练数据，缺乏处理多语言医疗专业数据的能力。为了克服这一挑战，上海交通大学人工智能学院智慧医疗团队近期在《自然通讯》上发表了一项重要研究，题为“Towards Building Multilingual Language Model for Medicine”，在多语言医疗大模型的构建上取得了显著进展。

一、多语言医疗语料库MMedC的构建

为了训练出能够处理多语言医疗数据的模型，研究团队首先需要构建一个大规模的多语言医疗语料库。他们创建了一个名为MMedC的语料库，包含了255亿个tokens，涵盖了英语、中文、日语、法语、俄语和西班牙语这6种主要语言。这些数据来源于多个渠道，包括广泛的多语言语料库、医学教科书、官方许可的医疗网站以及现有的小型医疗语料库。通过启发式算法、光学字符识别（OCR）技术和数据整合，研究团队成功构建了一个丰富、全面的多语言医疗语料库。

二、多语言医疗问答评测基准MMedBench的开发

为了评估多语言医疗模型的性能，研究团队开发了一个名为MMedBench的多语言医疗问答评测基准。这个基准覆盖了6种语言，包含了超过5万对医学多项选择问答，跨越了21个医学领域。所有问题均直接源自各国的医学考试题库，避免了由于不同国家医疗实践指南差异导致的诊断理解偏差。此外，研究团队还为每个题目提供了正确答案的详细解释，要求模型不仅要选出正确答案，还需提供合理的解答理由。这样的设计不仅测试了模型回答选择题的能力，也测试了其理解和解释复杂医疗信息的能力。

三、多语言医疗大模型MMed-Llama 3的推出

基于MMedC语料库，研究团队进一步训练了多语言医疗大模型MMed-Llama 3。这个模型在多项基准测试中表现卓越，显著超越了现有的开源模型。特别是在MMedBench基准上，MMed-Llama 3在全面微调评估下的性能达到了67.75，而基座模型Llama 3的性能为62.79。此外，MMed-Llama 3在英文基准测试上也表现出了先进的性能，显著超过了GPT-3.5。在人工评估和GPT-4评估中，MMed-Llama 3均获得了最高分，尤其是在GPT-4评级中的表现，更是明显优于其他模型。

四、开源与共享

研究团队将所有的模型和训练数据进行开源，促进了大语言模型在医疗领域的发展，特别是在语言障碍和医疗资源全球化垂直应用方面。这一举措有助于推动全球研究社区的合作和技术共享，加速多语言医疗大模型的研发和应用。

五、实际应用与前景展望

多语言医疗大模型在临床实践中具有广泛的应用前景。它可以帮助缓解医患之间的语言沟通障碍，提升诊疗的准确性。在远程诊断、跨国医疗合作等场景下，多语言医疗大模型能够发挥重要作用。此外，随着技术的不断进步和模型的持续优化，多语言医疗大模型有望在更多领域展现出其独特的优势和价值。

上海交通大学智慧医疗团队的这一研究成果为多语言医疗大模型的发展注入了新的动力。未来，随着技术的不断迭代和应用的不断拓展，我们有理由相信，多语言医疗大模型将在全球范围内发挥越来越重要的作用，为人类的健康事业贡献更多的智慧和力量。