大型语言模型在翻译CT和MRI自由文本放射学报告中的能力
大型语言模型在翻译CT和MRI自由文本放射学报告中的能力
学术背景
在全球化的背景下,患者的流动性增加,放射学报告作为疾病诊断和管理的重要工具,常常需要被翻译成不同的语言。然而,语言障碍可能会影响这些报告的有效使用,进而影响患者的及时和准确管理。随着远程医疗的兴起,患者越来越多地寻求远程专家咨询或第二意见,这进一步加剧了语言障碍的挑战。如果没有准确的翻译,这些报告可能会被误解或忽视,导致诊断延迟和潜在的错误。
由于具备医学专业知识的人工翻译并不总是随时可用,基于人工智能的模型,特别是大型语言模型(LLMs),提供了有前景的替代方案。尽管这些模型最初是为通用语言处理任务设计的,但它们在翻译等应用中也展示了良好的效果。然而,LLMs在翻译放射学报告方面的能力尚未得到充分探索,尤其是在处理低资源语言时,现有的模型往往表现出偏见,因为它们主要基于英语数据进行训练。
研究目的
本研究旨在评估不同LLMs在翻译放射学报告时的准确性和质量,涵盖高资源语言(如英语、意大利语、法语、德语和中文)和低资源语言(如瑞典语、土耳其语、俄语、希腊语和泰语)。
研究方法
数据集与翻译过程
研究使用了100份合成的CT和MRI自由文本放射学报告,这些报告在2024年1月14日至5月2日期间由18名放射科医生翻译成9种目标语言。翻译过程涉及10种LLMs,包括GPT-4(OpenAI)、Llama 3(Meta)和Mixtral模型(Mistral AI)。翻译的准确性和质量通过双语评估替代(BLEU)分数、翻译错误率(TER)和字符级F分数(CHRF++)等指标进行评估。统计显著性通过配对t检验和Holm-Bonferroni校正进行评估。此外,放射科医生还使用标准化问卷对翻译进行了定性评估。
定量评估
定量评估使用了三种广泛使用的语言指标:BLEU分数、TER和CHRF++。BLEU分数衡量翻译与人工翻译的相似性,分数越高表示准确性越高。TER衡量将机器翻译转换为参考翻译所需的编辑次数,TER越低表示翻译质量越高。CHRF++则在字符和单词级别上评估n-gram的相似性,分数越高表示翻译与参考翻译的匹配度越高。
定性评估
定性评估通过结构化问卷进行,评估标准包括医学术语的准确性、临床适用性、清晰度和可读性、与原始意义的一致性以及语法和句法。每个标准按1到5分的Likert量表进行评分,1分表示表现差,5分表示表现优秀。
研究结果
定量评估结果
GPT-4在多个语言中表现出最佳的整体翻译质量,特别是在英语到德语、希腊语、泰语和土耳其语的翻译中表现突出。GPT-3.5在英语到法语的翻译中表现出最高的准确性,而Qwen1.5在英语到中文的翻译中表现优异。Mixtral 8x22b在意大利语到英语的翻译中表现最佳。
定性评估结果
定性评估显示,LLMs在清晰度、可读性和与原始意义的一致性方面表现优异,但在医学术语的准确性方面表现中等。
结论
LLMs在翻译放射学报告时表现出较高的准确性和质量,尽管结果因模型和语言对的不同而有所差异。GPT-4在多个语言中表现最佳,而其他模型如GPT-3.5和Mixtral 8x22b也在特定语言对中表现出色。然而,目前尚无一种模型能够适用于所有语言对,特别是在低资源语言中,翻译质量仍有待提高。
研究亮点
- 重要发现:GPT-4在多个语言对中表现出最高的翻译质量,特别是在高资源语言中表现尤为突出。
- 方法创新:本研究首次系统地评估了LLMs在翻译放射学报告中的表现,涵盖了高资源和低资源语言。
- 应用价值:研究结果表明,LLMs在翻译医学报告方面具有巨大潜力,特别是在缺乏人工翻译的情况下,可以为全球医疗提供支持。
研究意义
本研究为LLMs在医学翻译领域的应用提供了重要的实证数据,特别是在处理多语言放射学报告时。研究结果强调了进一步开发和优化LLMs的必要性,特别是在提高低资源语言的翻译质量和医学术语的准确性方面。此外,研究还为未来的多语言医学翻译工具的开发提供了参考。
作者与机构
本研究由来自多个国际机构的专家团队完成,主要作者包括Aymen Meddeb、Sophia Lüken、Felix Busch等。研究团队来自Charité–Universitätsmedizin Berlin、Technical University of Munich、University of Naples Federico II等知名机构。论文于2024年12月发表在《Radiology》期刊上。
参考文献
研究引用了多篇相关文献,包括关于LLMs在医学翻译中的应用、多语言翻译的挑战以及放射学报告的结构化翻译等方面的研究。这些文献为研究提供了理论支持和背景知识。
数据共享
研究生成或分析的数据可根据请求从通讯作者处获取。
利益冲突声明
所有作者均声明无相关利益冲突。
通过本研究,我们不仅验证了LLMs在翻译放射学报告中的潜力,还为未来的多语言医学翻译工具的开发提供了重要的参考依据。