微软发布LLaVA-Rad:轻量级开源模型,推动临床放射学报告自动化
微软研究院联合多所大学的研究人员近期推出了一种名为LLaVA-Rad的轻量级多模态模型,旨在自动生成高质量的放射学报告。该模型在胸部X光成像领域取得了显著成果,其设计理念是将训练过程分为单模态预训练和轻量级跨模态学习两个阶段。LLaVA-Rad在包含697,435对图像-报告的数据集上进行了训练,这些数据来自七个不同的来源。训练过程中,研究人员利用了GPT-4来合成报告,即使在只有结构化标签的情况下,也能实现高效的性能。
LLaVA-Rad的架构代表了一种新型的小型多模态模型(SMM),尽管其体积远小于Med-PaLM等大型模型,但性能表现卓越。该模型的模块化方法使用了一个多样化数据集,包括258,639名患者的697,000张去标识化胸部X光图像和相关放射学报告,从而确保了单模态模型的稳健性和跨模态学习的有效性。
LLaVA-Rad的训练过程分为三个阶段:预训练、对齐和微调。这种设计允许模型在V100 GPU上进行推理,并在一天内使用8-A100集群完成训练。
该研究还提出了一种名为CheXprompt的事实正确性自动评分标准,用于评估报告的质量。LLaVA-Rad的发布不仅为医学成像领域带来了创新,也为未来医疗AI技术的应用和发展开辟了新的可能性。