160w+ 未标注图像、3 个维度全方位评估，周玉坤等人开发 RETFound 模型，用视网膜图像预测多种系统性疾病

强化学习2年前 (2023)发布智源社区

837 0 0

160w+ 未标注图像、3 个维度全方位评估，周玉坤等人开发 RETFound 模型，用视网膜图像预测多种系统性疾病

By 超神经

无论是「西部世界」中的 3D 生物打印、「星球大战」中卢克天行者的机械手臂、还是「黑客帝国」中 AI 创造的虚拟世界，这些科幻片中的丰饶想象无不透露出人类对健康、长生的向往。

如今，机器手臂、人工智能等这些经常在电影中出现的医疗技术已经成为现实。想象一下，未来医生只需要简单地扫描你的眼睛，就能得知你的心脏健康状况、预测帕金森风险。听起来是不是也很科幻？但这并不是电影，而是真实发生的事。

作者：乔乔

编辑：三羊

视网膜是人体中唯一可以直接观察到毛细血管网络的部位，也是中枢神经系统的一部分，传统医学人工智能常通过识别视网膜图像中的健康状况，进行眼部疾病的诊断。

然而，AI 模型的开发需要大量由专业人士标注的数据，而且模型通常是针对特定疾病任务的，无法推广至各种各样的临床应用。

针对这种情况，来自伦敦大学学院 (UCL) 和 Moorfields 眼科医院的在读博士周玉昆等人，提出了一个视网膜图像基础模型 RETFound，它利用自监督学习 (self-supervised learning) 在超过 160 万张未标注的视网膜图像上训练而成，在眼部疾病诊断/预后及系统性疾病的预测等任务中，都具有极佳的性能。

相关论文已发表于 Nature。

获取论文：

https://www.nature.com/articles/s41586-023-06555-x

公众号后台回复「视网膜」获取完整论文 PDF

RETFound 模型训练详解

训练数据

CFP+OCT 共计 164w+ 图像

构建 RETFound 的数据集包含两部分：

* CFP 图片：合计 904,170 张，其中 90.2% 来自 MEH-MIDAS，9.8% 来自 Kaggle EyePACS33

* OCT 图片：合计 736,442 张，其中 85.2% 来自 MEH-MIDAS，14.8% 来自其他参考文献

MEH-MIDAS 是一个回溯性数据集 (retrospective dataset)，包括 2000 年至 2022 年期间，在伦敦 Moorfields 眼科医院就诊的 37,401 例（16,429 名女性、20,966 名男性以及 6 名性别未知）糖尿病患者的完整眼部成像记录。

这些患者的平均年龄 64.5 岁，标准差为 13.3 岁，同时考虑到种族分布多样性，患者包含英国人 (13.7%)、印度人 (14.9%)、加勒比人 (5.2%)、非洲人 (3.9%)、其他种族 (37.9%) 以及未透露种族的患者 (24 .4 %)。

MEH-MIDAS 数据集的数据来自多种成像设备，如 topcon 3DOCT-2000SA (Topcon)，CLARUS (ZEISS) 以及 Triton (Topcon)。

EyePACS 数据集的数据成像设备包括 Centervue DRS (Centervue)、Optovue iCam (Optovue)、Canon CR1/DGi/CR2 (Canon) 以及 Topcon NW (Topcon)。

RETFound

针对视网膜图像的基础模型

RETFound 是一个针对视网膜图像的基础模型，它通过自监督学习 (self-supervised learning) 的方法，在 160 万张未标注的视网膜图像上进行训练，可应用于其他带有明确标注的眼部及系统性疾病检测任务。

RETFound 模型的实现用到了特定配置的掩码自编码器 (masked autoencoder)，这个掩码自编码器包含两部分：

* 一个编码器 (encoder)：使用 large vision Transformer (ViT-large)，包含 24 个 Transformer block 以及 1,024 大小的嵌入向量，input 为 unmasked patches (16×16)，并将其投影到 1,024 大小的特征向量中。这 24 个 Transformer block 包括多头自注意力机制 (multiheaded self-attention) 和多层感知机 (multilayer perceptron)，接受特征向量作为 input 并生成 high-level features。

* 一个解码器 (decoder)：使用 small vision Transformer (Vit-small)，包含 8 个 Transformer block 以及 512 大小的嵌入向量。将掩码虚拟补丁 (masked dummy patche) 插入提取的 high-level features，作为模型 input，然后在线性投影后重构图像补丁。

RETFound 模型架构示意图

模型训练的目标是从高度 masked 版本重建视网膜图像，CFP 的 mask ratio 为 0.75，OCT 的 mask ratio 为0.85，batch size 1,792 (8 GPUs × 224 per GPU)，训练 epoch 合计 800，前 15 个 epoch 用于学习率预热（从 0 增加至 1×10^-3。final epoch 的模型权重保存作为适应下游任务的 checkpoint。

3 个维度评估 RETFound 模型性能

为了评估 RETFound 模型的性能及标注效率，科研人员将 RETFound 模型与其他 3 个预训练模型进行了对比，它们分别是 SL-ImageNet、SSL-ImageNet 以及 SSL-Retinal。所有模型的预训练策略都不一样，但具有相同的模型架构以及用于下游任务的调优过程。

1. 眼部疾病的诊断

科研人员使用 8 个公共数据集来验证 RETFound 模型在多种眼部疾病和成像条件下的性能。

内部评估

上图展示的是内部评估 (Internal evaluation)，调优后模型应用于每个数据集，并在眼科疾病诊断任务中对保留的测试数据进行内部评估（如糖尿病性视网膜病变及青光眼）。

实验结果表明：RETFound 在大部分数据集中，都取得了最佳性能，排名第二的是 SL-ImageNet。

外部评估

对于外部评估 (External evaluation)，科研人员评估了 RETFound 模型在 diabetic retinopathy datasets (Kaggle APTOS-2019, IDRID and MESSIDOR-2) 上的性能，这些数据集都在 5 级国际临床糖尿病性视网膜病变严重程度量表上标注过。在 3 个数据集间进行交叉评估，即在一个数据集上调优模型，在其他数据集上对其进行评估。

实验结果表明：RETFound 模型在所有交叉评估中都取得了最佳性能。

2. 眼部疾病预后

科研人员还在 AlzEye 数据上，测试了另一只眼在 1 年内转化为湿性老年黄斑病变 (wet-AMD) 的预后情况，结果发现：

* 输入为 CFP 时，RETFound 性能最佳，AUROC 达到 0.862 (95% CI 0.86, 0.865)，显著优于比较组；

* 输入为 OCT 时，RETFound 得分最高，AUROC 达到 0.799 (95% CI 0.796, 0.802)，比 SSL-Retinal 显示出统计学意义上明显更高的 AUROC。

实验结果表明：RETFound 模型在所有任务中均表现最佳。

3. 系统疾病的预测

科研人员通过 4 种系统性疾病，来评估 RETFound 模型在预测视网膜图像与系统性疾病相关性方面的性能。

用视网膜图像预测系统性疾病 3 年发病率的模型性能

4 种系统性疾病分别为：心肌梗塞 (Myocardial infarction)、心力衰竭 (Heart failure)、缺血性中风 (Ischaemic stroke) 以及帕金森病 (Parkinson’s disease)。

实验结果显示：RETFound 模型在 4 种疾病的预测中，性能均超越其他对比模型、排名第一。

RETFound 模型的局限及挑战

尽管科研过程系统地评估了 RETFound 在诊断和预测心脏病、心力衰竭、中风和帕金森等全身性疾病方面的作用，但仍存在一些限制和挑战，需要在未来的工作中进一步探索。

首先，用于开发 RETFound 的大多数数据都来自英国，因此需要考虑未来引入全球视网膜图像后，可能对模型效果带来的影响，模型有必要引入更加多样化和平衡的数据。

其次，虽然这项研究探索了 CFP 和 OCT 下模型的性能，但尚未研究 CFP 和 OCT 之间的多模态信息融合，这可能会使得 RETFound 的性能进一步提高。

最后，一些临床相关信息，例如人口统计和视敏度（visual acuity），可能可以作为眼科研究的有效协变量，它们尚未包含在 SSL 模型中。

目前，RETFound 的开发人员已经公开了这个模型，希望世界各地的人才能够对 RETFound 进行调整和训练，使其适用于不同的患者群体和医疗环境。

AI 助力，智慧医疗新未来初见雏形

截至目前，RETFound 作为基础模型是医学成像中的少数成功应用之一，它在提高模型性能、减轻医学专家标注负担的同时，也引发了人们对于医疗 AI 落地应用的关注。

如今，医疗行业正在进入数智化的爆发期，多方产业资本纷纷入局，推动 AI 技术在医疗行业的应用。

据中商产业研究院统计，2020 年 AI+ 医疗已占人工智能市场的 18.9%，市场规模为 66.25 亿元。另据 IDC 统计数据，到 2025 年人工智能应用市场总值将达 1,270 亿美元，其中医疗行业将占市场规模的五分之一。从基础层到应用层，医疗 AI 广阔市场大有所为。

中国医疗 AI 主要应用领域市场规模（亿元）

资料来源：中商产业研究院

纵观海外市场，医疗 AI 应用陆续落地：今年 3 月，微软旗下的临床文档软件公司 Nuance 在其最新的语音转录应用程序中添加了 GPT4；4 月，微软和 Epic 宣布将把 OpenAI 的 GPT-4 引入医疗保健领域，以帮助医护人员回复患者信息和分析医疗记录；同月，谷歌宣布将向用户群发布其医学大模型 Med-PaLM 2。

国内方面，科大讯飞、商汤科技等积极布局，行业应用加速探索。AI+医疗，已经是全球科技界都有共识的趋势。

业内人士认为，AI 大模型的应用有望显著缓解医疗行业痛点，随着应用场景的进一步深化，医疗行业智能化时代有望正式开启，行业长期机遇巨大。

参考链接：

[1]https://www.nature.com/articles/s41586-023-06555-x

[2]https://www.nature.com/articles/d41586-023-02881-2

—— 完 ——

往期推荐

美国阿贡国家实验室发布快速自动扫描套件 FAST，助力显微技术「快速阅读」成为可能

清华大学利用可解释机器学习，优化光阳极催化剂，助力光解水制氢

生物信息学 | 借助 AI 更高效地开启研究

扫描二维码，加入讨论群

获得更多优质数据集

了解人工智能落地应用

关注顶会&论文

回复「读者」了解更多

戳“阅读原文”，免费获取海量数据集资源！

文章版权归作者所有，未经允许请勿转载。

北京邮电大学|用于成本和延迟敏感的虚拟网络功能放置和路由的多智能体深度强化学习

智源社区

848

EMNLP2023论文：基于机器翻译模型采用约束束搜索算法生成优化的机器翻译质量评估伪数据

智源社区

887

Transformer+强化学习｜谷歌DeepMind让大模型成为机器人感知世界的大脑

智源社区

793

Nat. Mach. Intel. | 一种用于分子相互作用和分子性质预测自动图学习方法

智源社区

1,140

实训产品：Orbbot Arm 3D视觉桌面机器人介绍

智源社区

705

重磅！Sam Altman重回OpenAI，董事会洗牌

智源社区

1,022

暂无评论

暂无评论...

160w+ 未标注图像、3 个维度全方位评估，周玉坤等人开发 RETFound 模型，用视网膜图像预测多种系统性疾病

人类对「AI灭绝论」的担忧，这一方法能解决吗？｜深度长文

OpenAI 505员工联名逼宫请奥特曼回归，Ilya痛悔赶走CEO！威胁董事会立即解散，否则集体跳槽微软

相关文章

暂无评论

相关文章

热门标签

热门网址