斯坦福发布基于58万小时数据的SleepFM预测模型,睡一晚就能预测130种疾病!

如果在夜幕降临后,我们身体上演的不仅仅是一场休息的静默剧,而是一场关于未来健康的宏大预演,那会怎样?长久以来,医学界将多导睡眠图(Polysomnography, PSG)奉为睡眠分析的“金标准”。然而,海量且复杂的数据往往仅仅被用于诊断睡眠呼吸暂停。

1月6日,《Nature Medicine》 的研究报道“A multimodal sleep foundation model for disease prediction”,研究人员开发了一种名为 SleepFM 的基础模型,从超过58万小时的记录中“学会”了睡眠的语言。这不仅是睡眠科学的进步,更是AI在生物医学领域的深层突围。

Nature Medicine | 你的睡眠,正在“剧透”你的余生:基于58万小时数据的SleepFM预测模型

项目开源地址:https://github.com/zou-group/sleepfm-clinical

数据的觉醒:打破“巴别塔”的困境

在深入探究 SleepFM 的惊人预测能力之前,我们先来看看这项研究面临的巨大挑战——数据的异质性(Heterogeneity)。

对很多人来说,多模态数据的整合一直是个棘手难题。传统的睡眠研究往往受限于样本量(通常只有几千个样本),且高度依赖专家的手工标注。更糟糕的是,不同的睡眠实验室、不同的设备,甚至同一家医院不同时期的记录,其通道数量和信号类型都可能大相径庭。有的记录有10个脑电通道,有的只有2个;有的包含详尽的呼吸参数,有的则缺失。这种数据的“巴别塔”现象,严重阻碍了大规模模型的训练。

研究人员构建了一个规模空前的数据库。他们汇集了来自四个主要队列的数据:斯坦福睡眠诊所(SSC)、BioSerenity、动脉粥样硬化多民族研究(MESA)以及老年男性睡眠障碍结果研究(MrOS)。这四个队列加起来,涵盖了超过 65,000名 参与者,累积了超过 585,000小时 的PSG记录。

为了驾驭这片数据的海洋,研究人员并没有采用传统的监督学习(Supervised Learning)——即告诉计算机“这是慢波睡眠,那是快速眼动期”的填鸭式教学。相反,他们开发了一种名为 SleepFM 的基础模型(Foundation Model)。

SleepFM 的核心架构包含了一个一维卷积神经网络(1D CNN)作为编码器,配合Transformer模块来捕捉时间依赖性。但真正让这个模型脱颖而出的,是研究人员设计的一种名为“留一法对比学习”(Leave-One-Out Contrastive Learning, LOO-CL)的训练策略。

想象一下,PSG记录就像由脑电图(EEG/BAS)、心电图(ECG)、肌电图(EMG)和呼吸信号组成的四重奏。LOO-CL 的逻辑是:模型遮住其中一种乐器的声音(例如遮住心电图),然后尝试利用剩下的三种乐器(脑电、肌电、呼吸)的各种特征,去在海量数据中“认出”原本属于同一时刻的那个心电信号。

这种方法迫使模型必须深刻理解不同生理信号之间内在的、错综复杂的关联。它不再是机械地记忆波形,而是在学习生理系统之间的“对话”。由于采用了“通道无关”(Channel-agnostic)的注意力池化机制,SleepFM 展现出了极强的稳健性——无论输入数据是缺少某个通道,还是通道顺序被打乱,它都能从容应对。这种设计使得模型能够利用比以往研究多出5到25倍的数据量进行训练,从而捕捉到传统方法无法察觉的生理特征。

一夜睡眠,预测130种疾病的未来

当 SleepFM 在海量未标注数据上完成了预训练(Pre-training),掌握了睡眠的“潜层表示”(Latent Representations)后,研究人员将其与斯坦福睡眠诊所的电子健康记录(EHR)相结合,进行了一场震撼的疾病预测测试。

结果令人深思。仅凭一个晚上的睡眠数据,SleepFM 就能对 130种 不同的疾病进行准确预测,其C指数(C-Index,一致性指数,用于衡量生存分析模型预测准确性的指标)均达到了 0.75 以上(经Bonferroni校正 P < 0.01)。

让我们通过一组具体的数据来感受这种预测能力的精度:

全因死亡率(All-cause mortality)

C-Index 高达 0.84。这是一个极具临床意义的数字,意味着仅仅通过睡眠信号,模型就能在很大程度上区分出哪些患者面临更高的死亡风险。

神经退行性疾病

对于痴呆症(Dementia),模型的预测C-Index达到了 0.85;对于阿尔茨海默病(Alzheimer’s disease),C-Index更是达到了 0.91;帕金森病(Parkinson’s disease)的预测C-Index为 0.89

心血管疾病

模型对心肌梗死(Myocardial infarction)的预测C-Index为 0.81,心力衰竭(Heart failure)为 0.80,中风(Stroke)为 0.78,房颤(Atrial fibrillation)为 0.78

慢性肾脏病(Chronic kidney disease)

C-Index 为 0.79

为了验证这些预测并非仅仅是捕捉了年龄或性别的特征,研究人员引入了两个基线模型进行对比:一个是仅基于人口统计学特征(年龄、性别、BMI、种族)的模型,另一个是未经预训练、直接进行端到端监督学习的PSG模型。

数据表明,SleepFM 全面碾压了这两个基线。以全因死亡率为例,SleepFM 的C-Index(0.84)显著高于人口统计学模型(0.79)和端到端PSG模型(0.79)。在6年期受试者工作特征曲线下面积(AUROC)的评估中,SleepFM 预测死亡风险的AUROC达到了 0.85,而基线模型仅为0.78。

这说明,SleepFM 从原始波形中提取出了超越传统临床指标的深层生理信息。它捕捉的不仅仅是“你也老了,所以风险高了”这种显而易见的信息,而是潜藏在脑波微颤和心律变异中的病理前兆。

生理信号的“解剖”:谁在预言你的健康?

我们可能会追问:模型究竟看到了什么?是为了预测某种疾病,它更依赖脑电波还是呼吸声?

这项研究通过深入的消融实验(Ablation Study),揭示了不同生理模态在疾病预测中的独特贡献,这些发现与我们已知的病理生理学机制高度吻合,同时也提供了新的见解。

1. 脑活动信号(BAS):神经与精神的窗口

研究发现,脑电图(EEG)和眼电图(EOG)组成的脑活动信号,在预测神经系统和精神类疾病方面表现最佳。这并不令人意外,因为睡眠脑电的改变(如慢波活动减少、纺锤波密度降低)早已被视为神经退行性病变的生物标志物。但在SleepFM的分析中,这种关联被量化得更加精确。例如,在预测阿尔茨海默病时,脑活动信号的贡献权重占据了主导地位。

2. 呼吸信号:代谢与呼吸系统的晴雨表

呼吸通道的数据(包括气流、胸腹运动、血氧)对于呼吸系统疾病(如呼吸衰竭、呼吸功能不全)以及代谢类疾病表现出最强的预测力。有趣的是,研究人员发现呼吸信号在预测“老年性痴呆”(Senile Dementia)方面也显示出了惊人的预测力。这可能暗示了睡眠呼吸暂停引起的间歇性缺氧与认知功能下降之间存在着强烈的、可被捕捉的病理联系。

3. 心电信号(ECG):循环系统的守护者

不出所料,ECG信号是预测循环系统疾病(如高血压性心脏病、颅内出血)的最强预测因子。然而,SleepFM 的强大之处在于多模态的融合。研究数据显示,虽然单一模态(如仅用ECG)在特定疾病上表现不错,但当结合所有模态时,预测性能总是最高的。

例如,在预测心血管相关死亡率时,SleepFM 整合了睡眠呼吸暂停引起的低氧血症、睡眠碎片化引起的心率变异性改变以及脑电觉醒负担。这种多维度的视角,使得模型能够构建出一个比单一科室检查更完整的患者健康画像。

研究人员还按照睡眠阶段对预测能力进行了分层分析。虽然大多数睡眠阶段对疾病预测都有贡献,但在特定条件下,N1/N2期(浅睡眠)REM期(快速眼动睡眠)提供了略微更好的预测能力。特别是在神经退行性疾病中,REM期的异常(众所周知的REM期睡眠行为障碍 RBD 是帕金森病的强前驱症状)在模型权重中得到了体现。

跨越时空的考验:泛化能力的终极测试

任何基于人工智能的医学模型,如果只能在训练它的数据集上表现出色,那它只是一个昂贵的玩具。为了证明 SleepFM 的临床实用性,研究人员进行了严苛的“外部验证”和“时间验证”。

1. 跨数据集迁移学习(Transfer Learning)

研究人员使用了“睡眠心脏健康研究”(SHHS)的数据集作为外部测试集。请注意,SHHS的数据完全未参与SleepFM的预训练。这意味着模型要在一个完全陌生的数据环境中“考试”。结果显示,仅需使用SHHS中 2,000名 参与者的数据对SleepFM进行轻量级微调(Fine-tuning),它就能在预测中风(AUROC 0.82)、充血性心力衰竭(AUROC 0.85)和心血管疾病相关死亡(AUROC 0.88)等方面展现出强大的性能。更令人印象深刻的是,即使只用极少量的标注数据(例如仅用10%的训练数据,约330个样本),SleepFM 的表现依然稳健,并显著优于那些从头开始训练的监督学习模型。这对于临床应用来说意义重大——意味着医院不需要数万个标注好的病例,只需少量的本地数据,就能利用SleepFM这个强大的“预训练大脑”来部署高精度的预测系统。

2. 跨时间稳健性测试

除了跨空间(不同医院),模型还面临着跨时间(不同年代)的考验。研究人员利用斯坦福睡眠诊所 2020年以后 的数据作为“时间测试集”(Temporal test set)。所有模型的训练数据都截止于2020年之前。尽管随访时间有限,SleepFM 依然在预测死亡(AUROC 0.83)、心力衰竭(0.80)和痴呆症(0.83)方面保持了极高的准确性(Bonferroni校正 P < 0.01)。这证明模型学到的不是某个特定时期设备产生的噪声或伪影,而是真正稳定的生理病理特征。

除了预测未来,它还能做什么?

虽然 SleepFM 的主打功能是疾病风险预测,但研究人员并没有忽视它的基本功——传统的睡眠分析任务。

在睡眠分期(Sleep Staging)任务中,SleepFM 在四个不同队列(SSC, MESA, MrOS, SHHS)上的平均 F1 分数在 0.70 到 0.78 之间。这个成绩与目前最先进的专用睡眠分期模型(如 U-Sleep, YASA)相当。

在睡眠呼吸暂停的检测中,SleepFM 在判断是否存在中重度呼吸暂停(AHI ≥ 15)时的准确率达到了 87%,而在更细粒度的四分类任务中准确率为 69%

这些结果并非旨在说明 SleepFM 是最好的分期工具(实际上在某些外部数据集上它略逊于专门为此设计的模型),而是为了证明:作为一个通用的基础模型,它已经通过自监督学习,内化了关于睡眠结构和呼吸事件的深刻理解。它不需要人类专家逐秒教它“这是呼吸暂停”,它自己通过对比不同通道的信号缺失和变化,就“悟”出了这些概念。

从“诊断”到“预后”的范式转移

这项发表于《Nature Medicine》的研究,其意义远超出一个具体的AI模型。它标志着睡眠医学正在经历一场从“诊断当前”到“预测未来”的范式转移。

长期以来,睡眠检查(PSG)主要被视为一种诊断工具,用于回答“病人现在是否有病(如睡眠呼吸暂停)?”。但 SleepFM 证明了,PSG数据实际上是一个巨大的数字生物标志物库(Digital Biomarkers)。

试想一下,对于一位进行睡眠检查的50岁男性,传统的报告可能只显示“重度阻塞性睡眠呼吸暂停,AHI 45”。但经过 SleepFM 分析后,医生可能会得到额外的风险提示:“该患者未来6年内发生房颤的风险极高(风险评分前5%),且存在早期帕金森病的神经电生理特征。”

这种转变将彻底改变临床决策。它赋予了医生在疾病发生前数年进行干预的机会。对于神经退行性疾病这种目前无法治愈但可以早期管理的疾病,这种“时间窗口”是无价的。

此外,该研究对“基础模型”(Foundation Model)在医学领域的应用提供了强有力的实证。通过在海量未标注数据上进行预训练,模型获得了一种通用的特征提取能力。这种能力使得它在面对小样本、新环境、甚至数据缺失(如某些可穿戴设备只有心率和呼吸,没有脑电)时,依然能发挥作用。这为未来利用消费级可穿戴设备(如智能手表、睡眠指环)进行大规模人群健康筛查铺平了道路。

局限与未知的边界

当然,我们在为这项技术欢呼的同时,也必须保持科研人员应有的审慎。研究团队在论文中坦诚地讨论了几个局限性:

首先是选择性偏差(Selection Bias)。尽管样本量巨大,但这些数据主要来自因睡眠问题而被转诊到睡眠诊所的人群。这意味着该队列并不能完全代表普通健康人群。模型在预测那些与睡眠障碍高度相关的疾病(如心血管病)时表现出色,但在普通人群中的泛化能力仍需进一步验证。

其次是可解释性(Interpretability)。虽然研究人员通过消融实验分析了不同模态的贡献,但深度学习模型内部具体的决策逻辑——例如“究竟是哪一段几微伏的脑波变化导致模型判定痴呆风险增加”——仍然是一个相对的黑盒。在临床落地中,医生往往需要更具体的病理生理学解释,而不仅仅是一个风险概率。

最后,尽管模型在预测疾病方面表现出色,但它目前还不能替代传统的诊断流程。它更像是一个强大的辅助工具,一个能看到人类感官无法察觉的微弱信号的“超级助手”。

结语

我们每天花费三分之一的时间在睡眠中。曾经,这被视为一段生理上的“空白”。但 SleepFM 的出现告诉我们,这段空白实际上写满了关于我们身体最深处的秘密。

通过58万小时的深度学习,人工智能不仅学会了读懂睡眠的语言,更学会了从这些夜间的低语中,听出生命的走向。这项研究不仅展示了多模态数据与基础模型结合的巨大威力,更为预防医学开启了一扇新的大门。

也许在不久的将来,当我们从一夜好梦中醒来,收到的不仅是“昨晚睡得不错”的问候,还有一份精准的未来健康预报,提醒我们避开那些潜伏在岁月深处的暗礁。

参考文献

Thapa R, Kjaer MR, He B, Covert I, Moore Iv H, Hanif U, Ganjoo G, Westover MB, Jennum P, Brink-Kjaer A, Mignot E, Zou J. A multimodal sleep foundation model for disease prediction. Nat Med. 2026 Jan 6. doi: 10.1038/s41591-025-04133-4. Epub ahead of print. PMID: 41495409.

文章来自于微信公众号 “生物探索”,作者 “生物探索”

给TA充电
共{{data.count}}人
人已充电
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
搜索