単一誘導心電図と人工知能による心不全予測

Digital Health

はじめに:心不全リスク層別化の課題

心不全(heart failure, HF)は世界的に増加しており、その罹患率や再入院率の高さから、公衆衛生上の重大な課題となっています。近年、HFの予防的介入が可能な薬剤が登場してきたにもかかわらず、スクリーニングとリスク層別化の手法は限定的でした。従来のリスクスコア、たとえばPooled Cohort Equations to Prevent Heart Failure(PCP-HF)やPredicting Risk of Cardiovascular Disease Events(PREVENT)などは、詳細な問診・身体所見・血液検査・12誘導心電図といった複数の臨床情報を必要とします。そのため、医療アクセスが限られる地域やスクリーニング体制が整っていない集団には適用が難しいという課題がありました。

こうした背景の中で、単一誘導心電図(single-lead ECG)と人工知能(AI)を組み合わせた新しいリスク評価モデルが登場しました。本論文では、ノイズ適応型AIモデルを用いて、単一誘導ECGから将来のHF発症リスクを予測できるかを、多国籍大規模データを用いて検証しています。


方法:3つのコホートにおける後ろ向き検証

本研究では、米国(Yale New Haven Health System: YNHHS)、英国(UK Biobank: UKB)、ブラジル(ELSA-Brasil)の3つの独立したコホートを対象に、AIモデルの性能が後ろ向きに評価されました。

対象はすべて、ベースラインで心不全の既往がない成人とされ、YNHHSでは192,667人、UKBでは42,141人、ELSA-Brasilでは13,454人が解析に含まれました。研究期間はYNHHSで2014〜2023年、UKBで2014〜2020年、ELSA-Brasilでは2008〜2010年のECG取得データを使用しています。

AIモデルは、lead I(単一誘導)のECG波形から左室収縮機能障害(left ventricular systolic dysfunction: LVSD、LVEF <40%)を予測するよう訓練されており、さらに現実の携帯型デバイスの使用を想定し、ランダムガウスノイズを加えて耐ノイズ性を高めた設計になっています。モデルの内部検証ではAUCが0.899と高く、従来モデルと比較しても優れた性能を示しています。


結果:AIによる心不全予測の有用性

各コホートにおいて、AI-ECGのスクリーニング結果が陽性であることは、将来の心不全発症と有意に関連していました。

  • YNHHSでは、AIスクリーニング陽性者は陰性者に比べて約2.73倍の心不全リスク(死亡リスク調整後)を有していました(aHR: 2.73, 95%CI: 2.55–2.93)。
  • UKBでは、陽性者は4.99倍のリスク(95%CI: 2.81–8.87)。
  • ELSA-Brasilでは6.53倍(95%CI: 2.91–14.67)と、より高いリスク増加が示されました。

また、モデル出力の確率が0.1上昇する(AIモデルが算出する「心不全リスクのスコア」が10%ポイント分(=0.1)高くなる)ごとに、心不全リスクは以下のように上昇していました。

  • YNHHS:27%上昇(aHR: 1.27)
  • UKB:49%上昇(aHR: 1.49)
  • ELSA-Brasil:65%上昇(aHR: 1.65)

この結果から、AIモデルの出力は定量的なリスクスコアとしても応用可能であることが示唆されました。


従来のスコアとの比較

AI-ECGは、既存の臨床スコア(PCP-HFやPREVENT)と比較しても識別性能が優れていました。
臨床スコアとは、年齢、性別、人種、BMI、血圧、喫煙有無、コレステロール値、血糖値、服薬歴、心電図QRS幅、eGFRなどから心不全や心血管系イベントを予測するスコアです。

Harrel C統計量

  • Harrel C統計量では、
    • YNHHSでAI-ECGは0.723に対し、PCP-HFは0.640、PREVENTは0.674
    • ELSA-BrasilではAI-ECGが0.828、PCP-HFは0.850、PREVENTは0.882

さらに、AI-ECGを既存スコアに加えると、Harrel C統計量は最大+0.107ポイント向上し、臨床的な識別能の強化が確認されました。

※ Harrel C統計量(Harrell’s C-index、C-index、C-statistic)は、予測モデルの「識別能力(discrimination)」を評価する統計指標です。特に、時間を伴う生存データ(例:心不全の発症までの時間)に対して、その予測モデルが「誰が先にイベント(例:心不全)を起こすかを正しく当てられるか」を評価するために用いられます。

Harrel C統計量は、0から1までの数値で表されます。
C = 0.5:予測モデルの識別力は「無作為」と同じ(=サイコロを振っているのと同じ)
C = 1.0:完全に識別できる理想的なモデル
C > 0.7:臨床では「良好な識別力」とされることが多い

再分類指標(NRI: Net Reclassification Index)、統合識別改善指標(IDI)

加えて、再分類指標(NRI: Net Reclassification Index)や統合識別改善指標(IDI)も大幅に改善(最下段【補足】参照)

  • NRIは+18.2〜47.5%(イベントの再分類精度向上が主因)
  • IDIは+0.091〜0.205

これらの結果は、AIモデルが従来スコアと併用されることで、スクリーニング精度の向上が期待できることを示しています。


病態的背景

このAIモデルは、あくまで電気的信号(ECG)からLVSDやHFリスクを推測するものであり、直接的に分子生物学的マーカー(たとえばNT-proBNPやhs-TnTなど)を介しているわけではありません。ただし、既報ではAIが検出するパターンは、左室のstrain異常や軽度の拡張障害など、構造的・機能的心筋変化の電気的表現を捉えている可能性が示唆されています。これは、臨床で「電気的には正常に見えるが、AIには異常に映る」という新たな病態認識の出発点になるかもしれません。


この研究の新規性

  1. 単一誘導ECGという極めてシンプルな入力に、AIモデルを適用し、心不全リスクを予測できた点
  2. ノイズ耐性型の学習プロセスによって、現実の携帯型デバイスへの応用可能性を意識した設計
  3. 米英伯の3つの独立した多様なコホートで検証され、再現性が担保されていること
  4. 従来のスコアよりも優れた、もしくは同等のリスク層別性能を確認できた点

これらはいずれも、将来的なコミュニティベースのHF予防戦略においてAI-ECGが現実的選択肢となる可能性を示唆しています。


臨床応用の可能性

  • 予備的な心不全スクリーニングが、スマートウォッチや携帯ECG端末だけで可能になる時代が現実味を帯びてきました。
  • 心不全の症状が出る前、あるいはejection fractionがまだ保たれている時点で、電気的な予兆をAIが捉えることで、早期介入が可能になるかもしれません。
  • 地域医療や訪問診療など、医療リソースが限られる場所でも心不全リスク層別化が可能になります。

おわりに

この研究は、単一誘導ECGにAIを組み合わせることで、シンプルかつスケーラブルな心不全リスク層別化の可能性を拓きました。今後、ポータブルデバイスや地域スクリーニングといった現場への応用が進めば、心不全予防戦略は新たなフェーズに入ることが期待されます。

参考文献

Dhingra LS, Aminorroaya A, Pedroso AF, et al. Artificial Intelligence–Enabled Prediction of Heart Failure Risk From Single-Lead Electrocardiograms. JAMA Cardiol. Published online April 16, 2025. doi:10.1001/jamacardio.2025.0492

【補足】

NRI(Net Reclassification Improvement:再分類改善指数)とは?

定義:

NRIは、新しいモデル(例:AI-ECG)が既存のモデル(例:PCP-HF)と比べて、イベント発生者と非発生者をより正しく分類できたかどうかを評価する指標です。


計算の考え方 

  1. 既存モデルと新モデルの両方で「リスク区分(低・中・高など)」を定めます。
  2. 各対象者がその区分でどう動いたか(上がった・下がった)を見ます。
  3. 以下の2つを計算します:
    • イベントが起きた人(=病気になった人)が高リスクに再分類された割合(アップ)から、低リスクに再分類された割合(ダウン)を引く
    • イベントが起きなかった人(=健康だった人)が低リスクに再分類された割合(アップ)から、高リスクに再分類された割合(ダウン)を引く
  4. 両者を足し合わせたものがNRIです。

NRIの解釈:

  • NRI > 0:新しいモデルは再分類において既存モデルより優れている
  • NRI = 0:改善なし
  • NRI < 0:新しいモデルの再分類性能は劣る

本研究でのNRIの例:

  • AI-ECGは、PCP-HFやPREVENTに対して+18〜47%のNRIを示しており、これは実際の心不全発症者をより高リスク群に移し、非発症者をより低リスク群に移すのに成功したことを意味します。

IDI(Integrated Discrimination Improvement:統合識別改善指数)とは?

定義:

IDIは、新しいモデルが、イベント発症者のリスクスコアをどれだけ上げ、非発症者のスコアをどれだけ下げたかを評価する、連続的な指標です。


計算の考え方:

  1. 各モデルにおける平均予測確率を算出します(発症者と非発症者に分けて)。
  2. イベント群での予測スコアの平均がどれだけ上がったか?
  3. 非イベント群での予測スコアの平均がどれだけ下がったか?
  4. 両者の合計がIDIとなります。

IDIの解釈:

  • IDIが高いほど、リスクの「距離」が広がった(=識別力が改善した)ことを意味します。
  • IDIはHarrel Cよりも感度が高いため、小さなモデル改善も検出しやすいという特徴があります。

本研究でのIDIの例:

  • AI-ECGは、PCP-HFに対して+0.091〜0.205、PREVENTに対して+0.068〜0.192のIDIを示しており、イベント群と非イベント群のリスクスコアの「分離度」が大きくなったことを意味します。

NRIとIDIの違いまとめ

指標主な意味数値の解釈用途
NRIカテゴリ再分類の改善正しい方向への再分類率(%)臨床的意思決定の改善度の把握
IDI平均的なリスクスコアの改善イベントと非イベント群のスコア差識別力の向上量の定量化
タイトルとURLをコピーしました