Apple Watch計測値の信頼度

Digital Health

はじめに

Apple Watchのようなウェアラブルは、心拍・SpO₂・睡眠・活動量を日常の延長で連続測定でき、症状が出た瞬間や「ふだんとの差」を捉えられる点が魅力です。一方で、数値の精度や限界を理解しないまま使うと、過剰受診・誤解・不必要な不安を増やす危険もあります。
2026年に発表された「The accuracy of Apple Watch measurements: a living systematic review and meta-analysis」は、Apple Watchの各計測指標がどの程度正確なのかを、基準法との比較研究を集めて評価した「継続更新型(living)システマティックレビュー+メタ解析」です。アップデートが速い領域で、古い総説がすぐ陳腐化する問題に対し、“今”のエビデンスを追いかけ続ける設計が最大の特徴です。

リビング・システマティック・レビュー(Living Systematic Review: LSR)とは、新しい研究結果などの重要な証拠(エビデンス)が明らかになるたびに、内容を継続的に更新していく形式のシステマティック・レビューのことです 。


研究デザイン:82研究・43万人超

著者らは9つのデータベースを起源から2025年9月24日まで検索し、最終的に82研究(合計430,052人)を採用しています。検証された健康指標は14種類に及び、Series 9やUltra 2といった比較的新しい世代も含まれます。参加者は男性57%で、研究ごとのサンプルサイズ中央値は44と、小規模研究が多い構成でした。
精度評価は、平均バイアス(平均差)、Bland–Altmanの一致限界(limits of agreement:LoA)※ 、MAPE(平均絶対百分率誤差)※※、感度・特異度など、指標の性質に応じて整理されています。さらにCOSMINを改変した手法でバイアスリスクも評価し、研究の信頼性そのものも点検しています。

※ Bland–Altmanの一致限界(LoA)は、「同じものを2つの方法で測ったとき、どれくらいズレる可能性があるか」を示す指標です。
たとえばApple Watchの心拍数を、医療用の基準測定と比べたときに LoAが -7〜+7 bpm なら、
・Apple Watchの値は、基準より 最大で7低く出たり
・最大で7高く出たり
する範囲にだいたい収まります、という意味です。
ポイントは、平均のズレ(バイアス)ではなく、1回ごとのブレ幅(ばらつき)を表すことです。
つまりLoAが狭いほど「その場その場でも信頼しやすい」、広いほど「単発の値はズレやすい」という理解になります。

※※MAPE(Mean Absolute Percentage Error:平均絶対百分率誤差)は、「だいたい何%くらいズレるか」を平均で表した指標です。測定値が本当の値からどれくらい外れやすいかを、割合(%)で示します。


心拍数:平均はズレないが、「個人の1回」はズレ得る

Apple Watchの心拍数は38研究(1,855人)で検証されました。結論を一言で言うと、「集団平均ではよく合うが、個人の単発値にはブレが残る」です。
メタ解析(安静+運動の統合、22研究・1,247人)では平均バイアスが-0.27 bpm(95%CI -0.72〜0.17)と、平均的にはほぼズレません。しかしLoAは-7.19〜6.64 bpmで、同じ条件でも個人レベルでは±7 bpm前後の揺れが起こり得ます。

・平均バイアス -0.27 bpm:全体としてはほぼズレない
・LoA ±7 bpm:1回ごとは7 bpmくらいズレることがある
・だから、単発値より“傾向”で使うのがコツ

ということになります。

安静時に限ると平均バイアス0.21 bpm、LoA -8.14〜8.56、運動時は平均バイアス-0.63 bpm、LoA -6.86〜5.60とされ、状況で揺れ方が変わります。さらに探索解析では、光学心拍センサー第3世代(Series 6以降)でLoAが-3.68〜2.59と狭い結果が示され、近年モデルでの改善も示唆されています。

ここから実務的に得られる教訓は明快です。
心拍は「絶対値の1回勝負」より「傾向と差分」に強い指標です。例えば“普段より明らかに速い/遅い”“活動の割に心拍が上がらない”といった変化検出には向きますが、「この瞬間の心拍が83だから安全」や「102だから危険」といった断定には向きません。特に不整脈が疑われる状況では、光学式の弱点が出やすく、12誘導心電図やホルターなどの医療計測へ橋渡しする役割として捉えるのが適切です。


心房細動検出:特異度は高いが、見逃しと“判定不能”が課題

ECGアプリ(単誘導心電図)

心房細動(AF)検出は17研究、合計422,654人という巨大データで検証されています。多くはECGアプリ(単誘導心電図)の検証で、一部にPPG由来の不整脈通知(tachogram)が含まれます。

ECGアプリに絞ったメタ解析(11研究・3,144人)では感度0.79(95%CI 0.61〜0.90)、特異度0.91(95%CI 0.81〜0.96)、AUC 0.93でした。全体として「陽性ならそれなりに信用できるが、陰性でも安心しきれない」特性が読み取れます。
さらに重要なのが“判定不能(inconclusive)”の存在です。研究によっては判定不能率が15〜25%に達し、これを解析から除外すると感度・特異度が上がって見えるケースがあります。現場ではここが最も誤解されやすい点です。判定不能は「陰性」ではなく「条件が整わず読めない」です。動き、装着状態、皮膚接触、ノイズなどが重なると、デバイスは賢く“保留”を返します。

明日からの実践としては、次のように使い分けるのが安全です。
・症状があるのに陰性でも、AFを否定したことにはならない
・陽性や判定不能が繰り返されるなら、医療機関の心電図評価へ早めに接続する
・“不安の自己増幅”が起きやすいので、判定不能の意味を最初に患者へ説明しておく
Apple Watchは診断確定の道具というより、診断に値するイベントを拾い上げる入口として強い、という位置づけがしっくりきます。

PPG由来の不整脈通知(tachogram)

心房細動(AFib)の検出を検証した17件の研究のうち、PPGベースのタコグラム(tachograms)を用いた通知機能を評価したものは2件のみでした (残りの研究は主にECG(心電図)アプリを対象)。

感度と特異度の範囲: PPGベースの通知を含むAFib検出全体の感度は19%〜100%、特異度は66%〜100%と、研究間で極めて大きな幅が見られました

特定の通知機能の感度: PPGベースの通知を検証した研究(Wasserlaufら 2023など)を含む一部の研究では、感度と特異度が65%〜90%の範囲に収まったと報告されています

メタ解析との違い: 本論文で行われたAFib検出のメタ解析(統合された感度 0.79、特異度 0.91)の結果は、すべてECGアプリを検証した11件の研究に基づいたものであり、PPGベースの通知結果は含まれていません


血中酸素ウェルネス SpO₂:平均誤差は小さいが、低酸素域での信頼は一段落ちる

SpO₂のメタ解析では平均バイアス0.04%(95%CI -0.42〜0.35)と、平均的には非常に小さなズレでした。しかしLoAは-4.01〜3.94と幅があり、個々の測定では数%単位のズレが現実的に起こり得ます。
さらに低酸素域(hypoxic ranges)ではLoAが-8.35〜9.21と大きく広がり、低い領域ほど信用が落ちる構図が示されています。

この結果の含意は臨床的に重いです。
SpO₂は「平常時の見守り」には便利ですが、「低酸素かどうかの断定」や「治療介入の閾値判断」に使うのは危険になり得ます。特に息切れ・胸痛・意識変容などの症候がある場合、Apple WatchのSpO₂だけで安心材料にしてはいけません。逆に、無症状で普段より明らかに落ちる傾向が続くなら、医療用パルスオキシメータでの再確認や呼吸器・循環器評価に繋げる、という“スクリーニング的な使い方”が現実的です。


エネルギー消費量:誤差が大きく、ダイエットの精密管理には不向き

エネルギー消費量は8研究(270人)で検証され、誤差はかなり大きい部類でした。MAPE(平均絶対百分率誤差、ズレ)はランニングで9.71%から、ウォーキングでは151.66%まで振れます。MAPEを算出した6研究は、少なくとも1条件で20%以上の誤差を示しました。運動強度と誤差の間に一貫した関係は見いだせませんでした。
つまり、消費カロリーは「頑張った感」を可視化するには使えても、「摂取量と差し引きして体重変化を定量管理する」用途には適しません。体重が停滞したときに“時計では消費したのに痩せない”という認知の混乱を生みやすく、臨床でも説明の優先順位は高いポイントです。

VO₂max(最大酸素摂取量):無視できない誤差

VO₂max(最大酸素摂取量)については、この論文では 検証研究が1つだけです。

  • 対象研究:1研究(n=30)
  • Apple WatchのVO₂max推定は、基準法に比べて“低めに出る(過小評価)”
  • 平均差:6.07 mL/kg/min(Apple Watchが低い)

最大酸素摂取量(VO2 max)には、基準法との間に 6.07 mL/kg/min という臨床的に無視できない平均差が認められました 。これらの数値は、心拍数や加速度センサーなどの複数の情報をアルゴリズムで統合する「センサーフュージョン」に依存しており、直接的な計測値よりも信頼性が低いことを認識しなければなりません 。

そのため、Apple WatchのVO₂maxは

  • 「正確な検査値」として評価するより
  • “自分の中での推移(上がっているか/下がっているか)”を見る用途

に向く、という位置づけになります。

歩数計測:日常の活動量を把握する安定した基盤

活動量の基本となる歩数計測については、この論文では 3研究しかなく、しかも対象は に限られていましたが、基準となる実測法との強い相関が確認されています 。歩行や走行の速度にかかわらず一定の精度が維持されており、健康管理のための活動量モニタリングとしては実用的なレベルにあります 。ただし、車椅子ユーザー向けのプッシュカウント※については、モデルやタスクによって 1% から 21% の誤差が生じると報告されており、特定の身体状況における誤差の特性を理解しておく必要があります 。歩数そのものの計測は安定していますが、座った状態での腕の動きを伴う活動がどのようにカウントされるかなど、特定の条件下での検証は依然として限定的です 。
歩数は、医療の観点から言うと「絶対値の正確さ」よりも「日々の増減」が価値になります。

  • 「今日は7,000歩だから正確」より
  • 「先月より平均歩数が増えた/減った」
  • 「平日と休日で差がある」

こういう“傾向”として見るのがベターです。

※車椅子ユーザー向けのプッシュカウントは、歩行者における「歩数」に相当する活動量の指標であり、車椅子を前方に進めるために車輪を手で押す動作(推進動作)の回数を計測する機能です。

睡眠:睡眠/覚醒は強いが、深い睡眠の判別は弱い

睡眠ステージ分類は3研究(221人)です。睡眠/覚醒の二値分類は良好で感度97%以上が報告される一方、深睡眠の判別は十分でなく、浅睡眠へ誤分類しやすい傾向が示されました。
深い睡眠を過小評価し、浅い睡眠を過大評価する傾向が認められており、生理学的に類似したステージを切り分けることの技術的限界を露呈しています 。
この性質を踏まえると、睡眠の活かし方は「ステージの細かな割合」よりも、「就床・起床の規則性」「睡眠時間の変動」「中途覚醒の増減」といった行動変容につながる読み方が向いています。睡眠スコアが悪い日に、深睡眠の比率だけで落ち込むより、飲酒・就寝前のスマホ・カフェイン・運動不足などの要因を一つずつ潰す方が、確実に臨床価値が高いです。


睡眠時無呼吸検出:特異度98.5%に対して感度66.3%

睡眠時無呼吸の検出では、特異度98.5%(95%CI 98.0–99.0)と非常に高い一方、感度は66.3%(95%CI 62.2–70.3)でした。
この組み合わせは「偽陽性を抑えるが、取りこぼしは残る」設計です。言い換えると、通知が出た人は評価に進める価値が高い反面、通知が出ないからといって無呼吸を否定できません。いびき、日中の眠気、夜間頻尿、治療抵抗性高血圧などがある人では、通知の有無と独立に睡眠検査へ進む判断が合理的です。


既存研究に対する新規性

Apple Watchの妥当性研究は以前からありますが、対象指標が限定され、旧モデル中心だったり、更新の速さに追いつけないという課題がありました。本研究の新規性は、主に以下の点です。

  1. living reviewとして継続更新を前提にしたこと
  2. 82研究・43万人超という規模で、14指標を同一フレームで比較したこと
  3. 平均差だけでなくLoAや判定不能率など、臨床の“使いにくさ”に直結する情報をまとめたこと

    「心拍は良さそう」「睡眠は微妙そう」といった雰囲気論ではなく、どこまで信頼してよいかを数字で語れる土台を整えた点に価値があります。

明日から活かす:Apple Watchを“診断”ではなく“行動と意思決定”に使う

本論文の結果を、実践に落とし込むコツをまとめます。

  1. 心拍は単発値よりトレンドを重視する
    平均ズレが小さくてもLoAは約±7 bpmです。普段との差や、運動負荷に対する反応パターンを見ます。
  2. AFは「陽性・判定不能の繰り返し」を医療につなげる
    感度0.79、特異度0.91、そして判定不能15〜25%が臨床の実感に直結します。陰性の過信を避けます。
  3. SpO₂は低酸素域ほど信用が落ちる前提で使う
    LoAが広く、低酸素域でさらに悪化します。症候があれば医療用測定へ切り替えます。
  4. 消費カロリーは体重管理の“計算根拠”にしない
    MAPEが極めて大きく振れます。行動のモチベーション指標として割り切ります。
  5. 睡眠ステージより生活習慣の修正に使う
    睡眠/覚醒は良くても深睡眠判別は弱い傾向です。就寝時刻・飲酒・光・運動など介入可能な要素に集中します。

Limitation:数字の強さと同じくらい、研究の弱さも大きい

本研究は大規模ですが、限界もはっきりしています。全体のバイアス評価では低リスク13%、一部懸念32%、高リスク55%と、高リスク研究が過半数でした。参加者選定の不適切さ(27%)や統計解析の不適切さ(40%)が目立ち、結果の一般化には慎重さが必要です。
さらにBMIや皮膚トーンなど、光学センサーの精度に影響し得る要因の報告が少なく、層別解析が十分にできません。アルゴリズム更新がブラックボックスで、ハード改良とソフト改良の寄与を切り分けにくい点も、ウェアラブル研究の宿命的な課題です。加えて研究参加者が男性・活動的な集団に偏り、高齢者や併存疾患を抱える集団での検証が相対的に少ない点も残ります。


おわりに

Apple Watchは、指標によって“医療に近いもの”と“生活ログに留まるもの”が明確に分かれます。心拍やAF検出、SpO₂、睡眠といった領域では、平均値の一致だけでなく「どの場面でズレるか」「判定不能がどれくらい起きるか」まで押さえることで、臨床と生活の橋渡しが一段うまくなります。
ウェアラブルの真価は、診断を置き換えることではなく、診断や介入が必要な“分岐点”を日常から拾い上げることにあります。精度の数字を知ったうえで使えば、Apple Watchは不安を増やす道具ではなく、判断を助ける道具になります。


参考文献

Lambe R, Baldwin M, O’Grady B, et al. The accuracy of Apple Watch measurements: a living systematic review and meta-analysis. npj Digital Medicine. 2026. doi:10.1038/s41746-025-02238-1

タイトルとURLをコピーしました