声に宿るバイオマーカー:音声解析による心不全モニタリング

Digital Health

はじめに:声が語る心不全の兆し

心不全(Heart Failure: HF)は、世界中で6400万人以上が罹患している慢性疾患であり、米国および欧州では毎年100万件以上の入院を引き起こす深刻な健康問題、社会問題です。進行性の疾患である一方、早期のうっ血兆候を的確に捉えることが予後改善の鍵を握ります。しかし、これまでの遠隔モニタリング技術の多くは、侵襲的であったり、特殊なデバイスを必要とするため、現実的な運用には限界がありました。

そのような中、「声」をデジタルバイオマーカーとして活用する試みが注目されています。本稿では、Bauserらによる最新の系統的レビュー(2025年)をもとに、音声バイオマーカーについて解説します。


音声生成のメカニズムとバイオマーカー化の理論的背景

音声は、肺からの呼気により声帯が振動し、声道を通ることで形成される生理的現象です。この過程には、呼吸機能、声帯の可動性、筋緊張、神経支配、さらには身体の浮腫状態まで、多様な生理学的要因が関与します。

音声バイオマーカー研究の基盤となる声の特徴は、大きく以下の4つのカテゴリに分類されます:

  1. Source features(音源特徴=声帯振動):Jitter(基本周波数の変動)、Shimmer(振幅変動)、HNR(Harmonic-to-Noise Ratio;調波対雑音比)など
    心不全患者では、声帯浮腫による振動パターンの変化がこれらの特徴に反映されると考えられます。
  2. Filter features(声道共鳴):F1, F2 などのフォルマント周波数
    うっ血状態では声道の腫脹により共鳴特性が変化し、これらの数値に影響を与える可能性があります。
  3. Spectral features(音響スペクトル):Mel-Frequency Cepstral Coefficients(MFCCs;メル周波数ケプストラム係数)やCepstral Peak Prominence(CPP)
    MFCCは音声認識技術で広く用いられており、心不全の音声パターン識別において91-95%の精度を示した研究があります。
  4. Prosodic features(韻律特徴=抑揚・リズム):最大発声持続時間(Maximum Phonation Time: MPT)、発話速度、ポーズ比など
    急性増悪型心不全(ADHF)患者では、ポーズ率が安定した心不全患者に比べて15%増加することが報告されています。

これらの特徴は、病的状態によって微細ながらも一貫した変化を示すことがあり、「声」が疾患モニタリングに適したバイオロジカル・センサーとなり得る根拠となっています。

これらの特徴抽出には、従来の統計手法に加え、ロジスティック回帰、サポートベクターマシン、ニューラルネットワークなどの機械学習手法が応用されています。

※ 4つのカテゴリについてわかりづらい、、と言う方は最後に補足をつけています。ご参照ください。


研究方法と対象研究の特徴

このレビューはPRISMAガイドラインに準拠して実施され、PubMedおよびWeb of Scienceにて2023年12月までに発表された文献を対象に、HF患者における音声評価を取り上げた16件(11独立データセット)の研究を抽出しました。

研究デザインは、横断研究4件、コホート研究7件、症例対照研究4件、介入研究1件と多岐にわたり、症例数の中央値は52名でしたが、最大規模の研究では1万人以上の音声データが解析されています(Maorら, 2020年)。


音声バイオマーカーの臨床的有用性

健常者と心不全患者の識別

4件の研究が、音声特徴によってHF患者と健常者を識別可能であることを報告しています。Reddyらは、声道から抽出されたMFCCを用いることで91%、さらにグロッタル信号(glottal signal;声帯(グロッタル領域)を通過する気流の流れ)との統合により95%の識別精度を達成しました。一方、Firminoらはスペクトルおよび韻律特徴を組み込んだニューラルネットワークによって92%の精度で識別可能であると報告しています。

興味深いことに、音声の物理的特性には性差が認められました。男性では音圧レベルとほとんどの声門特徴が健常者と心不全患者で異なるのに対し、女性では差が現れる声門特徴が少ないことが報告されています。この知見は、音声バイオマーカー開発において性別を考慮したアプローチの必要性を強調しています。

うっ血状態の評価

複数の研究が、急性増悪(ADHF)時と退院後の音声変化を分析しています。Murtonらの研究では、体重減少(平均8.5kg)とともにF0、CPP、creak percent(音声の中で、「クリーキー音声(creaky voice;声帯の振動が不規則で、非常に低周波・低振幅の状態)」が占める割合を示す指標)などの変化が認められました。また、Amirらは透析患者を対象に、透析後の体重減少と音声の類似性指標(Speech Measures: SM)の変化が強く相関することを報告しています(r = 0.81, P < 0.05)。

さらにSchöbiらは、ADHF患者においてポーズ比(発話時間に対する沈黙時間の割合)が15%も増加し、NT-proBNP値とも正の相関を示すことを示しました。

予後予測

音声バイオマーカーの予後的価値に関する研究では、Maorらが2267人の心不全患者を対象に実施した研究が注目されます。彼らが開発した無次元の音声バイオマーカーは、1標準偏差の増加が32%の死亡率上昇と関連し、最高四分位群は最低四分位群に比べ96%死亡リスクが高いことが示されました。この知見は、音声分析がリスク層別化に有用である可能性を初めて実証した点で画期的です。

MPT(最大発声持続時間)は特に臨床的有用性が高いパラメータとして複数研究で評価されています。5メタボリックエクイバレント(METs)以上の運動耐容能を持つ患者ではMPTが長く、18秒を閾値として運動耐容能を識別できることが報告されています。また、MPTはVE/VCO2スロープ(運動耐容能の指標)と相関し、NYHA機能分類の変化とも負の関連が認められています。


手法の多様性とAIの活用

音声解析におけるデバイスや手法は非常に多様であり、以下のような点が特徴的です。

音声分析の技術的実装には、記録方法、音声課題、特徴抽出手法において大きな多様性が存在します。この多様性が研究間の比較を困難にしており、標準化が急務であることがレビューから明らかになりました。

音声記録方法には、ヘッドセットマイク(Reddyら)、指定されたボイスレコーダー(Murtonら、Firminoら)、スマートフォン(Amirら、Panaら)、さらにはコールセンターの通話記録(Maorら)などが用いられています。記録環境(マイク-口距離、環境騒音など)の標準化が精度に大きく影響するため、今後の研究ではこれらの条件を統一する必要があります。

音声課題も研究間で大きく異なります。持続母音発声(特に/a:/)、標準化文章の音読(Rainbow Passageなど)、数字のカウント、自然会話などが用いられています。Izawaらの一連の研究ではMPT測定に焦点が当てられ、Schöblらは標準化文章音読に加え、ストループテストなどの神経心理学的課題も採用しています。

言語は、英語、フィンランド語、ドイツ語、アラビア語、ヘブライ語、ロシア語などです。

機械学習の応用では、Murtonらがロジスティック回帰(69%精度)、PanaらがK近傍法(95%精度)、ReddyらがFeedforward Neural Network(95%精度)を使用しています。FirminoらはNeural Networkを用いて92%の識別精度を達成しました。これらの結果は、アルゴリズムの選択が分析精度に大きく影響することを示しています。


メカニズム:声帯の浮腫と肺機能

心不全に伴う音声変化の機序については、主に3つの仮説が提案されています。

第一に、声帯浮腫の影響です。うっ血状態では、Reinke浮腫患者と同様に声帯の外層間に体液が蓄積し、振動特性が変化すると考えられます。これはジッター、シャイマー、声門特徴などの変化として現れます。
※ Reinke浮腫とは、声帯の粘膜下層(特にReinke腔)に液体が過剰にたまることによって起こる、慢性的な声帯の腫脹・浮腫性変化を指します。Reinke腔(Reinke’s space)とは、声帯粘膜の表層(粘膜下層)に存在する、弾性線維がまばらで、ゆるく水分を保持できる組織層です。

第二に、肺機能の低下です。Reddyらは心不全患者で音圧レベルが低下することを報告しており、肺活量の減少や呼気圧の低下、呼吸筋の機能低下が影響している可能性があります。これは最大発声持続時間(MPT)の短縮とも整合性のある所見です。

第三に、神経圧迫の可能性です。左房拡大による反回神経の圧迫(Ortner症候群)であり、声の周期性低下と関係する可能性があります。
Ortner症候群とは、心臓や大血管の拡大により、反回神経(特に左側)を圧迫して声帯麻痺を引き起こす病態です。心臓性反回神経麻痺(cardiovocal syndrome) とも呼ばれます。反回神経(recurrent laryngeal nerve)は、声帯を動かす筋肉(内喉頭筋)を支配する神経です。

臨床現場での今後の可能性

  • 心不全患者に対し、スマホで病態のモニタリングが簡便に可能になることが期待できます。
  • たとえば、「最大発声持続時間(MPT)」を定期的に記録することは、簡便ながら運動耐容能やうっ血評価の指標となり得ます。
  • 外来や在宅での音声収集(スマホ利用)を通じて、遠隔モニタリングの一環として応用する体制づくりが期待されます。
  • スマホでの普段の会話や音声入力から、心不全のスクリーニングやアラートが可能になるかもしれません。

結論

音声バイオマーカーは、非侵襲的・安価・リアルタイムという特性を持ち、心不全管理における新たな可能性を拓きつつあります。機械学習とスマートデバイスの進化を背景に、音声は「新たなバイタルサイン」として臨床現場に導入される日が近づいています。今後の大規模・標準化研究と社会的整備が、その応用を加速する鍵となるでしょう。

参考文献

Bauser M, Kraus F, Koehler F, et al. Voice Assessment and Vocal Biomarkers in Heart Failure: A Systematic Review. Circ Heart Fail. 2025;18:e012303. DOI:10.1161/CIRCHEARTFAILURE.124.012303.

補足:音声特徴の4つのカテゴリを易しく解説

声が生まれる流れは、

① 声帯が振動する(=声の「源」ができる)
② 声道(喉や口の形)を通って音が変わる
③ 音の周波数成分ができる
④ 抑揚やリズムが加わり、話し方の個性になる

です。

この流れに合わせて、
Source → Filter → Spectral → Prosodic
と4分類されます。


Source features(音源特徴:声帯振動)

どんな声の「源」を作っているか?
つまり、声帯がどれだけきれいに、安定して振動できているかを見る特徴です。

例:
  • Jitter:声の高さ(周波数)が毎回どれだけバラバラか(ふらつき)
  • Shimmer:声の大きさ(振幅)が毎回どれだけバラつくか
  • HNR(Harmonic-to-Noise Ratio):声に雑音(ノイズ)がどれくらい混ざっているか
イメージ

→ 声帯のコンディションそのものを見るイメージ。
→ 声が震えたり、かすれたりしていないかを知るための指標です。


Filter features(フィルタ特徴:声道共鳴)

どんな「フィルター」を通って声が変化しているか?
つまり、声道(喉や口の形)が声の音色をどう作っているかを見る特徴です。

例:
  • F1, F2(フォルマント周波数):口の開き方や舌の位置によって決まる「声の共鳴ポイント」
イメージ

→ 声が「どんな音色」になっているかを見る。
→ 「あ」「い」「う」「え」「お」など、母音の違いもこれでわかります。


Spectral features(スペクトル特徴:音響スペクトル)

声の中の「周波数の分布」はどうなっているか?
つまり、声の中の高い音・低い音のバランスや、特徴的なパターンを見る特徴です。

例:
  • MFCC(Mel-Frequency Cepstral Coefficients):人間の聴覚に近い感覚で音の特徴を数字にしたもの
  • CPP(Cepstral Peak Prominence):声のはっきりさ、周期性の強さ
イメージ

→ 声の「音の質感・なめらかさ」を数値化する。
→ コンピュータが音声認識するときによく使われます。


Prosodic features(プロソディ特徴、韻律特徴:抑揚・リズム)

どう話しているか?リズムや間の取り方は?
つまり、声をどんなペース・どんな抑揚・どんな間合いで出しているかを見る特徴です。

例:
  • 最大発声持続時間(MPT):「あーーー」と声をどれだけ長く出せるか
  • 発話速度(speech rate):どれくらい速くしゃべっているか
  • ポーズ比(pause ratio):しゃべっている間にどれくらい沈黙があるか
イメージ

→ 「話し方」のクセやリズム感を見る。
→ 疲れていると話すスピードが落ちたり、ポーズが増えたりすることがここに現れます。


補足まとめ

カテゴリ何を見る?イメージ
Source features声帯の振動の安定性Jitter, Shimmer, HNR声の震えやノイズの多さ
Filter features声道での音の共鳴F1, F2音色の違い(母音の変化)
Spectral features声の周波数の分布パターンMFCC, CPP声の質感、なめらかさ
Prosodic features話し方のリズム・抑揚MPT, 発話速度, ポーズ比話すスピードや間の取り方

最後に

この4分類は、「声のどのレベルの異常をとらえたいか?」によって使い分けられています。

  • 声帯の異常を探るならSource features
  • 声道の異常を探るならFilter features
  • 音の質感を探るならSpectral features
  • 話し方や体力の異常を探るならProsodic features

というふうに考えると、良いと思います。

タイトルとURLをコピーしました