めまい専門外来の症例における機械学習での疾患予測の評価

めまい専門外来の症例における
鴨頭輝1)、⽊下淳2)、藤本千⾥3)、江上直也4)、⽜尾宗貴5)、菅澤恵⼦2)、岩崎真⼀2)、⼭岨達也2)
1)�ＪＲ東京総合病院�耳⿐咽喉科、2)�東京大学�医学部�耳⿐咽喉科、3)�東京逓信病院�耳⿐咽喉科
4)�江上耳⿐咽喉科・めまいクリニック、5)�東邦大学医療センター佐倉病院�耳⿐咽喉科
機械学習での疾患予測の評価
まとめ
結果
⽂献
学習曲線
モデルのパラメータの最適化について
各モデルの再現率及びAUC
Op4 Op5 Op6 Op7 Op8 Op9 1pO
PassiveAggressiveClassifier
ExtraTreeClassifier
SGDClassifier
DecisionTreeClassifier
MLPClassifierd8|8|8|8B
GaussianProcessClassifier
NuSVC
SVC
ExtraTreesClassifier
AdaBoostClassifier
LinearSVC
BaggingClassifier
LogisticRegression
RidgeClassifier
RandomForestClassifier
GradientBoostingClassifier
R
Comparisons of Classifiers dAUC of ROCB
Op4 Op5 Op6 Op7 Op8 Op9 1pO
SGDClassifier
PassiveAggressiveClassifier
MLPClassifierd8|8|8|8B
NuSVC
SVC
ExtraTreeClassifier
LinearSVC
GaussianProcessClassifier
RidgeClassifier
ExtraTreesClassifier
LogisticRegression
DecisionTreeClassifier
AdaBoostClassifier
RandomForestClassifier
GradientBoostingClassifier
BaggingClassifier
RR
Comparisons of Classifiers dscoreB
　重心動揺計では、軌跡⻑・重心動揺⾯積や閉眼時・開眼時⽐
であるロンベルグ率等の様々なパラメータが得られ、それぞれ
の値を元にして迷路障害や中枢障害等を推定する。これらのパ
ラメータの処理方法として、各パラメータにそれぞれ係数を掛
けて加算し、⼀般化線型モデルで処理する古典的な統計学的手
法以外に、例えばアニマ社の重心動揺計に搭載されているよう
な、ニューラルネットワークを用いた機械学習の手法が挙げら
れる。しかし、ニューラルネットワーク以外の機械学習のアル
ゴリズムに関しては、重心動揺計のデータを使って検討した報
告は少ない。
　本研究では、めまい診断に有効な機械学習のアルゴリズムに
ついて検討することを目的に、各種アルゴリズムを用いて重心
動揺計の検査結果から前庭障害の有無を予測した際の再現率及
びROC曲線のAUCを評価し、各種アルゴリズムの有効性を⽐
較・検討した。
はじめに
方法
　2010年1 ⽉から2010年11⽉にめまい専門外来を受診した241
症例の重心動揺計の検査結果のデータセット(Fujimoto et. al.
Otol Neurotol. 2014)を使用した。データセットの項目の内訳
は、年齢・性別・⾝⻑、重心動揺計Gravicorder G-5500
(Anima Co. Ltd., Tokyo, Japan)の左右及び前後方向の
0.01-10Hz及び0.1-1HzのAUC、閉眼ラバー負荷の速度及び外周
⾯積と、前庭障害の有無である。前庭障害の有無は、ENGでの
カロリック(2 mL冷水(4℃)20秒間注⼊)におけるCP及び緩徐相
速度を評価し、CP 20%以上または緩徐相速度10°/sec未満を前
庭障害と定義した。
　年齢は平均50歳(最低12歳、最大89歳、標準偏差20)、上記定
義による前庭障害は78例(32%)、疾患の内訳は、⽚側前庭障害
13例、聴神経腫瘍12例、前庭神経炎8例、BPPV6例、Ramsay-
Hunt症候群3例、真珠腫性中耳炎2例、遅発性内リンパ水腫2
例、めまい突発性難聴2例、耳硬化症1例、側頭骨骨折1例であっ
た。
　学習及び解析は、Python 3.5、scipy 0.18、scikit-learn 0.18
を用いて⾏った。
　機械学習の手法は、⼀般化線形モデル(Generalized Linear
Models)の中のLogistic Regression、SGDClassifier、サポート
ベクタマシン(Support Vector Machines)の中のLinear SVC、
Nu SVC、SVC、決定⽊(Decision Trees)の中の
DecisionTreeClassifier、ExtraTreeClassifier、アンサンブル学
習(Ensemble Methods)の中のAda Boost Classifier、Bagging
Classifier、Extra Trees Classifier、Gradient Boosting
Classifier、Random Forest Classifier、ニューラルネットワー
クモデル(Multi-layer Perceptron Classifier)により学習させ
た。パラメータは規定の値を使用した。
　各手法において、症例の各項目データから前庭障害の有無を
学習させ、K-分割交差検証を用いて再現率及びROC曲線のAUC
により評価した。手法間の再現率及びROC曲線のAUCの⽐較は
Wilcoxon signed-rank testを用いて⾏い、p<0.05を有意とし
た。
[1] Scand Audiol Suppl. 2001;(52):100-2. A novel machine learning program applied to discover otological diagnoses. Laurikkala JP, Kentala EL, Juhola M, Pyvkkö IV.
[2] Med Inform Internet Med. 1999 Oct-Dec;24(4):277-89. Decision tree induction in the diagnosis of otoneurological diseases. Viikki K, Kentala E, Juhola M, Pyykkö I.
[3] Stud Health Technol Inform. 2008;136:211-6. On machine learning classification of otoneurological data. Juhola M.
Comput Methods Programs Biomed. 2014 Oct;116(3):311-8. doi: 10.1016/j.cmpb.2014.04.014. Epub 2014 May 9. Machine learning-based assessment tool for imbalance
and vestibular dysfunction with virtual reality rehabilitation system. Yeh SC, Huang MC, Wang PC, Fang TY, Su MC, Tsai PY, Rizzo A.
[4] JAMA Otolaryngol Head Neck Surg. 2015 Apr;141(4):364-72. doi: 10.1001/jamaoto.2014.3519. Clinical vestibular testing assessed with machine-learning algorithms.
Priesol AJ, Cao M, Brodley CE, Lewis RF.
[5] Journal of Machine Learning Research 7:1-30 Jan 2006. Statistical Comparisons of Classifiers over Multiple Data Sets. J. Demsar
[6] Otol Neurotol. 2014 Dec;35(10):e317-23. Power spectral analysis of postural sway during foam posturography in patients with peripheral vestibular dysfunction.
Fujimoto C, et. al.
　機械学習のアルゴリズムとして、様々な手法が提案されてい
る。これらの手法には、大きく分けて、正解が分かっている
データセットにより学習させる目的の手法(教師あり学習)と、
正解が分かっていないデータセットを複数のグループに分類さ
せる目的の手法(教師なし学習)がある。医療の分野において
は、前者の手法を用いることが多く、例えば、複数の画像と疾
患の対応のあるデータセットを学習させた上で、未知の画像か
ら疾患を予測させた研究報告は多い。
　機械学習の手法の発展にともない、従来の統計学的手法に⽐
べて精度の⾼い手法が数多く提案されており、画像から疾患を
予測させる目的に適合する手法として有名なのは、深層学習
(ディープラーニング)として知られる4層以上の多層ニューラル
ネットであるが、ネットのモデルは何種類もあり、⾼い予測率
を得るためには数万以上の多数の学習データセットを要する。
　⼀般的な臨床研究におけるデータセットの症例数は、⽇本全
国の調査でも1万程度で、さらに少ない症例数のことも多く、深
層学習では⾼い予測率を得られない。このため、研究対象の
データセットの性質や数によって、適合する機械学習のアルゴ
リズムは異なると考えられる。
　本解析では、⼀般化線型モデルに⽐べ、アンサンブル学習の
Gradient Boosting Classifier、Bagging Classifierの再現率が⾼
く、モデルの性能が⾼いことがわかった。
　画像診断の研究において広く採用されているニューラルネッ
トワークは、本解析においては有効な手法ではなかった。この
原因としては、症例数が数百と少なく、⼗分な学習がされな
かったことが挙げられる。
　また、モデルのパラメータにより再現率は異なり、最適なパ
ラメータを探索することが重要であると考えられた。
　機械学習の各手法は、回帰分析と⽐べて調整できるパラメー
タが多く、更なる調整によってより⾼い性能を得られる可能性
がある。また、従来の統計学的手法によって疾患予測に有効で
ないと判断された検査項目であっても、他のデータと束ねて適
切な機械学習のアルゴリズムで処理することで、疾患予測に有
効となる場合があると考えられた。
　Gradient Boosting Decision Treeの再現率(0.82±0.06)及びAUC(0.89±0.05)は各手法の中で最も⾼く、ロジスティック回帰(再
現率:0.78±0.06、AUC:0.85±0.06)と⽐較し有意に⾼かった。また、Bagging Classifierの再現率(0.81±0.05)はロジスティック回
帰と⽐較し有意に⾼かった。
　ニューラルネットは、4層パーセプトロンを用いたが、ロジスティック回帰よりも再現率、AUC共に有意に低かった。サポートベ
クタマシンのいずれも手法(Linear SVC、Nu SVC、SVC)についても、ロジスティック回帰より再現率、AUCは有意に低かった。
　ロジスティック回帰の学習曲線は、標本数が50前後でtraining accuracy及びvalidating accuracyともに約0.8に収束し、50以上の
標本数の追加による再現率の向上は⾒られなかった。Gradient Boosting Classifierの場合、training accuracyはほぼ1で、
validating accuracyは標本数200を超えても再現率が向上する傾向にあり、過学習の危険性に注意する必要があるが、標本数の追加
によりさらなる再現率の向上が期待でき、モデルの性能はロジスティック回帰より⾼いと考えられた。
　モデルのパラメータは、それぞれのモデルにおける設定値や制限値であり、パラメータによって予測性能は大きく変わるため、
最適なパラメータの決定は重要である。最適なパラメータを算出する数式等は存在せず、基本的に、経験的方法または、全てのパ
ラメータに様々な値を当てはめて再現率を算出し、最大値を探す探索的方法に基づく。ロジスティック回帰及びアンサンブル学習
において、それぞれの代表的なパラメータの調整により再現率がどの程度変化するか評価した。
⼀般化線型モデル(ロジスティック回帰)
　正則化は、過学習を防ぐための手段であり、L1正則化また
はL2正則化が⽐較的多く用いられる。今回使用したプログラ
ムの既定ではL2正則化が採用されており、そのパラメータの
調節により再現率がどう変化するかを評価した。本プログラ
ムにおいては、C (Inverse of regularization strength)が⼩さ
い時に正則化が強く、大きな時には正則化が弱い。本プログ
ラムの既定のパラメータであるC=1より正則化を強くする
と、training accuracy及びvalidating accuracyともに減少
し、過度な正則化は再現率を下げると考えられた。
アンサンブル学習(Gradient�Boosting�Classifier)
　アンサンブル学習のいくつかは、複数の決定⽊からモデルが
構成されている。この決定⽊の数及び深さの調整により再現率
がどう変化するか評価した。決定⽊の数については、50前後で
再現率が⾼く、それ以上増やしても再現率は向上しない傾向に
あった。決定⽊の深さについては、3前後で最も再現率が⾼く、
それ以上の深さでは再現率が低下する傾向にあった。本データ
の最適パラメータ探索においては、深さ2、決定⽊数45の時に最
も再現率が⾼かったが、プログラムの既定のパラメータである
深さ3、決定⽊数100の時の再現率と有意差はなかった。
ROC AUCの⽐較再現率(recall)の⽐較
ロジスティック回帰 Gradient Boosting Classifier
決定⽊の数L2正則化決定⽊の深さ

めまい専門外来の症例における機械学習での疾患予測の評価

Recommended

Recommended

More Related Content

Similar to めまい専門外来の症例における機械学習での疾患予測の評価

Similar to めまい専門外来の症例における機械学習での疾患予測の評価 (9)

More from TeruKamogashira

More from TeruKamogashira (20)

めまい専門外来の症例における機械学習での疾患予測の評価