采用机器学习算法预测IV期结直肠癌术后的复发情况 |《科学报告》前100亮点文章
GradientBoosting算法的权重分析表明,化疗、年龄、LogCEA, CEA和麻醉时间可能是肿瘤复发的前5个相关因素。这四种机器学习算法均可以预测手IV期结直肠癌患者术后的复发风险。
Article | open access | 出版时间 : 13 February 2020
Yucan Xu, Lingsha Ju, Jianhua Tong, Cheng-Mao Zhou & Jian-Jun Yang
doi:10.1038/s41598-020-59115-y | 原文链接

为了探索利用机器学习技术预测IV期结直肠癌术后的复发风险的可行性,郑州大学第一附属医院麻醉与围术期医学部杨建军团队采用了4种机器学习算法(logistic regression, decision tree, GradientBoosting 和 lightGBM),把数据集随机按8比2的比例分成一个训练组和一个测试组。该团队纳入了999 例IV期结肠直肠癌患者进入研究。在训练组中,GradientBoosting的 AUC 值最高,为 0.881;Logistic 的 AUC 值最低,为 0.734;GradientBoosting 的F1分数最高(0.912)。而在测试组中, Logistic的 AUC 值最低(0.692);GradientBoosting算法的AUC值为0.734,这个模型依然可以预测癌症的复发;但是,gbm算法模型具有最高的 AUC 值 (0.761)和F1分数 (0.974)。GradientBoosting 和 gbm算法的性能优于其他两种算法。GradientBoosting算法的权重分析表明,化疗、年龄、LogCEA, CEA和麻醉时间可能是肿瘤复发的前5个相关因素。这四种机器学习算法均可以预测手IV期结直肠癌患者术后的复发风险。其中,GradientBoosting和gbm表现最好。此外,GradientBoosting算法的权重分析表明,影响术后肿瘤复发的前五个相关变量为化疗、年龄、LogCEA, CEA和麻醉时间。


99.jpg

© nature

doi: 10.1038/s41598-020-59115-y