加速临床试验,人工智能大有可为 | “自然指数-医学科学”增刊
从研究设计到患者招募,研究人员正在探索人工智能如何加速临床试验。
Article | open access | 出版时间 : 2024-3-14
Matthew Hutson
doi:10.1038/d41586-024-00753-x | 原文链接


d41586-024-00753-x_26839742 (1).jpg

来源:Taj Francis

几十年来,计算能力遵循摩尔定律以可预测的速度前进——集成电路上的元件数量大约每两年就会增加一倍。2012年,研究人员创造了“埃鲁姆定律”(Moore的倒序拼写)一词来描述相形之下药物的开发路径1。过去60年来,美国每10亿美元研发支出所批准的药物数量,每9年减少一半。现在,将一种新药物推向市场可能需要超过10亿美元的资金和十年的工作。一半的时间和金钱花在临床试验上,这些试验规模越来越大、越来越复杂。进入一期试验的7种药物中只有1种最终获得批准。

一些研究人员希望摩尔定律的成果能够帮助遏制埃鲁姆定律。人工智能已被用于药物研发早期,以协助寻找合适的疾病靶点和新分子设计。现在,科学家开始使用人工智能来管理临床试验,包括编写方案、招募患者和分析数据。

Saama是一家位于加利福尼亚州的软件公司,该公司利用人工智能帮助组织实现部分临床试验的自动化。其首席技术官兼首席产品官Lisa Moneymaker表示,改革临床研究是“业界感兴趣的一个大话题”。她说,“就应用来说,这就像小孩进了糖果店。”

——— 设计试验 ———


临床试验过程的第一步是试验设计。应该给予什么剂量的药物?给多少病人?应该收集哪些数据?伊利诺伊大学香槟分校计算机科学家孙冀萌的实验室开发了一种名为 HINT(分层交互网络)的算法,可以根据药物分子、目标疾病和患者选择标准来预测试验是否会成功。他们随后开发了一个名为SPOT(临床试验结果的顺序预测模型)的系统,该系统还考虑了训练数据中试验的发生时间,并对最近的试验给予了更大的权重。根据预测的结果,制药公司可能会改变试验设计,或完全尝试不同的药物。

伊利诺伊州罗斯蒙特市一家名为Intelligent Medical Objects的公司开发了SEETrials,这是一种促使OpenAI的大型语言模型GPT-4从临床试验摘要中提取安全性和有效性信息的方法。这使得试验设计者能够快速了解其他研究人员如何设计试验以及结果如何。加利福尼亚州斯坦福大学遗传学家Michael Snyder的实验室去年开发了一种名为CliniDigest的工具,该工具可同时汇总来自美国主要医学试验注册处ClinicalTrials.gov的数十条记录,并添加对统一摘要的引用。他们用它来总结临床研究人员如何使用智能手表、睡眠追踪器和血糖监测仪等可穿戴设备来收集患者数据。“我与许多从业者谈过,他们在试验中看到了可穿戴设备的潜力,但不知道如何利用它们来发挥最大的影响。” 斯奈德实验室的计算机科学专业学生Alexander Rosenberg Johansen说,“最佳实践还不存在,因为这个领域发展得太快了。”

——— 最佳人选 ———


临床试验中最耗时的部分是招募患者,这部分能占到研究时长的三分之一。有五分之一的试验甚至招不到所需人数,而且几乎所有试验都会超出了预期的招募时间表。一些研究人员希望在保持安全的同时放宽一些遴选标准来加速这一进程。生物医学数据科学家James Zou领导的斯坦福大学团队开发了一个名为Trial Pathfinder的系统,该系统可以分析一组已完成的临床试验,并评估调整参与标准(例如血压和淋巴细胞计数阈值)如何影响风险比,或患者中重病或死亡等负面事件的发生率。在一项研究2中,他们将其应用于一种肺癌的药物试验。他们发现,按照Trial Pathfinder的建议调整标准将使符合条件的患者数量增加一倍,而不增加风险比。研究表明,该系统也适用于其他类型的癌症,并且实际上减少了不利后果,因为它使病情较重的人(他们可以从药物中获益更多)有资格接受治疗。


全球研发.jpg

来源:IQVIA Pipeline Intelligence (Dec. 2022)/IQVIA Institute (Jan. 2023)

人工智能可以消除优化遴选标准时的一些猜测和繁复劳动。Zou说,有时即使是在同一家公司工作并研究同一疾病,不同的团队也会提出不同的试验标准。但现在包括Roche, Genentech和AstraZeneca在内的几家公司正在使用Trial Pathfinder。Sun位于伊利诺伊州的实验室最近的工作已经开发出AutoTrial,这是一种训练大型语言模型的方法,以便用户可以提供试验描述并要求它生成适当的标准范围,例如体重指数。

一旦研究人员确定了选择标准,他们就必须找到符合条件的患者。纽约哥伦比亚大学生物医学信息学家翁春华的实验室(她也致力于优化选择标准)开发了Criteria2Query。通过基于网络的界面,用户可以用自然语言输入纳入和排除标准,或输入试验的识别号,程序将标准转换为正式的数据库查询,在患者数据库中查找匹配的候选人。

翁春华还开发了帮助患者寻找试验的方法。一个称为DQueST的系统由两部分组成。第一个使用Criteria2-Query从试验描述中提取标准,第二部分为患者提出相关问题,以帮助缩小搜索范围。Sun实验室与美国国立卫生研究院合作开发的另一个系统TrialGPT是一种提示大型语言模型为患者找到合适试验的方法。根据患者和临床试验的描述,它首先确定患者是否符合试验中的每个标准并提供解释。然后,它将这些评估汇总为试验级别分数。它如此评估多个试验,并为患者排名试验。帮助研究人员和患者找到彼此,不仅可以加快临床研究的速度,还能使这些研究更加可靠。试验常常不必要地排除儿童、老年人或孕妇等人群,但人工智能可以有办法将他们纳入其中。患有晚期癌症和患有罕见疾病的人尤其很难找到可以参加的试验。“在努力寻找试验机会方面,这些患者有时比临床医生做了更多。”翁春华说。

人工智能可以帮助他们匹配相关项目。人工智能还可以减少试验所需的患者数量。加利福尼亚州的一家名为Unlearn的初创公司在临床试验中为患者创建“数字双胞胎”。根据试验开始时实验患者的数据,研究人员可以使用数字双胞胎来预测同一患者在对照组中的进展情况并比较结果。Unlearn的创始人兼首席执行官Charles Fisher表示,这种方法通常可以将所需的对照患者数量减少20%到50%。该公司与多家小型和大型制药公司合作。Fisher表示,数字双胞胎不仅有利于研究人员,也有利于参加试验的患者,因为这会降低他们接受安慰剂的机会。

招募.jpg

来源:Citeline Trialtrove/IQVIA Institute (Jan. 2023)



——— 患者维护 ———


临床试验的障碍不会随着患者入组而结束。退出率很高。在对 95 项临床试验的分析中,近40%的患者在第一年停止服用处方药物。在最近的一篇评论文章中3,Novartis的研究人员提到了人工智能可以提供帮助的方式。其中包括使用过去的数据来预测谁最有可能退出,以便临床医生进行干预,或者使用人工智能来分析患者服药的视频,以确保不会漏服。

聊天机器人可以回答患者的问题,无论在研究期间还是在一般的临床实践中。一项研究4从Reddit的AskDocs论坛获取问题和答案,并将问题提交给ChatGPT。近80%的情况下,医疗保健专业人士更喜欢ChatGPT的答案而不是医生的答案。在另一项研究中5,研究人员通过大型语言模型(Meta 的 LLaMA-7B)的医患对话进行微调,并使其实时访问在线资源,创建了一款名为Chat-Doctor的工具。ChatDoctor 可以回答有关比ChatGPT训练数据更新的医疗信息的相关问题。

——— 整合功能 ———

人工智能可以帮助研究人员管理传入的临床试验数据。Novartis研究人员报告称,它可以从非结构化报告中提取数据,并对图像或实验室结果进行注释,并添加缺失的数据点(通过预测结果中的值),以及识别人群中对治疗有独特反应的亚组。Zou在斯坦福大学的团队开发了PLIP,这是一种人工智能驱动的搜索引擎,可以让用户在大型医疗文档中查找相关文本或图像。Zou说,他们正在与制药公司洽谈,希望用它来组织临床试验中包括笔记和病理照片在内的所有数据。患者的数据可能以不同的格式存在,分散在不同的数据库中。Zou说,他们还与保险公司合作,开发了一种语言模型,可以从医疗记录中提取计费代码,并且此类技术还可以从恢复结果、症状、副作用和不良事件等报告中提取重要的临床试验数据。

为了收集试验数据,研究人员有时需要制作50多个病例报告表。中国一家名为太美科技的公司正在使用人工智能根据试验方案自动生成这些数据。

复杂性.jpg

来源:Tufts Center for the Study of Drug Development.

一些公司正在开发将许多人工智能方法集成到一个系统中的平台。Intelligent Medical Objects生命科学部门负责人Xiaoyan Wang与同事合作共同开发了AutoCriteria,这是一种促使大型语言模型从临床试验描述中提取入选要求并将其格式化为表格的方法。这为软件套件中的其他人工智能模块提供信息,例如那些用来寻找理想试验地点、优化选择标准和预测试验结果的模块。Wang表示,该公司很快将提供一个聊天机器人ChatTrial,研究人员可以向它询问系统数据库中的试验情况,或者如果以某种方式调整假设的试验,会发生什么。

该公司还帮助制药公司准备临床试验报告,提交给负责对药物在美国的使用进行最终批准的美国食品和药物管理局(FDA)。该公司从智能系统文献综述从比较试验中提取数据。另一个工具在社交媒体上搜索人们对疾病和药物的看法来识别社区中未被满足的需求,特别是那些感到缺乏服务的社区。研究人员可以将此信息添加到报告中。

Sun实验室的学生Zifeng Wang表示,他正在与孙冀萌和另一位联合创始人 Benjamin Danek一起为一家名为Keiji AI的初创公司筹集资金。一款名为Trial-Mind的产品将提供一个聊天机器人来回答有关试验设计的问题,类似于Xiaoyan Wang的产品。它将完成通常需要数据科学家团队才能完成的任务,例如编写代码来分析数据或生成可视化效果。人工智能在临床试验中“充满机遇”,他说,“尤其是伴随着最近大型语言模型的兴起。”

在新冠疫情开始时,Saama与辉瑞合作进行了COVID-19疫苗试验。通过应用Saama的人工智能技术SDQ,研究团队在短时间内“清洗”了3万余名患者的数据。Moneymaker说,“这是真正推动人工智能影响该领域的完美用例。”该工具使用多种机器学习方法来标记异常或重复数据。专家可能需要两个月的时间才能手动发现数据集的任何问题,而这类软件可以在不到两天的时间内完成。

Saama开发的其他工具可以预测试验何时达到某些里程碑,或通过预测哪些患者需要推一把来降低退出率。它的工具还可以结合患者的所有数据——例如实验室测试、可穿戴设备的统计数据和笔记——来评估结果。Moneymaker表示:“单个患者情况的复杂程度已经太高,令手动分析变得不可行了。”

Xiaoyan Wang指出,人工智能在临床试验中的部署存在一些伦理和实际挑战。人工智能模型可能存在偏见;它们的结果可能很难重复;它们需要大量的训练数据,这可能会侵犯患者隐私或造成安全风险;研究人员可能会变得过于依赖人工智能;算法可能太复杂而难以理解。“缺乏透明度在临床试验中可能会出现问题,因为了解决策的制定方式对于信任和验证至关重要。”她说。International Journal of Surgery最近发表的一篇评论文章6指出,在临床试验中使用人工智能系统“无法考虑常识、直觉和医学训练等人类能力”。

Moneymaker表示,设计和运行临床试验的流程往往变化缓慢,但他补充说,FDA在过去几年中放宽了一些法规,从而使“创新激增”:分散试验和远程监控因为新冠疫情有所增加,为新型数据打开了大门。这与生成人工智能能力的爆炸性增长同时发生。“我认为我们甚至还没有揭开冰川一角,看到生成人工智能的应用性将带我们走向何方。”她说。“有些三个月前还解决不了的问题,现在已经可以了。”


Matthew Hutson是一位居住在纽约市的科普作家。



1. Scannell, J. W., Blanckley, A., Boldon, H. & Warrington, B. Nature Rev. Drug. Discov. 11, 191–200 (2012).

2. Liu, R. et al. Nature 592, 629–633 (2021).

3. Blaschke, T. F., Osterberg, L., Vrijens, B. & Urquhart, J. Annu. Rev. Pharmacol. Toxicol. 52, 275–301 (2012).

4. Ayers, J. W. et al. JAMA Intern. Med. 183, 589–596 (2023).

5. Li, Y. et al. Cureus 15, e40895 (2023).

6. Chopra, H. et al. Int. J. Surg. 109, 4211–4220 (2023).




原文以Cutting to the chase为标题发布在2024年3月14日出版的《自然》增刊“自然指数-医学科学“上。




自然指数 - 医学科学

cover.jpg

《自然》增刊“自然指数-医学科学”编辑独立,《自然》对社论内容全权负责。我们在此衷心感谢以下机构的支持:

Logo.jpeg

Nature Index 自然指数

自然指数是一个包括了作者单位信息和机构关系的数据库,它追踪发表在82种高质量自然科学期刊上的科研论文。这些期刊均由在职科学家所组成的独立小组选出。


自然指数提供机构和国家/地区所发表的论文的绝对计数和份额,由此可显示全球高质量科研产出及合作的情况。自然指数数据会定期更新,并依照知识共享协议,在指数网站natureindex.com上对外发布最近十二个月的数据。该数据库由施普林格•自然编制。

自然指数主要采用论文数和份额两种科研产出计算方法:

•论文数(Count以前被称为“论文计数 (article count/AC)”,是指一篇文章不论有一个还是多个作者,每位作者所在的国家/地区或机构都获得1分。这就是说一篇论文能为多个国家/地区或机构带来一个分值。

•贡献份额(Share为了统计一个国家、地区或机构对某篇论文的贡献,并确保不会重复计算,自然指数还使用Share(份额),以前被称为“分数式计量(fractional count/FC)”,它计算的是每篇论文作者的贡献份额。一篇文章总分值为1,每位作者被认为对论文有相同的贡献,分值在所有作者中平均分配。例如,一篇论文有10位作者,则每位作者的得分为0.1。对于隶属于多个机构的作者,其贡献份额则在各机构间平均分配。机构总的份额分值是将与之有关联的各个作者的份额相加得出的。国家/地区的份额计算过程与之相似,尽管由于某些机构拥有海外实验室而将其计入所在国家/地区,这令情况变得复杂。

•合作分值(collaboration score - 由一个科研机构或国家所有双边合作方的贡献份额相加而得。