admin管理员组

文章数量:1529456

使用生成式人工智能进行系统评价的科学文献搜索:ChatGPT 和 Microsoft Bing AI 性能评估

使用生成式人工智能进行系统评价的科学文献搜索:ChatGPT 和 Microsoft Bing AI 性能评估

本文作者:

韋南铉1 ;   

金在宪1 ;   

郑铉洙2 ;   

郑恩地2 ;   

乔伊·陈1,3 ;   

李世琳1, 4 ;   

沈成烈5, 6 

文章作者引用 (1)推文 (5)指标
  • 抽象的
  • 介绍
  • 方法
  • 结果
  • 讨论
  • 参考
  • 缩写
  • 版权

抽象的

背景:大型语言模型是一种人工智能 (AI) 模型,它为医疗保健实践、研究和教育开辟了巨大的可能性,尽管学者们强调需要积极解决有关其使用的未经验证和不准确的信息问题。最著名的大型语言模型之一是 ChatGPT (OpenAI)。人们认为它对医学研究有很大帮助,因为它有助于更​​有效地分析数据集、生成代码和审查文献,使研究人员能够专注于实验设计以及药物发现和开发。

客观的:本研究旨在探索 ChatGPT 作为系统评价和临床决策支持系统的实时文献检索工具的潜力,以提高其在医疗保健环境中的效率和准确性。

方法:选择人类专家发表的关于佩罗尼氏病治疗的系统综述的搜索结果作为基准,并将该研究的文献检索公式应用于 ChatGPT 和 Microsoft Bing AI,以与人类研究人员进行比较。佩罗尼氏病通常表现为阴茎不适、弯曲或畸形,并伴有可触及的斑块和勃起功能障碍。为了评估从 AI 答案中得出的个别研究的质量,我们根据与出版物相关的书目信息创建了一个结构化的评级系统。如果标题存在,我们将其答案分为 4 个等级:A、B、C 和 F。对于假标题或没有答案,不给出任何等级。

结果:从 ChatGPT 来看,在 1287 项已确定的研究中,有 7 项(0.5%)直接相关,而 Bing AI 在 48 项研究中得出 19 项(40%)相关研究,而人类基准为 24 项。在定性评估中,ChatGPT 有 7 项 A 级研究、18 项 B 级研究、167 项 C 级研究和 211 项 F 级研究,而 Bing AI 有 19 项 A 级研究和 28 项 C 级研究。

结论:这是首次将人工智能与传统人工系统评价方法作为循证医学实时文献收集工具进行比较的研究。结果表明,使用 ChatGPT 作为实时证据生成的工具尚不准确且不可行。因此,研究人员应谨慎使用此类人工智能。本研究使用生成式预训练 Transformer 模型的局限性在于,研究主题的搜索不够多样化,并且无法防止生成式人工智能的幻觉。然而,本研究将通过提供从用户角度验证生成式人工智能可靠性和一致性的指标,为未来的研究提供标准。如果人工智能文献检索服务的可靠性和一致性得到验证,那么使用这些技术将对医学研究大有裨益。

JMIR Med Inform 2024;12:e51187

doi:10.2196/51187

 

关键词

人工智能 (1010); 搜索引擎 (34); 系统评价 (602); 循证医学 (63);  ChatGPT (163); 语言模型 (52); 教育 (371); 工具 (108); 临床决策支持系统 (57); 决策支持 (43); 支持 (153); 治疗 (274) 

我们还建议

  1. 医学教育中的人工智能:ChatGPT、Bing 和德国医学生的比较分析 Jonas Roos 等人, JMIR 医学教育, 2023 年
  2. 大型语言模型在系统评价和荟萃分析中的潜在作用 Xufei Luo 等, J Med Internet Res, 2024
  3. GPT-3.5 与 GPT-4 在日本医师资格考试中的表现:比较研究 Soshi Takagi 等人, JMIR 医学教育, 2023 年
  4. 大型语言模型和谷歌搜索对产后抑郁症问题的回答的临床准确性:横断面研究 Emre Sezgin 等人, J Med Internet Res, 2023 年
  5. 评估耳鼻咽喉头颈外科认证考试中 ChatGPT 的新型评估模型:绩效研究 蔡龙等, JMIR医学教育, 2024
  1. 银杏提取物已被证实可用于神经认知治疗 Hort J 等人,《神经精神疾病与治疗》,2023 年
  2. 医疗保健中的大型语言模型:发展、应用和挑战 Rui Yang 等, 健康保健科学, 2023
  3. 出版临床实践指南 (PAGE):编辑和审稿人的建议 Nan Yang 等, 《传染病与免疫》, 2022 年
  4. 公开 ICU 数据集的系统评价与比较——临床医生和数据科学家的决策指南 Christopher M. Sauer 等人, 《交通经济与政策杂志》(JTEP), 2022 年
  5. 医疗保健中的生成式预训练 Transformer 4:挑战、机遇和建议 Hassam Ali, 《医学进展》, 2023 年
供电  

介绍

2022 年全球人工智能(AI)医疗保健市场规模预估为 151 亿美元,预计到 2030 年将超过约 1879.5 亿美元,在 2022 年至 2030 年的预测期内,年增长率为 37%。1 ]。尤其是医疗人工智能的创新应用预计将随着医疗需求的增加而增加,医疗需求将在2030年爆发式增长[2、3 ]。

大型语言模型(LLM)是一种人工智能模型,它为医疗实践、研究和教育开辟了巨大的可能性,尽管学者们强调需要积极解决有关其使用的未经验证和不准确的信息问题。4、5 ]。最著名的法学硕士之一是ChatGPT(OpenAI)。它于2022年11月推出。与其他法学硕士类似,ChatGPT在多种语言的大量文本数据集上进行训练,使其能够以类似人类的响应方式响应文本输入[4 ]。ChatGPT 由旧金山的人工智能研究实验室 OpenAI 开发,基于生成式预训练转换器 (GPT) 架构。它被认为是聊天机器人的高级形式,聊天机器人是使用基于文本的界面来理解和生成响应的程序的总称。聊天机器人和 ChatGPT 之间的主要区别在于,聊天机器人通常被编程为具有有限数量的响应,而 ChatGPT 可以根据对话产生个性化响应 [4、6 ]。

萨拉姆的[5 ] 系统评价 (SR) 试图确定 ChatGPT 的好处和当前的问题。该评价建议,医疗保健研究可以从 ChatGPT 中受益,因为它可用于促进更有效的数据集分析、代码生成和文献综述,从而使研究人员能够专注于实验设计以及药物发现和开发。作者还建议,除了提高科学写作能力外,ChatGPT 还可用于提高研究公平性和多功能性。医疗保健实践也可以从 ChatGPT 中以多种方式受益,包括提高健康素养和提供更加个性化的医疗服务、改进文档、简化工作流程和节省成本。医疗保健教育还可以使用 ChatGPT 提供更加个性化的学习,特别注重解决问题和批判性思维技能 [5 ]。然而,同一篇评论也列出了当前的问题,包括版权问题、引用错误、抄袭风险增加、内容不准确、信息过多导致特定主题出现信息流行病的风险,以及网络安全问题[5 ]。

关于使用 ChatGPT 的一个关键问题是它是否可以使用证据来识别医学预科内容。循证医学 (EBM) 通过整合临床医生经验、患者价值和最佳可用科学信息来指导临床管理决策,为医疗治疗提供最高水平的证据。[7 ]。循证医学的原则意味着,应根据最新的实证研究证据为患者制定最合适的治疗方案。然而,根据 Sallam 的说法,ChatGPT 确定的科学信息尚未在安全性或准确性方面得到验证[5 ],他进一步建议医生和患者现阶段都不应该依赖它。相比之下,周等人的另一项研究[8 ]发现ChatGPT提供的答案通常基于最新经过验证的科学证据,也就是说,给出的建议遵循高质量的治疗方案并遵守专家的指导。

在医学中,临床决策支持系统 (CDSS) 使用实时证据来支持临床决策。这是 EBM 中的一个基本工具,它使用基于对特定主题进行系统、科学搜索的 SR。如果 ChatGPT 成为 CDSS,那么确定它是否能够基于医学领域的实时证据生成进行系统搜索是至关重要的。因此,本研究将首次确定 ChatGPT 是否可以在论文中搜索 SR。具体而言,本研究旨在通过从用户的角度提供生成式 AI 搜索的可靠性和一致性指标,为未来使用生成式 AI 搜索技术的医学研究提供标准。

 

方法

伦理考量

根据 45 CFR §46.102(f),由于数据是公开的,因此此处进行的活动被视为免于机构审查委员会批准。由于本研究使用了之前发布的匿名信息,这些信息可供公众获取,因此未获得知情同意。本研究使用了 PubMed、Embase 和 Cochrane Library 的公开数据,不包括人类参与者研究。

设定基准

为了确定目前最具代表性的 LLM ChatGPT 是否具有系统性搜索能力,我们设置了一个由人类专家执行的 SR 作为基准,并检查最终纳入基准的研究数量由 ChatGPT 提出。我们选择了 Lee 等人 [9 ]作为基准,原因如下。首先,Lee 等人[9 ] 与人类专家一起对佩罗尼病 (PD) 的医学治疗进行了 SR 和荟萃分析。PD 通常表现为阴茎不适、弯曲或畸形,伴有可触及的斑块和勃起功能障碍 [10 ]。其次,我们很容易将 ChatGPT 的结果与基准进行比较,因为我们对研究中期过程和结果有充分的信息。第三,关于 PD 的医学治疗已经发表了足够多的研究,但仍然没有一致的答案。因此,我们希望评估 ChatGPT 作为一个系统搜索工具的唯一能力,同时避免任何可能的预训练偏差,并具有足够的数据。最后,关于 Lee 等人的话题 [9 ],我们可以构建一些从广泛开始逐渐具体化的问题,并添加一些条件来测试 ChatGPT 对科学研究的理解。例如,问题不仅可以通过询问“佩罗尼氏病的医疗方法”来广泛构建,还可以通过询问“佩罗尼氏病的口服疗法”或“佩罗尼氏病的秋水仙碱”来具体构建。因为 Lee 等人 [9 ] 仅包含随机对照试验(RCT),我们可以在问题中添加条件,将研究类型限制为 RCT,这有助于评估对 ChatGPT 的理解程度。

基准的系统搜索公式

Lee 等人[9 ] 在 PubMed 和 Cochrane Library 中使用了以下搜索查询:(“penile induration”[MeSH Terms] OR “Peyronie's disease”[Title/Abstract]) AND “male”[MeSH Terms] AND “randomizedcontrolled trial”[Publication Type],并在 Embase 中使用了以下查询:('Peyronie disease'/exp OR 'Peyronie's diseas':ab,ti) AND 'male'/exp AND 'randomizedcontrolled trial'/de。经过系统搜索,共找到 217 条记录。研究被排除在外的原因如下:不是 RCT、与主题不完全契合、样本量或结果不足、不是用英文撰写的。最后,SR 纳入了 24 项 RCT,其中 2022 年仅发表了 1 项 RCT(

图1) [9 ]. Lee 等人纳入的所有研究的特征[9 ] 在 S1 节中进行了总结

多媒体附录1 .

图 1. Lee 等人的 PRISMA(系统评价和荟萃分析的首选报告项目)流程图 [9 ].RCT:随机对照试验。

ChatGPT 的系统搜索方法

根据 Lee 等人使用的搜索公式 [9 ],创建了一个简单的强制性提示,以问题的形式提出问题,从综合性问题开始,逐渐提出更具体的问题(

文本框 1)。例如,问题可以构建为“您能在 PubMed 中展示秋水仙碱治疗佩罗尼氏病的 RCT 吗?”,治疗方法和数据库在相同格式下更改。除了必答问题外,我们还在对话过程中添加了 ChatGPT 额外提供的有关治疗的问题。考虑到 ChatGPT 可能会根据交互做出不同的响应,我们将问题安排成 2 个逻辑流程,分别关注数据库和治疗方法(

图 2和图 S1

多媒体附录 1)。我们询问了 4 个数据库的搜索结果:PubMed [11 ],谷歌(谷歌学术)[12 ],Cochrane图书馆[13 ]和 ClinicalTrials.gov [14 ]。PubMed 是一个领先的生物医学数据库,提供同行评议文章。Google Scholar 提供了广泛的学术文献索引,包括医学研究。Cochrane Library 专门通过 SR 和临床试验提供高质量证据。ClinicalTrials.gov 由美国国家医学图书馆管理,是全球临床研究信息的综合存储库。这些数据库共同为研究人员提供服务,提供多样化和可靠的来源,促进文献综述和证据综合,并为医学领域的 EBM 提供信息。它们在推进医学知识、支持明智决策以及最终改善患者护理结果方面发挥着至关重要的作用 [11 -14 ]。这 4 个数据库易于访问,包含大多数可访问的研究。每个问题至少重复两次。我们提取答案并根据标题、作者、期刊和出版年份评估信息质量(第 S2-S5 节

多媒体附录1 )。

文本框 1.强制性问题提示。

问题的基本格式

  • “您能否展示 (A) 针对 (B) 中的佩罗尼氏病的 RCT 试验?”

(一)治疗类别及具体治疗

  • 口服治疗
    • 维生素 E、秋水仙碱、L-肉碱、氨基苯甲酸钾、他莫昔芬、己酮可可碱、他达拉非、L-精氨酸和西地那非
  • 病灶内治疗
    • 维拉帕米、干扰素-a2B、胶原酶溶组织梭菌、透皮电击给药、透明质酸酶、曲安奈德、丝裂霉素C、超氧化物歧化酶和5-氟尿嘧啶
  • 机械治疗
    • 体外冲击波疗法、离子电渗疗法、牵引疗法、真空疗法、阴茎按摩和运动冲击波疗法
  • 局部治疗
    • 5-α还原酶抑制剂、表面热疗、双氯芬酸凝胶、胶原酶溶组织梭菌凝胶、维拉帕米凝胶、氨基苯甲酸钾凝胶和丙酰-L-肉碱凝胶

(B)数据库

  • PubMed
  • 谷歌(谷歌学术)
  • 科克伦图书馆
  • ClinicalTrials.gov

图 2. ChatGPT 数据库的逻辑流程和结果。RCT:随机对照试验。

我们使用 GPT-3.5 版本的 ChatGPT(已使用 2021 年之前的数据进行预训练)进行系统性搜索,并评估了 Lee 等人的研究中纳入的 RCT 数量 [9 ] 出现在 ChatGPT 的搜索结果中。为了评估 ChatGPT 答案的可靠性,我们还评估了所呈现的研究是否确实存在。ChatGPT 的回答风格和信息量可能因答案而异。因此,我们通过按 (1) 标题;(2) 作者、期刊和出版年份;以及 (3) 其他项目对匹配进行优先排序来评估答案的准确性。

为了获得更高质量的答复,重要的是使用 LLM 能够很好理解的精致语言来组织提示。15-​17 ]。在本研究中,我们进行了以下微调,以清晰地传达最重要的内容或信息。我们首先定义角色,提供背景和输入数据,然后提出完整的问题以获得答复,并使用具体和多样化的例子来帮助模型缩小关注范围并产生更准确的结果[18,19 ]。在快速工程中,治疗类别、具体治疗和目标数据库按顺序构建,并在详细元素中改变顺序以得出一致的答案。有关详细信息,请参阅

多媒体附录1 .

答案质量评估

为了评估基于人工智能答案的个别研究的质量,我们根据与出版物相关的书目信息创建了一个结构化的评级系统(

表1)。若标题存在,我们将其答案分为4个等级:A,B,C和F。对于假标题或没有答案的,不给予评分。

表 1.根据书目信息的等级表。

年级标题确实存在皮科斯

A
基本信息配件信息等级定义
标题作者杂志出版年份发行数量页码多伊预处理免疫缺陷症
A是的

b
所有书目信息均匹配
是的任何 X

C
任何 X任何 X任何 XPICOS 与基本信息匹配,但附加信息不匹配
C是的X

d
不适用

不适用不适用不适用基本信息匹配,但 PICOS 不匹配
F是的不适用任何 X任何 X任何 X不适用不适用不适用不适用标题匹配,但其他基本信息不匹配

a PICOS:人口、干预、比较、结果和研究设计(研究问题)。

b匹配。

c基本信息或附加信息有任何不匹配的情况。

d不匹配。

e N/A:未评估。

如果答案适合问题并且与实际研究完全一致,则会给出“A”级评分。例如,对于“您能在 Google 上显示所有关于佩罗尼氏病药物治疗的 RCT 吗?”这个问题,ChatGPT 回答“Gelbard MK, James K, Riach P, Dorey F. 胶原酶与安慰剂在佩罗尼氏病治疗中的比较:一项双盲研究。J Urol。1993;149(1):56-58。”这个答案与实际研究完全一致,因为作者、标题、期刊、出版年份、期号甚至页码都匹配,而且它是一项 RCT,涉及 PD 的药物治疗,并且可以在 Google 上找到,因此它是合适的。

如果答案适合问题,并且标题、作者、期刊和出版年份与实际研究相符,则可获得“B”级评分。例如,对于“您能在 Cochrane 图书馆中展示关于佩罗尼氏病病灶内治疗的 RCT 吗?”这个问题,ChatGPT 回答“Gelbard MK、James K、Riach P、Dorey F。胶原酶与安慰剂在佩罗尼氏病治疗中的比较:一项双盲研究。J Urol。1993 年 2 月;149(2):56-8。doi: 10.1016/s0022-5347(17)36148-1。PMID:8426418。”这个答案很合适,因为它是一项 RCT,内容是关于 PD 的病灶内治疗,并且可以在 Cochrane 图书馆中找到。但该答案与实际研究的标题、作者、期刊和出版年份一致,但与出版月份、期号、页码、DOI 和 PMID 等附加信息不一致。因此,它能够用必要信息指定所呈现的研究,但附加信息与实际研究不一致。

如果答案与问题不符,但标题、作者、期刊和出版年份与实际研究相符,则评为“C”。例如,对于“您能在 PubMed 中展示戊酮可可碱治疗佩罗尼氏病的 RCT 吗?”这个问题,ChatGPT 回答“Gelbard MK、James K、Riach P、Dorey F。胶原酶与安慰剂在治疗佩罗尼氏病中的对比:一项双盲研究。J Urol。1993;149(1):56-8。doi: 10.1016/s0022-5347(17)36091-7。PMID:8417228。”这个答案与实际研究的标题、作者、期刊和出版年份一致,但不合适,因为它不是关于戊酮可可碱治疗 PD 的。

如果答案与与标题相符的实际研究的作者、期刊或出版年份不一致,无法具体说明,则会给出“F”级。因此,它被认为是一项虚假研究。例如,对于问题“你能在 PubMed 中展示胶原酶溶组织梭菌治疗佩罗尼氏病的 RCT 吗?”,ChatGPT 回答“Gelbard MK、James K、Riach P、Dorey FJ 和胶原酶研究组。(2012 年)。胶原酶与安慰剂在治疗佩罗尼氏病中的比较:一项双盲研究。泌尿外科杂志,187(3),948-953。”这个答案与实际研究的标题一致,但与作者、出版年份等不一致。

Bing AI 的搜索策略

为了与 ChatGPT 进行比较,我们使用 Bing AI 执行了相同的过程。20 ],也称为“新必应”,是微软开发的人工智能聊天机器人,于 2023 年发布。由于必应人工智能基于包含 OpenAI 的 GPT-4 的大型人工智能模型“Prometheus”运行,具有网络搜索功能,因此预计它会比 GPT-3.5 版本的 ChatGPT 给出更准确的答案。我们以“精确”的语气进行对话。由于必应人工智能将每个会话的问题数量限制为 20 个,因此我们没有将问题安排成 2 个逻辑流程(第 S6 节

多媒体附录 1)。我们比较了基准中包含的研究数量[9 ] 并由 Bing AI 提供。我们还使用上述相同的方法或使用 Bing AI 提供的网站链接评估了答案的可靠性(图 S2 和 S7 节

多媒体附录1 )。

结果

通过 ChatGPT 系统化搜索结果

总共有 639 个问题被输入到 ChatGPT 中,并获得了 1287 份研究结果(

表 2)。通过 ChatGPT 进行的系统搜索是在 2023 年 4 月 17 日至 5 月 6 日进行的。在对话开始时,我们让 ChatGPT 扮演一名进行系统搜索的研究人员的角色,他打算进行荟萃分析以寻找更合适的答案。起初,我们尝试使用“查找”一词来构建问题格式,例如“你能找到治疗佩罗尼氏病的 RCT 吗?”然而,ChatGPT 没有展示研究,只建议如何在 PubMed 等数据库中查找 RCT。因此,我们将“查找”一词改为“显示”,ChatGPT 显示了 RCT 列表。对于综合性问题,ChatGPT 没有给出答案,称它作为 AI 语言模型没有能力显示 RCT 列表。然而,当问题逐渐具体化时,它就创建了答案(第 S2 和 S4 节

多媒体附录1 )。

表 2. ChatGPT 和 Bing AI 答案的质量评估

A。

搜索者、设置和问题级别等级,n研究,n
ACF
ChatGPT
数据库设置
综合题103556
特定类别的问题11818124
治疗特定问题476787545
全部的6878110725
治疗环境
综合题0001二十七
特定类别的问题004861
治疗特定问题1108592474
全部的11089101562
全部的7181672111287
必应人工智能
综合题00101
特定类别的问题00707
治疗特定问题19020040
全部的190二十八0四十八
人类

b
2400024

AI:人工智能。

b来自 Lee 等人 [9 ]。

在 ChatGPT 提供的 1287 项研究中,只有 7 项(0.5%)研究完全符合条件,18 项(1.4%)研究在标题、作者、期刊和出版年份相符的情况下可被视为真实研究(

表 2)。其中,只有 1 项研究与 Lee 等最终纳入的研究完全一致 [9 ],并根据假设匹配了 4 项研究(第 S1、S3 和 S5 节

多媒体附录1 )。

具体来说,通过 ChatGPT 进行系统搜索,分为两个逻辑流程方案,即数据库设置和治疗设置(

图 2和图 S1

多媒体附录 1)。按照数据库设置的逻辑流程,在获得的 725 项研究中,分别有 6 项(0.8%)和 8 项(1.1%)研究被评为 A 级和 B 级(

表1)。其中,Lee等纳入1项A级研究和1项B级研究[5 ]。按照治疗环境的逻辑流程,在获得的 562 项研究中,1 项(0.2%)研究被评为 A 级,10 项(1.8%)研究被评为 B 级。其中,3 项 B 级研究被纳入基准[9 ](

表2)。

答案被更改是很常见的。有很多答案自相矛盾的情况。此外,有些情况下答案一开始是“没有能力”或“没有找到 RCT”,但当问另一个问题并再次问上一个问题时,就会给出答案。ChatGPT 表现出通过轮换一些格式和单词来创建文章的倾向。所呈现的标题非常合理,以至于在进行实际搜索之前几乎不可能识别出假文章。呈现的作者也是真实的人。标题通常包含高度具体的数字、设备或品牌名称,这些名称都是真实的。在某些情况下,可以推断出 ChatGPT 在虚假答案中模仿了哪些文章(第 S3 和 S5 节

多媒体附录1)。考虑到这些特点,在生成句子时,ChatGPT似乎会列出在预训练数据中出现概率较高的单词,而不是呈现准确的事实或理解问题。

综上所述,在 ChatGPT 提出的 1287 项研究中,只有 1 项(0.08%)RCT 与基准的 24 项 RCT 相匹配 [9 ]。

通过 Bing AI 系统化搜索结果

对于 Bing AI,共提出了 223 个问题,并提出了 48 项研究。在获得的 48 项研究中,19 项(40%)研究被归类为 A 级。没有 B 级研究(

表 2)。由于 Bing AI 始终提供带有网站链接的参考文献,因此 Bing AI 提供的所有研究均存在。但是,它还提供了有关研究类型的错误答案,尤其是当它将评论列为 RCT 时。在 28 项 C 级研究中,27 项(96%)不是 RCT,1 项(4%)是关于不同治疗方法的。只有 1 项研究因标题造假而没有评级;它提供了一项在 PubMed 中注册的研究,却假装它是 ClinicalTrials.gov 中搜索的结果。然而,这项研究并不在 ClinicalTrials.gov 中(第 S7 节

多媒体附录1 )。

Bing AI 的答案比 ChatGPT 更准确,因为它提供了实际的网站参考。然而,它也表现出对更具体的问题给出更多答案的倾向,类似于 ChatGPT。例如,对于一个综合性问题,Bing AI 说“我无法访问或搜索特定数据库。”然而,对于更具体的问题,它找到了研究或回答“我找不到任何没有提到可访问性的 RCT。”在大多数情况下,Bing AI 要么找不到研究,要么列出的研究太少,无法用作系统搜索工具。

综上所述,在 Bing AI 提出的 48 项研究中,有 2 项(4%)RCT 与基准的 24 项 RCT 相匹配 [9 ]。

讨论

主要发现

本文的研究人员试图确定 ChatGPT 是否可以对 EBM 进行实时系统搜索。研究人员首次将 ChatGPT 的性能与经典系统搜索以及 Microsoft Bing AI 搜索引擎进行了比较。尽管 Zhou 等人 [8 ] 表明 ChatGPT 根据最近的证据回答了定性问题,但本研究发现 ChatGPT 的结果并非基于系统搜索(这是 SR 的基础),这意味着它们在当前状态下不能用于实时 CDSS。

最近有关先进人工智能技术的风险和好处的争议[21-​24 ],ChatGPT 在科学界和学术界的反响褒贬不一。尽管许多学者都认为 ChatGPT 可以提高写作和对话任务的输出效率和准确性 [25 ],其他人则认为 ChatGPT 训练中使用的数据集可能会产生偏差,这不仅限制了它的能力,还会导致幻觉现象——看似科学上合理,但事实上并不准确的信息 [24 ]。在使用法学硕士时,还应考虑到安全问题,包括可能遭受故意传播错误信息的网络攻击[25 ]。

在本研究中应用插件方法时,尤其是在使用 PubMed Research [26 ],整个过程非常顺利,无论指定了哪个特定的数据库引擎,都没有出现一例误以为是虚假研究(通过提供信息和链接)的情况。在答复中,有 21 项 RCT 被纳入最终 SR,在总共 24 项 RCT 中,除 3 项外,其余均提供了 RCT。这是一个非常令人鼓舞的结果。但是,目前还没有可以访问其他数据库的插件,如果对话时间很长,响应速度会很慢。此外,虽然这是一项付费服务​​,但它总共只提供 100 篇论文,因此如果搜索超过 100 篇 RCT,用户必须手动搜索所有论文。最终,它并不旨在进行高效和系统的搜索,因为需要额外的时间和精力。如果开发出更高效的插件,它将在系统搜索中发挥有希望的作用。

尽管萨拉姆的[5 ] SR 认为学术和科学写作以及医疗保健实践、研究和教育都可以从使用 ChatGPT 中受益,这项研究发现 ChatGPT 无法正确搜索科学文章,所需论文呈现的概率为 0.08% (1/1287)。在 Bing AI 使用 GPT-4 的案例中,这项研究表明 Bing AI 搜索科学文章的准确率远高于 ChatGPT。然而,这个概率只有 4% (2/48)。对于进行系统研究来说,这个概率仍然不够。此外,ChatGPT 生成的虚假答案被称为幻觉,这导致研究人员需要花费额外的时间和精力来检查答案的准确性。生成式人工智能的一个典型问题是它会产生幻觉。然而,由于生成式人工智能的原理,这很难完全消除。因此,如果无法在模型预训练时就杜绝这种情况,就需要努力通过从用户的角度检查准确性来提高生成式人工智能在医疗保健中的使用可靠性和一致性,如本研究所示。与 ChatGPT 不同,Bing AI 没有生成虚假研究。但是,呈现的研究总数太少。很少有研究关注 ChatGPT 的科学搜索准确性。虽然本文发现了许多关于 ChatGPT 在医学领域使用的文章,但大多数都涉及 ChatGPT 作为作者的角色。虽然后者可能会加快写作效率,但它也证实了前面提到的透明度和抄袭问题。

王等[27 ] 最近研究了 ChatGPT 是否可用于为 SR 文献搜索生成有效的布尔查询。作者建议,ChatGPT 应被视为进行 SR 的研究人员的“有价值的工具”,特别是对于时间受限的快速审查,在这种情况下,以更高的精度换取更低的召回率通常是可以接受的。他们引用了它遵循复杂指令和生成高精度查询的能力。尽管如此,应该注意的是,构建布尔查询并不是一个复杂的过程。然而,为 SR 选择最合适的文章至关重要,这可能是与 ChatGPT 的使用相关的更有用的研究主题。此外,尽管 Aydın 和 Karaarslan [28 ] 表明 ChatGPT 在生成文献综述方面很有前景,iThenticate 剽窃工具在改写元素中发现了显著的匹配。

在科学研究中,最耗时、最具挑战性的任务可能是一方面筛选出不必要的论文,另一方面找出需要的论文。这项既困难又关键的任务可能令人望而生畏。它使许多研究人员不愿参与科学研究。如果人工智能可以取代这个过程,那么从选定的论文中收集和分析数据将变得更加容易。最近,使用生成式人工智能模型的商业文献检索服务已经出现。代表性例子包括Covidence [29 ],共识[30 ],并引出[31 ]。这些商业AI文献检索服务的技术细节尚不清楚,但它们是基于使用GPT的LLM。因此,这些搜索服务不仅不足以验证幻觉,而且缺乏搜索目标数据库中的信息。即使可能有错误,研究者也应该力求完整,避免使用未经验证的方法。虽然这项研究没有使用商业文献检索服务,但它手动逐一搜索了目标数据库。如果AI文献检索服务的可靠性和一致性得到验证,这些技术的使用将对医学研究大有帮助

这项研究表明,尽管 Zhou 等人最近断言,ChatGPT 在学术搜索方面仍然存在局限性。8 ] 关于其在搜索学术证据方面的潜力。此外,尽管 ChatGPT 可以搜索和识别开放获取指南中的指导,但其结果简短而零散,通常只有 1 或 2 句话,缺乏与指南相关的细节。

可以说,人们应该更加关注 ChatGPT 在 CDSS 中的潜在用途,而不是它在教育或撰写论文草稿中的作用。一方面,如果在医患关系中使用诸如 ChatGPT 之类的 AI,则不太可能影响责任,因为建议经过专业人员的判断过滤,而 AI 生成的不准确建议与专业人员传播的错误或有害信息没有什么不同。但是,ChatGPT 缺乏足够的准确性和速度来以这种方式使用。另一方面,ChatGPT 还可用于提供直接面向消费者的建议,这种建议基本上不受监管,因为直接向 AI 寻求医疗建议或情感支持超出了既定的医患关系。[32 ]由于患者存在知晓不准确信息的风险,医疗机构应当努力对患者及其监护人进行有关这方面的不准确信息风险的教育。

迄今为止,学术界对 ChatGPT 的兴趣主要集中在潜在优势(包括研究效率和教育)、与剽窃和偏见风险等伦理问题相关的弊端以及数据隐私等安全问题。然而,在提供医疗信息和充当 CDSS 方面,ChatGPT 的使用目前不太确定,因为其学术搜索功能可能不准确,这是一个必须解决的基本问题。

本研究的局限性在于,它没有涉及各种研究主题,因为在收集目标文献时仅搜索了 1 个研究主题。此外,由于研究开始与审查和评估期之间存在时间差,最新技术无法得到充分应用,因为它可能会在技术快速发展的研究领域(如生成式人工智能)成为过时的技术。例如,自从我们开始这项研究到当前修订的时间点之间发布了 ChatGPT Turbo (4.0) 等新的人工智能模型以来,已经取得了重大的技术进步。

因此,本文表明,使用 AI 作为生成 CDSS 实时证据的工具是一个尚未成为现实的梦想。证据生成的起点是系统搜索,而 ChatGPT 甚至无法实现这一初始目的。此外,它在以直​​接面向消费者的形式直接向患者提供建议方面的潜在用途令人担忧,因为 ChatGPT 可能会提供不准确的医疗信息,这些信息没有证据支持,可能会造成伤害。为了在未来医疗保健中正确使用生成式 AI,建议有必要建立一个反馈模型,该模型根据专家的观点评估准确性,就像本研究所做的那样,然后将其反映回 LLM。

结论

这是第一项将 AI 与传统人类 SR 方法作为 EBM 实时文献收集工具进行比较的研究。结果表明,使用 ChatGPT 作为实时证据生成的工具尚不准确且不可行。因此,研究人员应谨慎使用此类 AI。本研究使用 GPT 模型的局限性在于研究主题的搜索不够多样化,并且无法防止生成 AI 的幻觉。然而,本研究将通过提供从用户角度验证生成 AI 可靠性和一致性的指标,为未来的研究提供标准。如果 AI 文献检索服务的可靠性和一致性得到验证,这些技术的使用将对医学研究大有裨益。

致谢

这项工作得到了顺天乡大学研究基金的支持。该机构没有参与研究设计、数据的收集、分析和解释、报告的撰写以及提交文章发表的决定。

作者贡献

SRS 可以完全访问研究中的所有数据,并对数据的完整性和数据分析的准确性负责。YNG、HSC、EJJ、JC、SL 和 SRS 为数据分析和解释做出了贡献。YNG、HSC、SRS 和 JHK 为手稿的起草做出了贡献。SRS 和 JHK 对手稿中重要的知识内容进行了批判性修订。YNG 和 SRS 为统计分析做出了贡献。

利益冲突

沒有申明。

多媒体附录 1

Lee 等人的研究中包括的附加逻辑流程图和研究特征 [9 ]、ChatGPT 和 Microsoft Bing 成绩单,以及答案的等级分类。

DOCX 文件,2209 KB
参考
  1. 医疗保健市场中的人工智能 (AI)(按组件:软件、硬件、服务;按应用:虚拟助手、诊断、机器人辅助手术、临床试验、可穿戴设备、其他;按技术:机器学习、自然语言处理、情境感知计算、计算机视觉;按最终用户)- 全球行业分析、规模、份额、增长、趋势、区域展望和预测 2022-2030。Precedence Research。2023 年 2 月。网址:Artificial Intelligence in Healthcare Market Size, Report 2022-2030 [访问日期 2024-03-31]

本文标签: 人工智能文献性能评价科学