世界微头条丨AI医生与三甲医院医生诊断医学一致性达到96%

如果问起上半年最火的话题是什么，绝大多数人大概都会将生成式AI列入其中。在2023年上半年的最后一天，一条生成式AI的重磅消息刷爆了医疗圈，并成为生成式AI上半年持续高光的最好注解。

(资料图片仅供参考)

6月30日，医联于成都与北京两地举行了国内首次AI医生与真人医生的一致性评测，并进行了全天候实时直播。结果显示，医联MedGPT驱动的AI医生与三甲主治医生在评测比分结果上的一致性达到了96%之高，被评审专家认为结果“（好得）超出预期”！

生成式AI已成为未来医疗底层架构，应用探索正快速起步

自Chat-GPT为代表的生成式AI在年初走红开始，生成式AI已在许多行业展现出巨大的应用潜力，甚至可能在未来对不少行业形成颠覆式创新。根据麦肯锡的报告，生成式AI每年或将为全球GDP增加2.6-4.4万亿美元——作为对比，英国在2021年的GDP也不过3.1万亿美元。

随着生成式AI在各行业的应用探索中逐渐显示出超乎预期的潜力，研究机构对于全球生成式AI的市场规模预测也水涨船高。根据MarketsandMarkets的最新报告，2023年全球生成式AI的市场规模预计为110.3亿美元，2028年预计将达到518亿美元，年复合增长率达35.6%。

基于此，一级市场对于生成式AI的投资也愈发活跃。仅仅在5月下半月的半个月时间内，就有对话机器人为主要业务的Hyro获得2000万美元的B轮融资，及医疗专用生成式AI模型研发Hippocratic AI获得5000万美元的种子轮融资。

根据动脉橙数据的不完全统计，从2022年1月1日至2023年6月28日全球生成式AI医疗领域累计投融资事件超过160起，累积投资金额超57.1亿美元。

在医疗领域，生成式AI被视为将对医疗起到极大的赋能作用。在药物发现和研发、医学成像和诊断方面都已开始落地实施应用。

事实上，生成式AI在新药研发上已有一段时间的应用。它可以学习从蛋白质的序列到蛋白质的结构之间的映射关系，并基于其强大的算力解决复杂的高维数据映射处理问题，从而实现以往几乎不可能实现的蛋白质结构预测。同时，它还可以根据预先设定的性能和结构，来生成全新的、自然界完全不存在的蛋白质。

在与医学影像的结合上，生成式AI可以起到几方面的加强。其一，生成式AI可基于原始数据生成合成数据，将其应用于最终结果的生成，实现影像增强，从而打破影像设备成像原理和技术限制，降低不当操作导致的影响质量降低。

其二，生成式AI可生成大量合成影像数据进行数据扩充以用于模型训练。这在某些数据缺失的场景，如罕见病或数据分布不均的领域将起到重要作用。

其三，生成式AI可基于现有数据对患者健康状况和疾病风险进行预估。行业已实现通过观察人群视网膜血管和神经的发展变化，让生成式AI自学并判断受检者接下来的发展变化，评估未来心脑血管病的风险。此外，包括老年痴呆风险预测、近视进展预测等领域也已有相应探索。

除了这两个领域，生成式AI也正在探索切入临床诊疗的全流程，希望能够赋能医生诊疗，并提升患者体验。

在诊前阶段，生成式AI可以利用其强大的资料检索和推理能力增强对患者疾病的预测，从而提升分诊导诊的准确性。

在诊中阶段，生成式AI则可基于患者的病历、症状和疾病历史等多模态数据，通过数据分析和智能算法可为医生提供辅助诊断、指导治疗方案和预后方案。

在诊后阶段，生成式AI可以减轻医务人员负担，在线7×24小时回答患者关于病情、药物副作用、预防措施等方面的问题；也可以作为宣教工具，向患者传授正确的健康知识和预防措施。

对于医生而言，生成式AI也是一个方便的医学指南库，能帮助他们及时了解最新的医学研究进展、循证医学证据和临床指南，从而提升专业水平并促进医疗质量提升。此外，生成式AI的拟人化程度比以往的人机对话要强得多，将极大改善患者体验。

不过，这些临床设想距离落实仍然有一些距离。如果您使用过Chat-GPT就会发现，“一本正经的胡说八道”是其最大的问题；重复询问完全一样的问题，每次给出的答案也不尽相同。究其根本在于，目前的生成式AI主要基于类似GPT的通用大语言模型，高度依赖文本统计概率生成答案，回答准确性无法保证。

这在以准确性和一致性为底线的医疗应用场景无疑是无法接受的。解决这一问题需要对现有的通用大语言模型进行微调训练和工程优化，并建立相应的审核机制，以确保能够输出具有实用性和一致性疾病诊疗能力的服务。

与三甲专家诊断一致性达96%，医联引领生成式AI突破

在这条路上，国内企业也在探索尝试，并且已崭露头角——2023年4月，医联宣布推出基于Transformer架构且针对医疗应用场景调优的大语言模型MedGPT。这一模型的参数高达1000亿，训练所用医学文本数据高达20亿条，临床诊疗数据多达800万条，并由100名医生进行强化调优。

为了解决通用大语言模型在医疗应用场景的不足，MedGPT提供了几项针对医疗应用场景的特殊优化。

首先，MedGPT引入了模型算法的一致性校验机制。通过加入临床医学规则校验器，使得MedGPT在为患者输出正式答案之前，会先经过临床医学规则校验，确保医学准确性。

其次，医联为MedGPT建立了多维度的诊疗准确性评测体系，比如，在问诊场景的重点是问诊准确率，而在诊断场景的重点则是诊断证据充分率、疾病准确率和漏诊率。通过这一评测体系，可从多方面分析与评测MedGPT在诊疗全过程中的一致性和准确性。

这些还并不足够，要衡量MedGPT的输出结果，还需要基于专家评议的真实世界医生一致性对标机制加以衡量。这也正是本次医联一致性评测的目的，即通过单盲测试将MedGPT与真实医生给出的方案进行一致性评测，并经专家委员会进行结果评定。

为此，医联于6月30日在成都高新海尔森医院举行了国内首次AI医生与真人医生一致性评测，并进行了全天候实时直播。现场有120多位真实患者及来自四川大学华西医院的心内科、消化内科、呼吸内科、内分泌科、肾脏内科、骨科、泌尿外科的10位主治及以上医师共同参与了这场持续一天的评测研究。

医联AI医生与真人医生一致性评测现场

为了保证评测的合理性和科学性，此次测试的问诊环节进行了特殊的设计：患者进入诊室后，将与医助沟通自身病情，医助通过线上文字输入的方式将患者主诉分别传达给真人医生与AI医生，并协助医患完成多轮沟通。

在收集足够的决策因子后，真人医生与AI医生为患者开具检查单或诊断，患者可直接在医院现场完成检查。随后，患者可携检查结果进行复诊，并由AI医生及真人医生分别提供临床诊断及治疗方案并加以汇总。通过以上流程，可以在条件基本一致的情况下，让真人医生与AI医生进行互不干涉的独立诊断。

MedGPT综合多轮问询及医学检验结果后给出治疗方案（上述问询为动脉网现场体验即兴询问，输入主诉及检测数据未必合理，非本次测试患者数据）

当然，如果参与测试的患者对结果仍有疑虑，还可直接与驻扎在现场的来自华西医院的主治医师进行面对面沟通，确保患者满意度。

在问诊结束后，来自北大人民医院、中日友好医院、阜外医院和友谊医院的7位专家教授针对评测形成的91份有效病例进行审核，并且针对AI医生的问诊准确性、诊断准确性、治疗建议准确性、辅助检查方案准确性、数据分析准确性、提供可解释信息、自然语言问诊与交互这7个评价维度进行打分。

在3个小时的对比分析及判断，并综合专家团所有评审的判定及评分后，真人医生综合得分为7.5分，AI医生的综合得分为7.2分。AI医生与三甲主治医生在比分结果上的一致性达到了96%。

这一结果超出了所有人的预期，获得了评审专家的高度肯定。评审专家普遍认为，MedGPT通过多轮询问收集足够信息，以确保医疗准确性为前提推进问诊流程，所以出现误诊、漏诊的概率就比较小。

令人惊喜的是，MedGPT还根据患者主诉诊断出了不属于就诊科室的疾病，并给出其他具备可能性的判断。这在常规的专科问诊中并不容易做到。评审专家据此认为，MedGPT的知识覆盖面已经超过一些经验并不是很充足的真人医生。

更值得一提的是，MedGPT不仅在一致性上达到了一定水准，还首次实现在诊断尚不明确时给患者开具必要的医学检查项目，并根据患者返回的医学检查数据进行准确的疾病诊断及设计后续疾病治疗方案。这对真人医生来说已是常规操作，但对于AI来说则是一项巨大的突破。

早在5月，MedGPT就已经具备了多种医学检验检测模态能力，可以配合医联多种云化能力（如“云检验”）进行检验检测，使得患者逐不出户即可完成问诊-检验-确诊-买药的全流程。此外，MedGPT还会在患者收到药品后主动为患者进行用药指导与管理、智能随访复诊、康复指导等智能化疾病诊疗动作。

目前，医联MedGPT plugin应用平台已整合自有及第三方超过1000种医疗多模态能力，极大丰富和完善了全流程智能化诊疗体验。此外，在覆盖疾病领域，医联也正快速迭代——今年底，MedGPT将把覆盖疾病数量（ICD10亚目）从目前的100类提升到300类，能够覆盖的患者就诊人次占比从60%提升到80%。

尽管MedGPT仍处于测试阶段，但就目前的进展来看，距离首次实装上线辅助医生已经越来越近。

厚积薄发，生成式AI打通病程管理全流程

首次发布医疗专用大模型、首次实现AI从在线问诊向医学检查的跨越、首次完成AI医生与真人医生的诊断一致性评测并取得出色成果……MedGPT每前进一步，都在创造新的历史。通过在医疗专用生成式AI领域的一系列“首次”，医联俨然已成为医疗生成式AI的领跑人。

这一成绩的取得并非偶然，而是来自医联数年如一日在该领域的持续积累和投入。

早在2017年，互联网医疗还流行咨询与轻问诊阶段时，医联就开始向纵深的、技术门槛更高、整合难度更大、对患者结果负责的方向进行探索，寻找互联网与医疗真正的价值契合点，并试图找到一种更合理的方式去为患者服务。最终，医联确定了对患者疾病的全病程管理这一路径，通过为患者提供包括医疗筛查检测、诊疗、康复在内的全病程管理，造福广大患者。

基于这种需要，医联逐步建立并完善了医疗大数据的清洗及数据结构化能力，为后来的发展奠定了基础。

2018年，医联在布局慢病管理后一直完善横向的病种覆盖，纵向的服务完善与规范化。围绕数字化学科建设，在专家指导下，结合临床指南和临床路径，医联逐步形成着疾病的线上管理SOP，打造专业、规范、有效的互联网疾病管理。

基于NLP、CV等人工智能技术及AIoT物联网技术，医联在数据挖掘、机器学习、深度学习和知识图谱等领域皆有布局，并在预防、诊断和康复等环节落地了智能体液检测、智能分诊、TMD辅助诊断、口腔影像识别和智能医助等一系列应用场景。

也是在这些应用场景中，医联的决策者直观地看到了AI对医疗产生的巨大赋能，并进一步确定了之后的规划。

2019年，医联开始针对单病种分阶段建立AI诊疗模型。当年，医联携手广州中山大学附属第三医院、北京大学医药管理国际研究中心和赛诺菲等机构、企业共同创建了亚洲首个多发性硬化症领域的早筛AI模型。

根据医联和专家团队分别进行的外部独立测试，验证结果与模型性能指标高度一致。这一早筛AI模型可使61%、51%和49%的多发性硬化症患者分别实现提前1年、2年和3年预警，提升了多发性硬化症的风险预测和防控能力。

这一研究结果也被第八届国际多发性硬化症专病大会ECTRIMS-ACTRIMS收录，并被发表在专病杂志《Mulitiple Sclerosis and Related Disorders》上。

到了2021年，医联已经初步形成一套基于互联网医院的AI诊疗系统。基于自然语言处理、图像识别和认知计算等AI技术建立的互联网医院系统将线上、线下和团队结合在一起，大大提升了就诊效率。

这些在其他人看来费时费力的事情正是医联多年探索出的“自身发展节奏”，即用一种“沉下心”来的慢节奏，实现了在患者疾病管理方面的深入拓展。

尽管如此，但彼时的医联始终无法实现自然顺畅的全流程AI疾病诊疗。这是因为以NLP和CV为代表的人工智能虽然具有强规则、可控性的优点，但在自然语言沟通上存在障碍，也无法处理系统系、复杂性问题。

以Transformer为代表的大语言模型则具有好得多的自然语言沟通能力，并在海量医学文本与数据中进行高并发、长距离学习整合，从而实现复杂性问题的系统性整合。

不难发现，没有之前持续多年的深耕积累，医联也不可能在生成式AI领域达成今日的成就。用“天道酬勤”来形容医联的厚积薄发再合适不过。

写在最后

目前，生成式AI在代码工程、实验自动化等诸多领域已可取代人类完成多种工程问题。合理地应用生成式AI将会颠覆现有的行业格局已成为公认的趋势。

在医疗领域，亟待解决的痛点众多，如医疗资源分配不均，边远地区患者难以接触优质医疗资源等。这正是医联希望生成式AI可以用武之地，实现有效补充医疗资源，助力全民健康生活水平的提升，补全基层诊疗服务短板，强化公共卫生服务效率，帮助解决优质医疗资源相对匮乏和基层医疗服务能力不足的结构性难题。

这一远景随着医联MedGPT成功地以高分通过与真人医生的一致性评测又更近了一步。我们也期望，随着以MedGPT为代表的生成式AI逐渐成熟完善，将能在未来为医生提供更深远的赋能，并极大提高患者的满意度。

关键词：