风险校正的累积总和图法用于审核头颈部手术后的游离皮瓣失败的监测数据
“很快,我们的学者和同事将会不满足于对手术质量结果的一般评论—相反,他们会称任何无法量化其结果的医生为骗子。” —西奥多·比尔罗斯 1860
引言
近年来,为了系统地衡量护理质量,外科医师审核术后患者转归的工作有所增加。在英国国家临床审核患者结果项目 (NCAPOP) 中,国家审核提供有关外科护理质量的信息。国家审核署编制的年度报告可供公众查阅。心胸外科医师在20世纪80 年代和 90 年代对布里斯托尔皇家医院对小儿心脏手术的调查做出了重大回应,引领了现代国家审核时代[1]。该访问调查了这家医院心胸科死亡率增加的情况,对整个 NHS 有明确的影响,随后政府回应“向布里斯托尔学习”,是一份具有里程碑意义的文件,同时呼吁制定新的护理、开放和监控标准[2]。它强调了缺乏公开的护理标准,缺乏向使用服务的患者和亲属提供信息,以及缺乏外部对绩效的持续审查。因此,在此期间,社会的许多领域开发了被称为“机器学习”的计算密集型技术并将其应用于复杂问题,以指导治理和辅助决策。因而,同样的情况也发生在医学领域,尤其是外科医师主导的审核领域。
指标选择
很多人认为,为了使结果或指标有效,它们必须是可用的(信息可以执行和理解)、可行的(数据可以收集和测量)、可重复的、有意义的(指标得到相关人员一致认可),用于促进质量改进(指标可被监控)并具有表面效度(对改善预后的相关性形成专家共识)。我们认为,还必须选择可以建模的指标,使得个体患者复杂性变化的风险校正是可能的。
例如,自第一个模型(Euro Score、Euro Score Ⅱ)被嵌入国家(和国际)审核以来,心胸外科学会已经发布了 10 种风险校正算法[3]。随着国家审核制度的成熟,这种趋势在其他外科专业中仍在继续。在线医学算法库 MedicalAl 拥有 186 种术后并发症预测算法,可用于数据审核[4]。
在英国和其他存在国家质量改进计划的地方,如英国国家临床改进计划 (NCIP)、英国口腔颌面外科质量和结果计划(QOMS)和美国外科学院国家外科质量改进计划(ACS NSQIP),关于口腔颌面外科领域的相关指标正在确定。截至 2020 年,这3个项目在头颈肿瘤学和重建领域选择了以下指标(表1)。
Full table
这些指标合在一起称为“护理质量标志”,该质量标志应该向患者和同行展示手术单位的持续表现。有一个来自美国的关于“临床护理标志”早期例证,它报告了19个单独的指标,后来将它们与总体生存率相关联。以下指标与生存率增加相关:选择性颈部清扫术中淋巴结计数≥18 个,30天无非计划性再入院,以及III-IV期肿瘤的术后放疗[5]。
统计和机器学习技术
多变量回归分析是分析医学数据集中结果数据的标准技术,通过识别患者特征和因变量之间的独立关系来实现。
简单线性回归模型具有单个连续结果和单个预测变量,而多元或多变量线性回归模型具有单个连续结果和多个预测变量(连续或分类)。一个简单的线性回归模型采用以下公式:
多变量或多元线性回归模型采用以下公式:
其中 y 是连续因变量,x 是简单回归模型中的单个预测变量,并且是多变量模型中的预测变量。在多变量回归模型中,因变量是二分或二元的,预测概率的范围呈 S 形曲线。多变量线性回归模型适用于住院时间(天数)分析,而多变量逻辑回归模型适用于“并发症 YES/NO”或“游离皮瓣失效 YES/NO”模型建立。
这些技术的缺点很多,这些缺点可以在不同的来源中找到[6]。数据“缺失”的处理是复杂的,因为如果不是所有字段都存在,公式将不会产生结果预测,并且在临床数据集中,这可能会影响早期阶段的分析效力。此外,线性关系将很容易识别,而在生理学和医学中经常存在的非线性关系将无法通过该技术识别。
另一种对医学数据集分析重新产生兴趣的统计方法是基于以下概率公式的贝叶斯分析,是于 1790 年由托马斯贝叶斯牧师发展为一种方法的[7]。
其中“x”是感兴趣的变量,而“y”为已知变量,P(x) 表示先验概率,P(y) 是新证据,P(y|x) 是似然比。在对事件的概率进行陈述方面,如果该事件是不可重复的,那么基于已知频率的严格概率是不可能产生的。这个基本概念并不限制贝叶斯分析,因为 (pY) 或“先验知识”可以是主观的,包括“专家”意见,它提供了关于“一次性”事件概率的一般直觉,并且可以在数学上与其他数据相结合(如图所示)生成一个“后验概率”P (x|y)。严格来说,多元贝叶斯分析中的变量必须是独立的,没有交互作用。
决策树分析、人工神经网络、随机森林也已应用于与本文研究的数据集相似的数据集。其优点和缺点超出了本文的范围,但它们的目的是一致的:根据患者的风险因素正确分类(预测)所选择的结果。
分类性能可以在区分、校准和准确性方面进行报告。其中的规则是:“拟合优度统计”(Hosmer-Lemeshow);曲线下的面积;准确度、精确度和召回率以及 Brier 分数。定义见附录1,我们使用这些方法来报告我们的风险校正算法的预测性能。
方法
建立一个由1,316 例患者数据组成的组合数据集,这些患者来自 6 个 NHS 单位(作者 1)。在编写阶段,该数据集已与另外 2 个 NHS 单位来自第二个队列的 63 个护理事件和来自第3个队列的1,016个护理事件相结合(作者3)。所有患者均接受了头颈部鳞状细胞癌 (HNSCC) 的根治手术,并在全身麻醉下立即进行游离组织移植。数据集包括耳鼻喉科同事完成的需要进行游离组织转移的病例。所有审核数据集都在各自的医院信托临床审核部门注册。作者的 NHS 信托在“灰色区域项目”流程下获得了伦理批准,因为该多中心审核的公布结果被认为是可推广的。患者人口统计学,使用 ACE-27 指数的合并症,功能状态指标,即 WHO(世界卫生组织)表现状态;记录肿瘤分期(TNM 状态,AJCC v7)以及手术和麻醉治疗。“高风险”变量是源自 OPCv4(操作程序代码,第 4 版)的二进制字段,包括任何需要口腔、咽部或喉部黏膜缝合以及其他可能导致唾液逸出的颈部解剖手术。数据由主要作者在 Microsoft Excel (2013 )中进行预处理,并在 MedCalc v19.1 和怀卡托知识分析学习环境 (WEKA) v 3.8.3 中进行分析。使用 Clavien-Dindo 分类系统对并发症进行分类[8],住院时间定义为手术日期至出院日期,而边缘阳性采用皇家病理学家学院的定义,被分类为<1 mm[9]。
初步探索性实验已经完成,包括使用卡方检验对分类变量进行单变量分析,对连续变量进行方差分析 (ANOVA)(选择显著性水平为 P≤0.05)。我们应用 MedCalc 和 WEKA测试了多个多变量方法。数据分为训练集(70%)和测试集(30%),用于开发最早发布模型,即住院时间模型和 30 天并发症模型。在后来的报告机器学习算法的出版物中,我们使用了 10 倍交叉验证作为一种更稳健、不太乐观的方法,该方法是在 WEKA 平台上开发的。C-统计量被用作比较模型区别和选择最佳模型的一种工具。我们通过展示四个指标的“冠军模型”来总结结果:30天内的并发症;30天内出现严重并发症(Clavien-Dindo >3);住院时间(天);和手术切缘阳性(表2)。进一步的细节,校准测试结果包含在他们各自的出版物[10-12]和模型输出(表S1-S3,图S1)中。
Full table
对于分析中的新阶段,我们尝试着使用包括来自2个单位 (n=63) 和 (n=1,109) 的数据集,我们尝试开发一个新的用于预实验的风险校正模型,将“完全皮瓣移植失败”作为主要结果。游离皮瓣失败被定义为吻合后由于缺血导致的皮瓣活力不可逆丧失。我们(再次)研究了 MedCalc 中的单变量关系,然后应用WEKA测试了机器学习算法,比较了它们的判别和校准。
我们在累积总和图(CuSUM) 中展示了皮瓣移植失败与时间的关系,这是一种统计过程控制形式。正如 Rasmussen等[13]所做的那样,我们将风险校正算法嵌入到CuSUM方法中。但将游离皮瓣失败作为结果测量,而不是将 30 天死亡率作为结果。
结果
在总数为 1,593 的护理事件中,有 76 例患者(4.7%)完全游离皮瓣失败,34 例(2%)部分皮瓣失败。各治疗单位之间的危险因素流行率存在显著差异,强调了危险分层的重要性(表3)。在单变量分析中,游离皮瓣失败率与治疗医院、人口统计、饮酒或吸烟史、既往动脉硬化相关疾病的病史(包括糖尿病、ACE-27、WHO体力状况)以及使用气管切开术之间没有显著差异(第1组,6%;第2组,6%;第3组,5%;第4组,8%;第5组,3%;第6组,3%;第7组,5%;第8组,5%;λ2 3.4,P=0.8)。而以下因素与游离皮瓣失败存在显著关联:原发肿瘤部位(λ2 33.9,P=0.001), 使用双皮瓣 (λ2 9.9,P=0.001), 使用径向自由前臂皮瓣 (λ2 6.3,P=0.01), 使用背阔肌 (λ2 7.8,P=0.005 ),使用肩胛下系统皮瓣 (λ2 4.8,P=0.03), 手术部位既往放疗 (λ2 5.7,P=0.05), 既往手术 (λ2 6.3,P=0.04) 和肿瘤 T 分类 (λ2 13.4,P=0.02)。N 分类 (λ2 11.1,P=0.08) 没有显著关联。最后,一个意想不到的发现是,术前“高风险”状态与游离皮瓣失败机会显著降低相关(λ2 7.4,P=0.006),进一步研究表明,面中部皮肤、鼻窦和颅底病变与皮瓣失败显著相关(https://cdn.amegroups.cn/static/public/FOMM-2020-HNR-04-1.xls)。由于缺乏进一步建模所需的几个独立因素,来自7号医院的数据被排除在进一步的分析阶段之外。
这些变量在 WEKA 平台中进行了研究,使用以下算法进行探索性分析;逻辑回归、朴素贝叶斯、J48 决策树、随机森林和人工神经网络。排除部分失败的情况,结果是二元的,即失败与不失败。此模型显示出较弱的辨别力(C 统计量 <0.7),这说明游离皮瓣失败,是一种相对罕见的事件(<5%),需要更多数据才能有效建模。最好的模型是一个简单的贝叶斯网络,ROC(C 统计量 0.66)进行 10 倍交叉验证。特异度较低 (0.11),这一点可以通过将临界值从 0.5 降低到 0.1来改善,这种调整会降低敏感度 (0.83),但特异度 (0.47) 和总体准确度 (0.81)得到了改善。该模型预测了近 50% 的游离皮瓣失败(表S4)。校准图(图1)显示了可接受的性能(Hosmer-Lemeshow 拟合优度λ2 6.9,P=0.53)。
整个数据集被划分到各个医院,原始的皮瓣失败数据用于研究CuSUM与时间的关系(图2A、B、C、D、E、F)。预测概率用于给出患者特异度风险以修改CuSUM图表。风险校正的CUSUM图绘制了函数:
Xt=max(0,Xt-1+Wt), t=1,2,3,⋯[4]
其中Wt是分配给每个t值的权重。在我们的研究中,为每位患者更新了风险校正后的CuSUM图表,因此每个t值对应于随后的患者护理事件。因此,权重Wt由下式给出
Wt=Ytlog(RA)-log(1-pt+Rapt) [5]
此处,Yt是患者护理事件的结果,t(手术日期后 30 天内的游离皮瓣失效 是/否)和pt是根据医院每个审核数据的预测模型估计的游离皮瓣失效的预期概率。最后,RA >1 是结果比率的指定优势比 (OR) 增加,因为与参考期相比,风险校正的CuSUM图表用于检测,我们将其设置为 2(或预期比率的2倍)。我们设置权重Wt,如果患者没有结果,则为阳性,如果有,则为阴性。如果结果超出预期,则权重的绝对值很大。因此,在我们的研究中,如果与预测相比,更多的患者出现游离移植失败,则CuSUM功能会降低。最大队列(医院 8)的风险校正CuSUM如图所示(图3)。
讨论
指标选择是有效监控手术单元性能的关键。虽然表面效度是良好指标选择的一个组成部分,但它是主观的,这意味着指标对团队的外科成员具有表面效度。我们认为指标选择的一个关键方面被低估了,即指标对于护理复杂性进行风险校正的能力。
我们知道,目前在国家急诊剖腹手术审核[13]中常规使用的风险调整CuSUM图表,临床团队可以在在线仪表板上输入信息,同时可以实时查看近期死亡率,包括单位级别数据和国家(汇总)数据。我们判断这种实时反馈,不仅在最初具有新颖性,更重要的是本质上有助于加强治疗团队与其外科专业之间的联系,从而可持续地提高参与度。我们认为可以用这种方式绘制游离皮瓣成功与失败的图表。重点关注风险校正后的CuSUM图表(图2F) 表明:2018 年 11 月的表现异常恶化,虽然没有超过 3sd 警报限制,但很接近,值得医务部门对外科医师、患者和病房进行审查。由于该模型正在开发中,我们还没有探索超过 2nd或 3rd标准偏差 (SD) 的替代警报限制,例如 Rasmussen[13]讨论的引导方法。可以在第 3rd SD 警报级别突破后自动重置到基线,我们建议这可以每 6 个月或每 50 次游离皮瓣成功执行一次,以更早发生的时间为准。这是一个临床决策,旨在避免累积的良好表现掩盖显著恶化的情况,如图所示(图2F和图3)。
不同医院的游离组织移植失败率各不相同,但差异不大(3%~8%,平均 4.7%)。然而,这种非显著性差异在患者发生进一步并发症的风险、患者体验和医院资源分配方面是影响深远的。关于医院资源分配,在英国卫生系统中,这些费用由纳税人承担,财务问题不影响患者护理相关的临床决策。在美国和许多其他现代医疗保健系统中情况并不相同,其学术研究明确将医疗成本与继发于游离组织移植的术后事件联系起来[14]。在英国,如果要理解医疗成本,那就是卫生专员寻求数据,根据良好结果和参与质量的证据来评判在区域集中购买医疗服务的地方,以此,可以改进举措和国家审核。
我们知道游离组织移植的更详细分类可以更有效地报告资源分配问题和与患者相关的因素[15],但因为部分皮瓣失败是一种罕见的事件(2%),目前此类决定仍然处于早期,目前对该组的子类别结果建模是站不住脚的。
本文总结了仅使用术前数据预测结果的不同算法的性能,包括30天并发症、30天严重并发症、住院时间>14天和手术切缘阳性。我们提出了一种新的风险校正算法,用于预测游离组织移植失败,并将其嵌入到CuSUM控制图中,以证明其作为实时审核工具的潜在实用性,可以用于同时评估提供微血管吻合的头颈科室内的重建治疗水平。这些共同构成了不断发展和完善的指标系统的基础,这些指标系统提供了“临床护理特征”,告知治疗团队允许在强大的临床管理框架内学习和发展。如果以透明方式呈现,它还可以向专员和公众保证护理质量。
Acknowledgments
Funding: None.
Footnote
Provenance and Peer Review: This article was commissioned by the editorial office, Frontiers of Oral and Maxillofacial Medicine, for the series “Head and Neck Reconstruction”. The article has undergone external peer review.
Conflicts of Interest: The authors have completed the ICMJE uniform disclosure form (available at https://fomm.amegroups.com/article/view/10.21037/fomm-20-89/coif). The series “Head and Neck Reconstruction” was commissioned by the editorial office without any funding or sponsorship. MH served as the unpaid Guest Editor of the series, and serves as an unpaid editorial board member of Frontiers of Oral and Maxillofacial Medicine from October 2019 to September 2021. DFT reports grants from East Kent Hospitals Research and Innovation Grant, during the conduct of the study. The authors have no other conflicts of interest to declare.
Ethical Statement: The authors are accountable for all aspects of the work in ensuring that questions related to the accuracy or integrity of any part of the work are appropriately investigated and resolved.
Open Access Statement: This is an Open Access article distributed in accordance with the Creative Commons Attribution-NonCommercial-NoDerivs 4.0 International License (CC BY-NC-ND 4.0), which permits the non-commercial replication and distribution of the article with the strict proviso that no changes or edits are made and the original work is properly cited (including links to both the formal publication through the relevant DOI and the license). See: https://creativecommons.org/licenses/by-nc-nd/4.0/.
References
- Learning from Bristol. The Report of the Public Inquiry into children’s heart surgery at the Bristol Royal Infirmary 1984-1995. Presented to Parliament by Ian Kennedy QC. Available online: https://webarchive.nationalarchives.gov.uk/20090811143822
- Birkmeyer JD, Dimick JB, Birkmeyer NJ. Measuring the quality of surgical care: structure, process, or outcomes? J Am Coll Surg 2004;198:626-32. [Crossref] [PubMed]
- Roques F, Michel P, Goldstone AR, et al. The logistic EuroSCORE. Eur Heart J 2003;24:881-2. [Crossref] [PubMed]
- Medical Algorithms List. UK. 2020. Available online: https://www.medicalalgorithms.com/
- Graboyes EM, Gross J, Kallogjeri D, et al. Association of Compliance With Process-Related Quality Metrics and Improved Survival in Oral Cavity Squamous Cell Carcinoma. JAMA Otolaryngol Head Neck Surg 2016;142:430-7. [Crossref] [PubMed]
- Comparative Study on Classic Machine learning Algorithms. Medium: Towards data science. US. Available online: https://towardsdatascience.com/comparative-study-on-classic-machine-learning-algorithms-24f9ff6ab222
- Bayes T, Price R. An Essay towards Solving a Problem in the Doctrine of Chances. By the Late Rev. Mr. Bayes, F. R. S. Communicated by Mr. Price, in a Letter to John Canton, A. M. F. R. S. Philosophical Transactions of the Royal Society of London 1763;53:370-418. [Crossref]
- Dindo D, Demartines N, Clavien PA. Classification of surgical complications: a new proposal with evaluation in a cohort of 6336 patients and results of a survey. Ann Surg 2004;240:205-13. [Crossref] [PubMed]
- The Royal College of Pathologists. Dataset for histopathology reporting of nodal excisions and neck dissection specimens associated with head and neck carcinomas. London: The Royal College of Pathologists, 2013 and 2014. Available online: https://www.rcpath.org/resource-libraryhomepage/publications/cancer-datasets.html
- Tighe D, Lewis-Morris T, Freitas A. Machine learning methods applied to audit of surgical outcomes after treatment for cancer of the head and neck. Br J Oral Maxillofac Surg 2019;57:771-7. [Crossref] [PubMed]
- Tighe D, Fabris F, Freitas A. Machine learning methods applied to audit of surgical margins after curative surgery for head and neck cancer. Br J Oral Maxillofac Surg 2021;59:209-16. [Crossref] [PubMed]
- Tighe DF, Thomas AJ, Sassoon I, et al. Developing a risk stratification tool for audit of outcome after surgery for head and neck squamous cell carcinoma. Head Neck 2017;39:1357-63. [Crossref] [PubMed]
- Rasmussen TB, Ulrichsen SP, Nørgaard M. Use of risk-adjusted CUSUM charts to monitor 30-day mortality in Danish hospitals. Clin Epidemiol 2018;10:445-56. [Crossref] [PubMed]
- Sweeny L, Rosenthal EL, Light T, et al. Outcomes and cost implications of microvascular reconstructions of the head and neck. Head Neck 2019;41:930-9. [Crossref] [PubMed]
- Ho MW, Nugent M, Puglia F, et al. Results of flap reconstruction: categorisation to reflect outcomes and process in the management of head and neck defects. Br J Oral Maxillofac Surg 2019;57:935-7. [Crossref] [PubMed]
杨溪
上海交通大学医学院附属第九人民医院副主任医师、硕士生导师,口腔颌面外科学系秘书。主要研究专业方向为口腔癌的外科诊治,入选上海市青年拔尖人才培养计划、上海市卫健委医苑新星、中组部团中央第21批博士服务团(2021—2022年挂职海南省儋州市卫健委副主任兼海南西部中心医院副院长)。目前兼任中华口腔医学会口腔颌面-头颈肿瘤专业委员会委员及秘书、中国抗癌协会头颈肿瘤专业委员会委员、中国医促会颅底肿瘤专业委员会委员等,承担国家自然科学基金3项及省部级课题5项,发表SCI论文28篇。(更新时间:2023-02-16)
(本译文仅供学术交流,实际内容请以英文原文为准。)
Cite this article as: Tighe DF, McMahon J, Ho M, Sassoon I. Risk adjustment in audit of outcome after head and neck surgery applied to cumulative sum chart methodology to monitor of free flap failure. Front Oral Maxillofac Med 2022;4:5.