非小细胞肺癌患者血清蛋白质标记物的检测
发表时间:2010-04-29 浏览次数:503次
作者:杨洋 赵松 王建军 刘东雷 朱登言 作者单位:华中科技大学同济医学院附属协和医院胸外科,湖北 武汉 430022
【摘要】 目的 检测非小细胞肺癌患者(NSCLC)血清蛋白质,筛选特异的蛋白质标记物,构建用于NSCLC早期诊断的血清蛋白质指纹图谱模型。方法 应用表面增强激光解析电离飞行时间质谱(SELDITOFMS)技术检测235例血清标本的蛋白质质谱,并结合生物信息学方法(支持向量机)分析数据。结果 筛选出3个质荷比(m/z)位于6628,9191和11412的蛋白质标记物,构建NSCLC早期诊断模型。联合3种潜在蛋白质标记物,经留一法交叉验证,区分NSCLC和正常健康对照的敏感性为98%,特异性为96%。盲法验证显示,该模型诊断NSCLC的敏感性为96.56%,特异性为94.79%。结论 SELDITOFMS结合支持向量机建立NSCLC血清蛋白质指纹图谱模型是早期诊断NSCLC的一种敏感性高、特异性强的新方法,值得进一步研究与应用。
【关键词】 非小细胞肺癌;诊断;支持向量机;生物标记物
肺癌是当今世界上死亡率最高的肿瘤,大约占所有恶性肿瘤死亡人数的25%〔1〕。非小细胞肺癌(NSCLC)约占肺癌发病率的80%〔2〕。早期诊断、及时合理的治疗对提高NSCLC患者长期生存率及预后具有重要意义〔3〕。现阶段临床上诊断NSCLC主要依靠胸部X线摄像、CT、细胞穿刺学、支气管镜检查等,多数病例虽可确诊,但因未能及早发现而误失治疗时机影响预后〔4〕。蛋白质组学的发展为NSCLC的早期诊断提供了新的思路和技术平台〔5〕。本研究应用蛋白质组学的表面增强激光解析电离飞行时间质谱(SELDITOFMS)技术和生物信息学的方法检测NSCLC患者、肺部良性疾病患者及正常健康人的血清蛋白质组,筛选出特异的蛋白质标记物,探讨用于NSCLC早期诊断的血清蛋白质指纹图谱模型,同时评价该模型对NSCLC诊断的应用价值。
1 对象与方法
1.1 对象
血清样本共235例,来自华中科技大学附属协和医院及郑州大学第一附属医院胸外科。其中NSCLC患者血清112例(鳞状上皮细胞癌56例,腺癌45例,未分化型大细胞癌11例),肺结核患者血清25例,肺炎患者血清30例,正常健康志愿者血清68例。本实验经本院伦理委员会批准,受试者均签署知情同意书。112例NSCLC患者(Ⅰ期20例,Ⅱ期36例,Ⅲ期37例,Ⅳ期19例)中,男78例,女34例,中位年龄59岁。所有NSCLC均经2位病理专家证实。肺部良性疾病和正常健康组与NSCLC组年龄、性别相匹配。外周静脉血标本均于清晨空腹时抽取,室温下静置1 h后3 000 r/min离心10 min,收集血清样本,储存于-80℃保存备用。
1.2 主要试剂和仪器
3〔3(胆酰胺丙基)二甲氨基〕丙磺酸内盐(CHAPS),尿素,二硫苏糖醇(DTT),醋酸钠缓冲液,芥子酸(SPA)均购自美国Sigma公司。蛋白芯片生物系统(Ciphergen PBS Ⅱ+ SELDITOFMS)和弱阳离子交换芯片WCX2均购自美国Ciphergen Biosystems公司。
1.3 蛋白芯片技术路线
血清标本冰浴解冻,4 ℃离心;取96孔板置冰盒上,每孔加U9(9 MUrea,2% CHAPS,1% DTT)10 μl,血清5 μl,4 ℃层析柜600 r/min振荡30 min。震荡结束前15 min做芯片预处理,芯片装入Bioprocessor中,记录芯片号;每孔加醋酸钠(100 mmol/L,pH4) 200 μl,层析;U9处理后的96孔板置冰上,排枪加醋酸钠 185 μl,层析;取已处理的样本100 μl加入到芯片上,层析,甩去残液,快速拍干。加醋酸钠 200 μl,振荡,甩掉,拍干。200 μl去离子水200 μl冲洗、甩干。芯片风干后,每孔分2次加入50%饱和SPA 1 μl,干燥后上机待测。
1.4 数据收集与处理
用已知分子量的蛋白芯片将SELDITOFMS系统校正到分子量误差<0.1%。将结合好蛋白质的WCX2蛋白质芯片用质谱阅读仪分析。分析参数:激光强度为170,灵敏度为6,每个样本收集总点数140次。收集数据范围1 000~30 000,优化范围2 000~20 000。以质控血清作重复性检测,其峰值大小和强度变异系数为0.05%和19.7%。所有数据用Proteinchip Software 3.1校正。蛋白芯片数据分析软件包分析,离散小波分析去除噪音,减掉基线。用局部极值的方法找出样本各自的峰,并过滤掉信噪比<2的峰。以10%为最小阈值做聚类分析,将各个样本中质荷比(m/z)差异<0.3%的峰聚为一类。
支持向量机分类器设置〔4〕:采用径向基核函数,Gamma值设为0.6,罚分函数(C)设为19。特征向量的选择采用统计过滤结合模型依赖性筛选方法,建立判别模型,用留一法交叉验证评估模型的判别效果。采用判别分析方法处理质谱数据并经统计学处理得到的结果进行验证。
1.5 统计学方法
质谱原始数据经过滤噪音,聚类分析处理后,对初步筛选出的M/Z峰数据做Wilconxon秩和检验,并分别对NSCLC组与正常健康对照组及肺部良性疾病组的质谱数据进行t检验。检验标准取α=0.01。
2 结果
2.1 NSCLC诊断模型的构建
NSCLC组(60例)和正常健康对照组(40例)的质谱数据经过初步过滤筛选得到235个m/z峰,对其相对强度做Wilconxon秩和检验分析得到P值<0.01的m/z峰22个。从差异显著蛋白质峰的任意组合中,采用支持向量机筛选出预测值的youden指数最高的组合模型。筛出m/z位于6628,9191和11412的蛋白标记物3个(表1),其中m/z位于6628的蛋白质标记物在NSCLC组中低表达,在正常对照组中高表达;m/z位于9191和11412的蛋白标记物在NSCLC组中呈高表达,在正常对照组中低表达(图1)。联合两个潜在标记物作为输入值,留一法交叉检测,在测试集上判别模型的特异性为98%,敏感性为96%。此外,6628蛋白标记物的表达丰度随着肿瘤分期的增高而逐渐降低,9191和11412的蛋白标记物的表达则随着肿瘤分期的增高而逐渐增加(图2)。表1 NSCLC患者组与正常健康对照组的m/z位于9191、6628及11412的比较(略)
2.2 NSCLC诊断模型的盲法验证
为了验证上述诊断模型的准确性和有效性,本研究采用52例NSCLC血清标本及非肺癌血清标本(25例肺结核、30例肺炎患者及28例正常健康人)进行盲法验证。在盲法测试中,该诊断模型区分NSCLC患者与非肺癌对照的敏感性为96.56%,特异性为94.79%,阳性预测值为95.0%。
3 讨论
目前对恶性肿瘤蛋白质标记物的检测已受到高度关注,蛋白质标记物的检测技术很可能成为未来肿瘤诊断的主要手段。Ciphergen公司研发的SELDITOFMS技术是近几年来用的比较广泛的一项蛋白质组学技术,应用基因芯片的设计原理,把层析、质谱等技术合理的与蛋白质芯片结合,可检测出传统方法很难鉴定的蛋白质和多肽。这一方法具有样品用量小、操作简便、灵敏度高、高通量等优点〔6~8〕,已成功被应用于卵巢癌、前列腺癌、胰腺癌、大肠癌、乳腺癌等恶性肿瘤的诊断、肿瘤标记物的筛选及其他蛋白质组学研究中〔9~13〕。然而通过这一方法获得的大量数据是传统数据收集手段所难以完成的,因此在数据处理中就客观的需要生物信息学技术的参与。
支持向量机(SVM)是Vapnik等提出的一种以统计学理论为基础的新的机器学习方法。通过学习算法,SVM可以自动寻找出那些对分类有较好区分能力的支持向量,优于决策树及人工神经网络等传统方法,有较好的适应能力和较高的分准率。很好地解决了模式识别中小样本模型的推广性、模型选择等问题〔14,15〕。本实验数据处理中,通过离散小波分析去除噪音,用局部极值的方法找出样本质荷峰,以10%为最小阈值对质荷峰进行聚类。Wilconxon秩和检验分析根据P值评价各个峰对区分两类样本的相对重要性。将差异显著的质荷峰随机组合输入SVM,筛选标记物,建立判别模型。用留一法交叉验证评估模型。因每次的测试集都是独立于用来训练的样本,完全做到盲法测试。经过以上多步骤、结合多种方法处理数据,确保了所建模型的推广性和预测的准确性。
本实验应用SELDITOFMS技术结合生物信息学方法,发现了NSCLC患者血清中可与正常健康人、肺部良性疾病区分的特异性蛋白质标记物,检测该蛋白质标记物有利于NSCLC的早期诊断。在NSCLC组与正常对照组中,发现m/z值为6628,9191和11412处3个峰的同时变化在NSCLC组和正常对照组中具有明确的诊断意义。m/z位于6628的蛋白质标记物在NSCLC患者组中低表达,在正常对照组中高表达;m/z位于9191,11412的蛋白标记物在NSCLC组中高表达,在正常对照组中低表达,特异性为98%,敏感性为96%。为了验证上述诊断模型的准确性和有效性,又进行了盲法验证。在盲法测试中,该诊断模型区分NSCLC患者与非肺癌对照的敏感性为96.56%,特异性为94.79%,阳性预测值为95.0%,显示出该诊断模型在大规模筛查、NSCLC的鉴别诊断及定性诊断中具有良好的应用前景。本实验构建的诊断模型经测试显示了其优越的诊断价值,为NSCLC的早期诊断提供了新方法,值得进一步的研究与应用。
【参考文献】
1 Youlden DR,Cramb SM,Baade PD.The international epidemiology of lung cancer:geographical distribution and secular trends〔J〕.J Thorac Oncol,2008;3(8):81931.
2 Molina JR,Yang P,Cassivi SD,et al.Nonsmall cell lung cancer:epidemiology,risk factors,treatment,and survivorship〔J〕.Mayo Clin Pro,2008;83(5):58494.
3 Mulshine JL,Sullivan DC.Clinical practice.Lung cancer screening〔J〕.N Engl J Med,2005;352(26):271420.
4 Gudbjartsson T,Smáradottir A,Skúladóttir H,et al.Lung cancer〔J〕. Laeknabladid,2008;94(4):297311.
5 Maurya P,Meleady P,Dowling P,et al.Proteomic approaches for serum biomarker discovery in cancer〔J〕.Anticancer Res,2007;27(3A):124755.
6 Espejel F,Roa JC.Surface enhanced laser desorption/ionization (SELDI):proteomics technology and its application in oncology〔J〕.Med Clin (Barc),2008;131(8):3127.
7 Whelan LC,Power KA,McDowell DT,et al.Applications of SELDIMS technology in oncology〔J〕.J Cell Mol Med,2008;12(5A):153547.
8 Reymond MA,Schlegel W.Proteomics in cancer〔J〕.Adv Clin Chem,2007;44:10342.
9 Wang J,Zhang X,Ge X,et al.Proteomic studies of earlystage and advanced ovarian cancer patients〔J〕.Gynecol Oncol,2008;111(1):11119.
10 Skytt A,Thysell E,Stattin P,et al.SELDITOF MS versus prostate specific antigen analysis of prospective plasma samples in a nested casecontrol study of prostate cancer〔J〕.Int J Cancer,2007;121(3):61520.
11 Liu D,Cao L,Yu J,et al.Diagnosis of pancreatic adenocarcinoma using protein chip technology〔J〕.Pancreatology,2008;9(12):12735.
12 Hundt S,Haug U,Brenner H.Blood markers for early detection of colorectal cancer:a systematic review〔J〕.Cancer Epidemiol Biomarkers Prev,2007;16(10):193553.
13 Goncalves A,Bertucci F,Birnbaum D,et al.Protein profiling SELDITOF and breast cancer:clinical potential applications〔J〕.Med Sci,2007;23(1):236.
14 Byvatov E,Schneider G.Support vector machine applications in bioinformatics〔J〕.Appl Bioinform Atics,2003;2(2):6777.
15 Jorissen RN,Gilson MK.Virtual screening of molecular databases using a support vector machine〔J〕.J Chem Inf Model,2005;45(3):54961.