配对t检验与成组t检验优选方法研究
发表时间:2012-12-14 浏览次数:1025次
作者 单位
董秀玥 中国医学科学院肿瘤医院,中华医学杂志社《中华放射肿瘤学杂志》编辑部,北京100021
在日常科技论文编辑审校工作中,经常会遇到对两组数据的t检验。有的文章用了配对t检验,有的则用了成组t检验。为此上网“百度”一下“配对t检验与成组t检验的差别”,则发现了“关于配对t检验效能的研究”一文[1]。通过对该文详细的阅读,结合学习“实用医学统计方法”[2]和“医学统计应用错误的诊断与释疑”[3],并用简明统计10.31或Primer1.0软件反复演算后终于有了新体会。
1 t检验概述
t检验是针对符合t分布资料进行两组间差异比较的统计学方法,它只适用于符合正态分布或方差齐性的成组设计的定量资料[3]。虽然多组间比较的方差分析方法也要求资料为定量资料且符合正态分布或方差齐性,特别是当总体分析结果(F检验)有统计学意义时才能进行的多组间的两两比较,却使用了q检验,而不用t检验。这是因为t检验仅能用在单因素两水平设计(包括配对设计和成组设计)和单组设计的定量资料的均值检验场合[3]。如果将其适用范围扩大,无疑会降低t检验的效能,增加出错概率。使本应得出有统计学意义的结果变为无统计学意义,特别是F检验已经得出有统计学意义结果后,就更应重视多组间的两两比较的结果。如果只是直接就用t检验进行两两比较,那么得出的结果不仅无法分析各组数据之间的交互作用大小,而且容易得出错误的结论。
在科技论文统计方法中,由于作者和编辑对统计方法的不断重视,除了比较落后的地区或对统计学不重视的人外,真正出现上述低级错误的文章已经比较少见了,相对比较多见的还是配对t检验与成组t检验如何选择的问题。这是因对配对t检验与成组t检验的了解不是很深造成的,只是在粗略知道配对t检验效能比成组t检验高后多选择配对t检验出现的。其实这样不经过对资料的分析就贸然采用配对t检验,有时得出的结果反而事与愿违,表现为配对t检验的结果反而比成组t检验的检验效能低[1]。另外,当两组资料样本数量不同时很容易就用成组t检验,而两组资料样本数量相等时自然就用配对t检验。这样简单选择也是不对的,因为在两组资料样本数量相等的资料中有的不是配对设计,只是简单的样本数量相等;而在两组资料样本数量不同的资料中,有的是配对设计,只不过没有对缺乏数据的对应项数据进行舍弃。
2 t检验比较方法与结果
首先,应对要比较的两组资料分别进行正态性检验或方差齐性检验。其次,应对要比较的两组数据进行Pearson法相关分析。最后,分别用两种t检验方法进行检验,并比较结果的优劣。笔者通过对多组数据的反复演算后发现,相关系数与两种t检验结果存在明确的关系,详见以下示例。
例1 比较15例心源性休克患者治疗前和治疗后2h收缩压有无差别,数据见表1[2]。表1 15例患者治疗前后收缩压 (1)正态性检验:治疗前数据结果:偏度系数=-0.93,标准误=0.58,u=-1.60,P=0.109;峰度系数=0.18,标准误=1.12,u=0.16,P=0.871。结论: 按α=0.05水准,认为该资料服从正态分布。治疗后数据结果:偏度系数=1.24,标准误=0.58,u=2.14,P=0.032;峰度系数=0.69, 标准误=1.12,u=0.62,P=0.536。结论: 按α=0.05水准,认为该资料不服从正态分布。
(2)相关分析:r=-0.33,P=0.224。
(3)两种t检验:成组t检验结果为t=-6.99,P=0.000;配对t检验结果为t=-6.05,P=0.000。根据|t|值越大P值越小的规律可看出成组t检验效能高于配对t检验。
例2 比较9例慢性苯中毒患者治疗前后白细胞总数有无差异[1],数据见表2。表2 9例慢性苯中毒患者者治疗前后白细胞总数(1)正态性检验:治疗前数据结果:偏度系数=0.448,标准误=0.72,u=0.62,P=0.532;峰度系数=-0.963,标准误=1.40,u=-0.69,P=0.492。结论: 按α=0.05水准,认为该资料服从正态分布。治疗后数据结果:偏度系数=1.08,标准误=0.72,u=1.51,P=0.132;峰度系数=0.93,标准误=1.40,u=0.67,P=0.505。结论: 按α=0.05水准,认为该资料服从正态分布。
(2)相关分析:r=-0.17,P=0.665。
(3)两种t检验:成组t检验结果为t=-0.58,P=0.572;配对t检验结果为t=-0.53,P=0.608。比较P值可看出成组t检验效能高于配对t检验。
例3 比较癫痫患者与正常人血浆Cu浓度有无差异[2],数据见表3。
(1)正态性检验:癫痫患者数据结果:偏度系数=0.09,标准误=0.58,u=0.15,P=0.879;峰度系数=0.26,标准误=1.12,u=0.23,P=0.817。结论: 按α=0.05水准,认为该资料服从正态分布。正常人数据结果:偏度系数=0.88,标准误=0.58,u=1.52,P=0.128;峰度系数=1.02,标准误=1.12,u=0.91,P=0.362。结论: 按α=0.05水准,认为该资料服从正态分布。
(2)相关分析:r=0.35,P=0.197。
(3)两种t检验:成组t检验结果为t=3.01,P=0.005;配对t检验结果为t=3.70,P=0.002。比较P值可看出配对t检验效能高于成组t检验。
例4 比较8例矽肺患者治疗前后血清黏蛋白浓度有无差异[4],数据见表4。表3 15例癫痫患者与正常人血浆Cu浓度表4 8例矽肺患者治疗前后血清白蛋白
(1)正态性检验:治疗前数据结果:偏度系数=-2.202,标准误=0.75,u=-2.92,P=0.003;峰度系数=4.93,标准误=1.48,u=3.33,P=0.001。结论: 按α=0.05水准,认为该资料不服从正态分布。治疗后数据结果:偏度系数=0.44,标准误=0.75,u=0.59,P=0.555;峰度系数=-0.37,标准误=1.48,u=-0.25,P=0.801。结论: 按α=0.05水准,认为该资料服从正态分布。
(2)相关分析:r=0.66,P=0.073。
(3)两种t检验:成组t检验结果为t=4.38,P=0.000;配对t检验结果为t=6.63,P=0.000。根据|t|值越大P值越小的规律可看出配对t检验效能高于成组t检验。
例5 比较两组完全正相关数据的t检验结果,数据见表5。
(1)正态性检验:x轴数据结果:偏度系数=0.00,标准误=0.75,u=0.00,P=1.000;峰度系数=-1.20,标准误=1.48,u=-0.81,P=0.418。结论: 按α=0.05水准,认为该资料服从正态分布。y轴数据结果:偏度系数=0.00,标准误=0.75,u=0.00,P=1.000;峰度系数=-1.20,标准误=1.48,u=-0.81,P=0.418。结论: 按α=0.05水准,认为该资料服从正态分布。
(2)相关分析:r=1.00,P=0.000。
(3)两种t检验:成组t检验结果为t=-0.41,P=0.689;配对t检验结果为t=999.99,P=0.000。比较P值可看出配对t检验效能远远高于成组t检验。表5 8对完全正相关数据表6 8对完全负相关数据
序号x轴y轴1116231435124710598611671348152平均值8.0±4.99.0±4.9
(1)正态性检验:x轴数据结果:偏度系数=0.00,标准误=0.75,u=0.00,P=1.000;峰度系数=-1.20,标准误=1.48,u=-0.81,P=0.418。结论: 按α=0.05水准,认为该资料服从正态分布。y轴数据结果:偏度系数=0.00,标准误=0.75,u=0.00,P=1.000;峰度系数=-1.20,标准误=1.48,u=-0.81,P=0.418。结论: 按α=0.05水准,认为该资料服从正态分布。
(2)相关分析:r=-1.00,P=0.000。
(3)两种t检验:成组t检验结果为t=4.38,P=0.000;配对t检验结果为t=-0.29,P=0.781。比较P值可看出成组t检验效能远远高于配对t检验。
例7 比较两组极端数据的t检验结果,数据见表7。
(1)正态性检验:x轴数据结果:偏度系数=0.00,标准误=0.75,u=0.00,P=1.000;峰度系数=-1.20,标准误=1.48,u=-0.81,P=0.418。结论: 按α=0.05水准,认为该资料服从正态分布。y、y'轴数据结果:偏度系数=0.00,标准误=0.75,u=0.00,P=1.000;峰度系数=3.50,标准误=1.48,u=2.36,P=0.018。结论: 按α=0.05水准,认为该资料不服从正态分布。
(2)相关分析:r=0.76,P=0.027;r=-0.76,P=0.027。
(3)两种t检验:成组t检验结果均为t=2.31,P=0.037;配对t检验结果分别为t=2.29,P=0.056;t=2.33,P=0.053。比较P值可看出两种情况下成组t检验效能均高于配对t检验。表7 8对极端数据表8 8对极端数据
(1)正态性检验:y轴数据结果:偏度系数=0.00,标准误=0.75,u=0.00,P=1.000;峰度系数=-1.20,标准误=1.48,u=-0.81,P=0.418。结论: 按α=0.05水准,认为该资料服从正态分布。x、x'轴数据结果:偏度系数=0.00,标准误=0.75,u=0.00,P=1.000;峰度系数=3.50,标准误=1.48,u=2.36,P=0.018。结论: 按α=0.05水准,认为该资料不服从正态分布。
(2)相关分析:r=0.76,P=0.027;r=-0.76,P=0.027。
(3)两种t检验:成组t检验结果均为t=2.31,P=0.037;配对t检验结果分别为t=-2.29,P=0.056;t=-2.33,P=0.053。比较P值可看出两种情况下成组t检验效能均高于配对t检验。
例9 比较两组极端数据的t检验结果,数据见表9。
(1)正态性检验:x轴数据结果:偏度系数=0.00,标准误=0.72,u=0.00,P=1.000;峰度系数=-1.71,标准误=1.40,u=-1.22,P=0.221。结论: 按α=0.05水准,认为该资料服从正态分布。y轴数据结果:偏度系数=0.00,标准误=0.72,u=0.00,P=1.000;峰度系数=-1.71,标准误=1.40,u=-1.22,P=0.221。结论: 按α=0.05水准,认为该资料服从正态分布。
(2)相关分析:r=1.00,P=1.000。
(3)两种t检验:成组t检验结果为t=-4.65,P=0.000;配对t检验结果为t=-4.65,P=0.002。比较P值可看出成组t检验效能与配对t检验趋于相等。表9 9对极端数据
3 讨论
例1资料虽然从正态性检验结果显示治疗后资料不服从正态分布,但从治疗后资料的标准差来看也相对较小,因此两组资料有差异的结果还是可信的。相关分析结果显示两组数据间相关性差(r=-0.33,P=0.224),但两组资料显示成组t检验效能高于配对t检验。
例2资料正态性检验结果显示两组资料均服从正态分布,相关分析结果显示两组数据间相关性也差(r=-0.17,P=0.665),但成组t检验效能也高于配对t检验。
例3资料正态性检验结果显示两组资料均服从正态分布,相关分析结果显示两组数据间相关性也差(r=0.35,P=0.197),但此时r>0,配对t检验效能高于成组t检验。
例4资料正态性检验结果显示治疗前数据也不服从正态分布,并且其标准差相对也较大,但由于两组数据的平均值相差较大,因此结果也是令人相信的。相关分析结果显示两组数据间相关性接近有统计学意义水平(r=0.66,P=0.073),但此时也是r>0,配对t检验效能也高于成组t检验。
例5资料为极限情况,两组资料当然均服从正态分布,相关分析结果也显示呈完全正相关(r=1.00,P=0.000),此时虽然r>0,但P<0.05,配对t检验效能不仅远高于成组t检验,还出现了两种完全相反的统计学结果。
例6资料也为极限情况,两组资料当然均服从正态分布,相关分析结果也显示呈完全负相关(r=-1.00,P=0.000),此时虽然P<0.05,但r<0,成组t检验效能不仅远高于成组t检验,还出现了两种完全相反的统计学结果。
例7资料属于极端情况下结果,y、y'轴数据标准差因接近0(y轴数据接近恒量),故资料不服从正态分布,但x轴数据服从正态性。每两组数据的标准差虽然相差也较大,但平均值相差也较大,因此结果也令人信服。此时无论r>0还是r<0,成组t检验效能均高于配对t检验。
例8资料也是极端情况下结果,但与例7的x、y数据正相反,x、x'轴数据标准差因接近0(x轴数据接近恒量),故资料不服从正态分布,但y轴数据服从正态性。每两组数据的标准差虽然相差也较大,但平均值相差也较大,因此结果也令人信服。此时无论r>0还是r<0,成组t检验效能也均高于配对t检验。
例9资料也是极端情况下结果,从散点图上看应属于无相关性(r=0)[2],但不知为何结果显示为r=1.00,但P=1.000(理应是r=1.00时P=0.000,如例5),此时P值显得相当重要。此时x、y轴数据均服从正态性,且成组t检验效能与配对t检验趋于相等。
4 结论
正态性检验的出发点有二个:一是为t检验结果的可信性提供基本依据,即不服从正态分布的数据可能会对t检验结果有影响,因为t检验的适宜条件是服从正态分布的定量资料;二是为相关性结果的可信性提供一定基础,即不服从正态分布的数据可能会对相关性结果有影响,因为Pearson法的适宜条件是两组数据均服从正态分布。从例1与例2结果不难发现,一组资料不服从正态分布时与两组资料都服从正态分布时两种t检验比较结果、Pearson相关分析结果一致。因此认为两组资料正态性分布差异对本研究结果影响不大或无影响。
基于以上观点和讨论过程笔者认为:决定优选t检验的决定因素不在于相关性好差,而主要取决于r值。当r>0时,无论P>0.05(例3、4)还是P<0.05(例5),配对t检验效能均优于成组t检验;当r<0,无论P>0.05(例1、2)还是P<0.05(例6),成组t检验效能均优于配对t检验。虽然例7、8结果显示r值变化(r>0或r<0)对结果无影响,但其属于极端情况下的结果(x或y轴数据接近恒量),因此不具有广泛的代表性。例9结果本应为无相关性,即r=0,虽显示r=1.00,但P=1.000。因此结果还是显示无相关时成组t检验效能与配对t检验效能趋于相等(例9),这进一步证实了陈佩珍和陆守曾[2]报道的结果(虽然形式上不同,即r=1.00而非r=0,但结合P值后的结果还是一致的)。另外,本研究结果还得出如下结论:当|r|值越接近1时,两者差别越明显;也就是说当两组数据相关性越好时,越要重视两种t检验方法选择,否则会得出错误结论。
【参考文献】
1 陈佩珍,陆守曾.关于配对t检验效能的研究. 中国卫生统计,1996,13:19~22.
2 李晖,编著. 实用医学统计方法.南京:河海大学出版社,1989,152~164.
3 胡良平,主编.医学统计应用错误的诊断与释疑. 北京:军事医学科学出版社,1999,30~31.
4 陈彬,主编. 写作统计学——作者·编者·审者常用医学统计方法.成都:四川科学技术出版社,1996,19.