前言:我们精心挑选了数篇优质医学统计论文文章,供您阅读参考。期待这些文章能为您带来启发,助您在写作的道路上更上一层楼。

在各种医学期刊中,半数以上是疗效观察方面的论著。现择其较普遍存在的统计学问题,结合实验设计基本原则加以讨论。
(一)对照与均衡性测定
国内医学期刊有关临床疗效观察的文章甚多,不少杂志刊登了一些事先未设计对照的文章,其结论难以令人信服。如《用柴葛解肌汤治疗上呼吸感染》一文,报道治愈好转率为97.7%,因无对照,无法断定其效果如何,因此,治愈好转率中含有假像。
夜上海论坛 对照的方法虽有多种,但对照的基本原则是与实验组齐同可比,最好作均衡性测定。
夜上海论坛 (二)安慰剂与盲法试验
夜上海论坛 安慰剂与盲法试验是医研(主要是比较性研究)中常用的科研方法,结果准确、误差性小。安慰剂在形、量、色、味等要与实验药物一样,不能给受试者和执行者任何暗示。这种试验就是双盲法试验。但近年来,尚有人用改良的双盲法,此法分两期:第一期(公开期)试验有效者留,无效者弃。有效者进入第二期(双盲试验),以确定疗效是否系安慰剂的作用。在预防效果观察时可采用该法,临床上应用诸多困难,应视具体情况而定。
(三)样本含量与重复原则
没有足够样本的研究结果,是经不起重复试验的,有的论文凭少数病例观实的结果下结论,是不慎重的。如《重症肺炎并发DIC29例》一文,作者观察脑型患者3例,其中死亡一例,就得出“一般脑型病死率高达57%,本组脑型病死率较低,看来及早用肝素阻断DIC过程,对降低脑型病死率可能具有重要意义”的结论。因无对照,结论不可靠。
(四)随机分组与实验设计类型
随机化分组即每个实验对象有同等机会被抽样(分配)到各组去,而不受任何系统因素的影响。常用的实验设计类型有完全随机设计、自身对照设计、交义设计、配偶设计、随机区组设计、拉丁方设计、正文(析因)设计、序贯设计、半数效量实验设计(动物试验),回顾性与前赡性调查研究设计等。科研设计时应根据研究目的要求选择不同类型的实验设计方法,进行相应的统计处理。
合理的试验设计与统计处理的可信度存在直接联系,研究者在编写医学论文时应对医学研究设计方法进行说明。在进行试验设计时应遵循随机、对照、均衡和重复四大原则。在进行试验设计的时候通常会涉及到研究对象的选择,研究对象的分组及选择合理的检测指标三个方面的内容。医学论文就是通过对样本的研究来进行推断总体,找出其共性,得出结论。因此研究者在选择研究对象时应注意选择样本应具有一定数量,能反映出该事物的规律性特征,但又应注意例数不能太多,以免造成不必要的浪费。其选择的原则就是在保证试验结果可靠性的前提下选择最少的样本例数。研究者在选择样本对象后应对其基本特征进行详细的描述,比如患者的年龄、性别、病理分期、疾病诊断的标准等。此外在试验中所用到的试剂、仪器的型号、规格等都应作出说明,以供读者借鉴和做出判断。选定好研究对象后就要对其进行分组。在进行分组时研究者一般遵循统计学中的“随机分配”、“设立对照”以及“均衡”、“重复”的原则。随机化原则是提高组间均衡性的一个重要手段,也是资料分析时进行统计推断的前提。有对照才有比较,在进行组间比较时,应确定好处理因素与实验效应的关系。均衡性则是要使得对结果产生影响的非处理因素尽可能保持一致,这样才能保证对照的结果让人信服。观察实验效应的指标主要有主观指标与客观指标。正所谓主观指标就是通过问答的方式调查受试者自己判断的主观感受;而客观指标则是通过仪器来检验和测量所得出的结果。在进行试验设计时应选择客观性较强、高灵敏性和精确性的指标。
二、统计学方法的选择
统计学方法的正确选择是直接影响到论文结论可信度的重要依据,因此研究者在编写论文时应注意选择合适的统计学方法。不同的统计学方法应用的范围不同。研究者在编写医学论文时常根据论文研究的目的、资料类型、试验设计的方案、样品大小、水平数、特定条件、数据分布特征以及综合分析等来选择对应的统计方法,同时还要根据专业知识与资料的实际情况,结合统计学原则,灵活地选择。当定性资料正态分布时,研究者一般用均数和标准差来表示统计描述指标;当定性资料不符合正态分布时,则可选用中位数及级差来表示;当定量资料正态分布且组间方差齐时一般选用参数法,反之则选用非参数法。t检验一般适用于小样本(n<50)的定量资料且方差齐的两组数据之间的比较。其特点是在均方差不知道的情况下,可以检验样本平均数的显著性,大样本(n≥50)采用u检验;多个样本均数两两比较则用方差分析,如差异有统计学意义,可采用q检验;Dunnett检验则适用于多个实验组与一个对照组均数的比较。定性资料中,表现为互不相容的类别或属性,分为二分类和多类反应,如治疗结果为显著和好转的人数等,该种资料可选用字检验,大样本(n≥50)时采用u检验。如:患者的治疗结果评定为痊愈、显著有效、好转、无效或死亡。该种资料可选用秩和检验或u检验。总之,不论论文中选用的是哪种统计学方法,都要计算出检验值,然后再根据统计量值来判定P值的大小,结论一般描述为“差异有(无)统计学意义”。
三、常见统计学方法的误用分析及对策
夜上海论坛 1.统计方法误用。
最常见统计方法误用是对等级资料进行比较时应用秩和检验而误用卡方检验。例如:在评价采取不同治疗方法的两组急性脑血管病患者疗效中,治疗组显著有效、有效、无效三种分型分别为15例、10例、8例,对照组分别为14例、11例、9例。本资料例数较少,应选用等级比较的秩和检验,而有些作者却认为只要是率的比较就可以采用字检验。研究者在选择统计学方法时应根据相应的原则,对文章研究目的、资料类型、样品大小、水平数、数据分布特征等进行综合分析后,再来选择对应的统计方法。
2.选用检验方法错误。
在有些论文中,作者常将本应用方差分析和q检验的误用t检验。t检验一般适用于小样本(n<50)定量资料且方差齐的两组数据之间的比较,而方差分析及q检验主要用于对多个样本均数进行比较,几种不同治疗或处理方法等的同时比较。例如:在讨论中、西以及中西医结合治疗急性脑血管病时,两组患者的年龄、病程、病情严重程度等差别均无统计学意义,比较三组患者的一些指标变化。组间多重比较应用q检验,但文中作者采用的是t检验,对三组均数进行两两比较。这不仅造成了资料的利用率低,也增加了假阳性的概率,降低了试验结果的可信度。
四、结论表述中的统计学应用
夜上海论坛 概率分布(probabilitydistribution)是医学统计学中多种统计分析方法的理论基础。授课内容一般包括:二项分布、Possion分布、正态分布、t分布、F分布等。
夜上海论坛 借助概率分布常常可以帮助我们了解生命指标的特征、医学现象的发生规律等等。例如,临床检验中计量实验室指标的参考值范围就是依据正态分布和t分布的原理计算得到;许多医学试验的“阳性”结果服从二项分布,因此它被广泛用于化学毒性的生物鉴定、样本中某疾病阳性率的区间估计等;而一定人群中诸如遗传缺陷、癌症等发病率很低的非传染性疾病患病数或死亡数的分布,单位面积(或容积)内细菌数的分布等都服从Poisson分布,我们就可以借助Poisson分布的原理定量地对上述现象进行研究。
在生物信息学中概率分布也有一定应用。例如,Poisson分布可以用于基因(蛋白质)序列的相似性分析。被研究者广泛使用的分析工具BLAST(BasicLocalAlignmentSearchTool)能迅速将研究者提交的蛋白质(或DNA)数据与公开数据库进行相似性序列比对。对于序列a和b,BLAST发现的高得分匹配区称为HSPs。而HSP得分超过阈值t的概率P(H(a,b)>t)可以依据Poisson分布的性质计算得到。
夜上海论坛 二、假设检验
夜上海论坛 假设检验(hypothesis)是医学统计学中统计推断部分的重要内容。假设检验根据反证法和小概率原理,首先依据资料性质和所需解决的问题,建立检验假设;在假设该检验假设成立的前提下,采用适当的检验方法,根据样本算得相应的检验统计量;最后,依据概率分布的特点和算得的检验统计量的大小来判断是否支持所建立的检验假设,进而推断总体上该假设是否成立。其基本方法包括:u检验、t检验、方差分析(ANOVA)和非参数检验方法。
假设检验为医学研究提供了一种很好的由样本推断总体的方法。例如,随机抽取某市一定年龄段中100名儿童,将其平均身高(样本均数)与该年龄段儿童应有的标准平均身高(总体均数)做u检验,其检验结果可以帮助我们推断出该市该年龄段儿童身高是否与标准身高一致,为了解该市该年龄段儿童的生长发育水平提供参考。又如,医学中常常可以采用t检验、秩和检验比较两种药物的疗效有无差别;用2检验比较不同治疗方法的有效率是否相同等等。
夜上海论坛 这些假设检验的方法在生物实验资料的分析前期应用较多,但由于研究目的和资料性质不同,一般会对某些方法进行适当调整和结合。
夜上海论坛 例如,基于基因芯片实验数据寻找差异表达基因的问题。基因芯片(genechip)是近年来实验分子生物学的技术突破之一,它允许研究者在一次实验中获得成千上万条基因在设定实验条件下的表达数据。为了从这海量的数据中寻找有意义的信息,在对基因表达数据进行分析的过程中,找到那些在若干实验组中表达水平有明显差异的基因是比较基础和前期的方法。这些基因常常被称为“差异表达基因”,或者“显著性基因”。如果将不同实验条件下某条基因表达水平的重复测量数据看作一个样本,寻找差异表达基因的问题其实就可以采用假设检验方法加以解决。
夜上海论坛 如果表达数据服从正态分布,可以采用t-检验(或者方差分析)比较两样本(或多样本)平均表达水平的差异。
但是,由于表达数据很难满足正态性假定,目前常用的方法基于非参数检验的思想,并对其进行了改进。该方法分为两步:首先,选择一个统计量对基因排秩,用秩代替表达值本身;其次,为排秩统计量选择一个判别值,在其之上的值判定为差异显著。常用的排秩统计量有:任一特定基因在重复序列中表达水平M值的均值;考虑到基因在不同序列上变异程度的统计量,其中,s是M的标准差;以及用经验Bayes方法修正后的t-统计量:,修正值a由M的方差s2的均数和标准差估计得到。三、一些高级统计方法在基因研究中的应用
(一)聚类分析
夜上海论坛 聚类分析(clusteringanalysis)是按照“物以类聚”的原则,根据聚类对象的某些性质与特征,运用统计分析的方法,将聚类对象比较相似或相近的归并为同一类。使得各类内的差异相对较小,类与类间的差异相对较大1。聚类分析作为一种探索性的统计分析方法,其基本内容包括:相似性度量方法、系统聚类法(HierarchicalClustering)、K-means聚类法、SOM方法等。
聚类分析可以帮助我们解决医学中诸如:人的体型分类,某种疾病从发生、发展到治愈不同阶段的划分,青少年生长发育分期的确定等问题。
夜上海论坛 近年来随着基因表达谱数据的不断积累,聚类分析已成为发掘基因信息的有效工具。在基因表达研究中,一项主要的任务是从基因表达数据中识别出基因的共同表达模式,由此将基因分成不同的种类,以便更为深入地了解其生物功能及关联性。这种探索完全未知的数据特征的方法就是聚类分析,生物信息学中又称为无监督的分析(UnsupervisedAnalysis)。常用方法是利用基因表达数据对基因(样本)进行聚类,将具有相同表达模式的基因(样本)聚为一类,根据聚类结果通过已知基因(样本)的功能去认识那些未知功能的基因。对于基因表达数据而言,系统聚类法易于使用、应用广泛,其结果——系统树图能提供一个可视化的数据结构,直观具体,便于理解。而在几种相似性的计算方法中,平均联接法(AverageLinkageClustering)一般能给出较为合理的聚类结果2。
(二)判别分析
判别分析(discriminantanalysis)是根据观测到的某些指标的数据对所研究的对象建立判别函数,并进行分类的一种多元统计分析方法。它与聚类分析都是研究分类问题,所不同的是判别分析是在已知分类的前提下,判定观察对象的归属3。其基本方法包括:Fisher线性判别(FLD)、最邻近分类法(k-NearestNeighborClassifiers)、分类树算法(ClassificationTreeAlgorithm),人工神经网络(ANNs)和支持向量机(SVMs)。
判别分析常用于临床辅助鉴别诊断,计量诊断学就是以判别分析为主要基础迅速发展起来的一门科学。如临床医生根据患者的主诉、体征及检查结果作出诊断;根据各种症状的严重程度预测病人的预后或进行某些治疗方法的疗效评估;以及流行病学中某些疾病的早期预报,环境污染程度的坚定及环保措施、劳保措施的效果评估等。
夜上海论坛 在生物信息学针对基因的研究工作中,由于借助了精确的生物实验,研究者通常能得到基因(样本)的准确分类,如,基因的功能类、样本归结于疾病(正常)状态等等。当利用了这些分类信息时,就可以采用判别分析的方法对基因进行分类,生物信息学中又称为有监督的分析(SupervisedAnalysis)。例如,基因表达数据分析中,对于已经过滤的基因,前三种方法的应用较为简单。而支持向量机(SVMs)和人工神经网络(ANNs)是两种较新,但很有应用前景的方法。
(三)相关分析
夜上海论坛 相关分析(correlationanalysis)是医学统计学中研究两变量间关系的重要方法。它借助相关系数来衡量两变量之间的关系是否存在、关系的强弱,以及相互影响的方向。其基本内容包括:线性相关系数、秩相关系数、相关系数的检验、典型相关分析等。
我们常常可以借助相关分析判断研究者所感兴趣的两个医学现象之间是否存在联系。例如,采用秩相关分析我们发现某种食物中黄曲霉毒素相对含量与肝癌死亡率间存在正相关关系;采用线性相关方法发现中年女性体重与血压之间具有非常密切的正相关关系等等。
夜上海论坛 生物信息学中可以利用相关分析建立基因调控网络。如果将两个不同的基因在不同实验条件下的表达看作是两个变量,相关分析所研究的正是两者之间的调控关系。如采用线性相关系数进行两基因关系的分析时,其大小反应了基因调控关系的强弱,符号则反应了两基因是协同关系(相关系数为正),还是抑制关系(相关系数为负)。
四、意义
夜上海论坛 生物信息学不仅是医学统计学的研究前沿,更是医学研究由宏观向微观拓展的重要领域,其研究内容已逐渐为多数医学院校的学员了解和熟悉。而如何对新技术产生的生物实验数据进行准确合理的分析,却成为生物信息学研究的主要瓶颈之一。
在医学统计学课堂教学中引入生物信息学实例,而不仅仅局限于常见的医学、卫生领域的例子,将难以理解的统计理论和方法与前沿的生物实例相结合,拓宽了学员的视野,提高了学员的学习兴趣,更可以加深对所学知识的理解;与此同时,使学员掌握了生物实验数据的先进分析方法,扩大了学员的知识面,提高了他们今后开展医学科研工作的能力。