本文目录
生物统计学常用统计分析方法系列文章之一:概率分布
生物统计学常用统计分析方法系列文章之二:描述性统计分析
生物统计学常用统计分析方法系列文章之三:LongitudinalData分析的常见方法
生物统计学常用统计分析方法系列文章之四:单样本t检验
生物统计学常用统计分析方法系列文章之五:两样本t检验(TheTwo-Samplet-Test)
生物统计学常用统计分析方法系列文章之六:单因素方差分析(One-WayANOVA)
生物统计学常用统计分析方法系列文章之七:两因素方差分析(Two-WayANOVA)
生物统计学常用统计分析方法系列文章之八:重复测量数据分析
生物统计学常用统计分析方法系列文章之九:PROCMIXED(MixedModel混合效应模型)
生物统计学常用统计分析方法系列文章之十:交叉设计的统计分析方法
生物统计学常用统计分析方法系列文章之十一:线性回归(LinearRegression)
生物统计学常用统计分析方法系列文章之十二:协方差分析(AnalysisofCovariance,ANCOVA)
生物统计学常用统计分析方法系列文章之十三:WilcoxonSigned-RankTest
生物统计学常用统计分析方法系列文章之十四:Chi-SquareTest
生物统计学常用统计分析方法系列文章之一:概率分布
统计分析可以分为描述性统计分析(descriptivestatistics)和推断性统计分析(inferentialstatistics)。对于推断性统计分析而言,要抓住其本质,就必须对其背后最根本的概率分布(probabilitydistribution)有个清楚的理解。概率分布是很多统计推断方法的基础,最典型的例子就是正态分布,很多统计检验方法都会涉及到正态分布。而有些统计检验则是直接建立在统计量值服从某种概率分布的基础上的,比如t检验的t值服从t分布,方差分析的F值服从F分布,卡方检验的卡方值服从卡方分布等。Randomvariable(随机变量)假设我们掷硬币,那么出现的结果有两种:正面或反面。我们换个角度,把正面和反面的结果与数字联系起来,将结果数量化,比如我们掷0次硬币,出现5正5反。这时我们就把掷硬币的结果(正或反)与出现正或反结果的数字联系起来了。而随机变量就是一种function,它把每一种结果都与一个唯一的数值联系起来。对于随机变量的定义,版本有很多,我们来看一下其中的一个定义:一个随机试验的可能结果(称为基本事件)的全体组成一个基本空间Ω。随机变量X是定义在基本空间Ω上的取值为实数的函数,即基本空间Ω中每一个点,也就是每个基本事件都有实轴上的点与之对应。随机变量一般可分为离散型随机变量(discrete)和连续性随机变量(continuous)。所谓离散型随机变量是指随机变量X的取值是有限个或可列无限个。比如我们掷硬币,我们定义随机变量是正面的次数,那么我们掷0次,那么X的取值只能是0,,2,3,4,5,6,7,8,9,0,这时我们就称X是个离散型随机变量。所谓连续性随机变是指X可以取某一区间的所有值。比如,我们定义X为收缩压血压值,理论上来说X可以取任意非负值,此时X就是个连续性随机变量。概率分布(probabilitydistribution)TheprobabilitydistributionassociatedwiththerandomvariableXdescribesthelikelihoodofobtainingcertainvaluesorrangesofvaluesoftherandomvariable.概率分布是描述随机变量取某个特定的值或取某一区间范围内值的概率。对应着概率分布的定义,取某个特定的值或取某一区间内的值,或者说对应着离散型变量或连续性变量,概率分布可以分为离散型概率分布和连续性概率分布。常见的离散型概率分布有二项分布(BinomialDistribution)和泊松分布(PoissionDistribution)。常见的连续性概率分布,我们一般称为ProbabilityDensityFunction,包括正态分布(NormalDistribution)、t分布(tDistribution)、卡方分布(Chi-SquareDistribution)、F分布(FDistribution)等。一提到概率分布,我们一般第一想到的便是正态分布,有人说没有正态分布就没有统计,由此正态分布的普遍性和重要性不言而喻。那么为什么正态分布如此普遍和重要呢?首先,很多情况下,自然界很多东西都是自然呈正态分布的,而更重要的原因在于中心极限定理(centrallimittheorem)的应用。所谓中心极限定理是指当样本量足够大时,无论其总体分布如何,其样本均数趋于正态分布。中心极限定理为正态分布的普遍应用提供了最为坚实的理论基础。而对于上则几百例病人的临床试验来说,正态分布更是找到了其适合生长的最好土壤。另外,我们常用的一些统计方法都是依赖于正态分布的:()一些统计方法如t检验和方差分析,其应用的前提条件就是要求数据服从正态分布(2)而对于一些统计模型来说,比如线性模型,往往要求其残差服从正态分布。关于正态分布在统计模型中的应用,有这样一段论述:正态分布对统计学家从某种角度来说是“垃圾的分布”。当向一个统计学家问什么是正态分布时,他会回答:当一个变量有多个、解释不清的因素决定,而且每个因素的作用都不强,于是变量就呈现正态分布。一个随机变量中有两种成分,一是非随机成分,一是随机成分。建模把非随机部分用模型(函数形式)来表达,纯随机的成分就成了残差。回归不论线性与否,残差是正态,说明模型不能表达的成分确实是“垃圾”,不能再处理的。但是,我们把数据馈入模型,结果发现残差非正态(或并非白噪音),最理想的办法是修改模型,使其符合正态假设。回归其实就是在杂乱的信息中,把有规律的信息用模型表达出来,而无规律的白噪声滤掉。生物统计学常用统计分析方法系列文章之二:描述性统计分析Thepurposeofthefieldofstatisticsistocharacterizeapopulationbasedontheinformationcontainedinasampletakenfromthatpopulation。上述论述中,包含的三个要素:population、samples和characterization。characterization有两种,一种是descriptivestatistics(描述性统计分析),一种是inferentialstatistics(推断性统计分析)。具体到我们的临床试验中,描述性统计分析占到了我们最后统计分析报告的绝大部分,这是因为除了事先有检验假设的一些终点的分析会用到推断性统计分析外,几乎所有的人口学和基线变量的总结、疗效数据的总结、安全性数据的总结都要用到描述性统计分析。具体的描述性统计分析,根据不同的数据类型有不同的描述方式,对于连续性变量来说,我们最常用到的是均数、标准差、中位数、最小值和最大值;对于分类型变量来说,主要用到的是频数表的方式即频数及百分比;对于timetoevent数据来说,我们则最主要基于Kaplan-Meier来进行统计描述。此外,除了用表格的形式对临床试验数据进行描述性总结之外,我们还会用到一些figures来进行统计描述,最常见的如LinePlot,BarChart,BoxPlot,K-Mcurve等。我们在统计分析计划或研究方案中的统计分析部分,特别是在统计分析的一般原则中会对描述性统计分析常有以下类似的描述:对于连续型变量,将列出未缺失的受试者个数、均数、标准差、中位数、最小值和最大值。对于分类变量,将以频数表的形式(频数和百分数)列出。而有些比较详细的统计分析计划会对各描述性统计分析统计量的小数位数加以规定,从而使table更加标准化,当然小数位数的规定也不是绝对统一的标准,下面的描述供大家参考:对于连续型变量,将列出未缺失的受试者个数、均数、标准差、中位数、最小值和最大值。最小值和最大值的小数位数将与数据库中记录的原始数据保持一致。均数、中位数和标准差将比数据库中记录的原始数据多保留一位小数,但最多不超过四位小数。对于分类变量,将以频数表的形式(频数和百分数)列出,百分数将保留一位小数。描述性统计分析贯穿于临床试验统计分析的始终,统计分析的最基本最重要的是,首先是必须准确地对数据本身以及对数据的分布有一个清楚的描述和总结,即使通过各种检验方法甚至统计模型来进行统计推断和比较,但在这一步之前,需要对数据进行一个描述性总结,列出治疗各组之间的均值、标准差之类的或者频数、百分比之类的统计量,然后再采用适当的统计推断检验方法进行组间的比较。一份完整的统计分析计划的统计分析方法一般可以分为三部分:受试者情况、疗效分析和安全性分析。、受试者情况()受试者分布:在这部分中,我们往往会对入组人数、随机化人数、完成试验的人数以及未完成试验的人数,甚至参加各个访视的人数加以总结。另外,我们会对未完成试验的受试者的原因进行总结。所有这些总结都会用到频数和百分比等描述性统计分析方法。(2)方案违背:在这部分中,我们会对受试者的方案违背利用频数和百分比进行分类总结。(3)人口学和其他基线数据在这部分中,将对人口学和其他基线数据进行汇总。其中连续型变量如年龄(岁)、身高(cm)、体重(kg)和BMI(kg/m2)等会列出均值、标准差、中位数、最小值和最大值等描述性统计,而对分类型变量如性别、民族等会用到频数和百分比。(4)治疗依从性在这部分中,我们首先会对治疗依从性加以描述性总结,列出的是均值、标准差、中位数、最小值和最大值等,然后我们还会根据治疗依从性不同的level(如80%,80-90%,=90%等)来进行分类总结。(5)合并用药在这部分中,合并用药一般会根据WHO-Drug或类似的dictionary进行编码,然后根据ATCleveldecode进行频数表分类总结。2.疗效分析疗效分析一般是临床试验最核心的部分,因为大部分临床试验的主要目的或者说主要的检验假设都是建立在疗效分析的基础上。但即便是这样,在对主要疗效或次要疗效终点进行统计检验前,必须首先对它进行一个最基本的描述。在连续性变量方面,最常见的疗效终点changefrombaseline。比较组间差别前,最常见的是对各组各个访视值以及与基线相比的变化值作一简单描述。此时的描述,最常规的便是均值,标准差,中位数,最小最大值等,一般我们还可以通过figure的形式加以直观的呈现。然后再采用ANOVA,ANCOVA,或mixedmodel等各种统计方法进行组间比较。在分类型变量方面,最常见的便是类似responserate等之类的两分类变量,我们首先需要做的是用频数表的形式,列出具体的频数和百分比,然后再用诸如卡方检验、fisher精确检验、CMH、logistic以及一些复杂的混合模型进行统计比较。在timetoevent变量方面,即生存变量,我们首先做到的也是对具体变量的描述性分析,最常见的就是通过Kaplan-Meier来进行诸如中位生存时间、Q,Q3,甚至各个时间点生存概率的描述;这时对生存变量的描述还有一个必不可缺的便是Kaplan-Meier生存曲线,而通过这一曲线可直观地反应生存情况。下一步便可以采用logrank检验或者COX回归等进行相应的统计分析和比较了。有些情况下,虽然变量是timetoevent,但由于eventrate很低,这时再用Kaplan-Meier来进行估计很多时候就没有多大意义,因为这时很可能中位生存时间、Q,Q3都是无法估计的。这时可以直接采用频数表的形式,汇报eventrate即可,即当作简单的两分类变量来处理,而后边的比较便可直接采用fisherexact检验。3.安全性分析一项临床试验的主要目的,往往除了证实药物的疗效外,还有一项目的便是评估药物的安全性,而对于很多临床试验的安全性分析来说,一般不进行inferentialstatistics,此时描述性统计分析或者说是描述性总结成为其主要分析方法。下边我们结合安全性分析的几个主要部分,来看一下描述性统计分析在安全性分析中的应用。()ExtentofExposure(药物暴露或用药程度)在这部分中,一般对药物治疗时间以及给药剂量进行总结,而这种总结多用均值或中位数等来描述,另外也可根据治疗时间或给药剂量进行分类,并提供各个分类中的受试者的人数及百分比。(2)AdverseEvents(不良事件)不良事件是安全性分析的一个核心部分,对于不良事件的分析,我们一般有以下几个主要部分:Overall的总结,即对发生不良事件、药物相关不良事件、严重不良事件、药物相关严重不良事件、导致停药的不良事件、导致死亡的不良事件等的受试者人数及百分比进行总结。对所有不良事件、药物相关不良事件、严重不良事件、导致停药的不良事件、导致死亡的不良事件等,根据systemorganclass(系统器官分类)和preferredterm(标准术语)进行频数表分类总结。对所有不良事件和药物相关不良事件根据系统器官分类、标准术语,按照不良事件轻重程度(轻、中和重)进行总结。对所有不良事件根据系统器官分类、标准术语,按照与研究药物的关系进行总结。(3)LaboratoryTest(实验室检查)大部分临床试验会对一些实验室指标进行评价,常见的实验室检查可分为血常规、血生化和尿常规等检查,而对于实验室检查的分析一般可分为:对每个访视的实验室检查指标值以及与基线相比的变化值进行总结(均值、标准差、中位数、最小值和最大值)。对每个访视的实验室检查的指标值进行分类频数表描述总结,这种总结常见的分类有正常、异常无临床意义和异常有临床意义;以及根据实验室指标的正常值范围划分的高于正常值范围、低于正常值范围和在正常值范围内等。采用转置表格总结描述自基线到各个访视各项检查指标结果的变化,如正常到正常、正常到异常无临床意义、正常到异常有临床意义;异常无临床意义到正常、异常无临床意义到异常无临床意义、异常无临床意义到异常有临床意义;异常有临床意义到正常、异常有临床意义到异常无临床意义、异常有临床意义到异常有临床意义等,类似的就是根据高于正常值范围、低于正常值范围和在正常值范围内等之间的相互转换。(4)VitalSigns(生命体征)生命体征也是安全性分析中常见的一部分,具体涉及到收缩压、舒张压、心率、呼吸以及体温等,对其具体的统计总结描述,一般会对各个访视的观测值以及与基线相比的变化值进行总结。(5)PhysicalExaminations(体格检查)对于体格检查,一般会对各个访视体格检查正常以及异常的人数及比例做一描述总结。(6)ECG(心电图)对于心电图,首先应对各个访视正常、异常无临床意义以及异常有临床意义的人数及比例做一总结,然后采用类似于实验室指标部分提及的转置表格对心电图检查的变化做一总结。另外,可能在一些特别