MetaReview

精神科 Meta 分析完整指南:从量表选择到药物疗效的循证综合方法

精神科荟萃分析的效应量选择、HAMD/MADRS/PANSS 量表处理、安慰剂效应控制、SSRI/SNRI/非典型药物比较、网络 Meta 分析经典案例与发表偏倚评估。适合精神科研究生和临床研究者。

目录

  1. 为什么精神科研究特别需要 Meta 分析
  2. PICO 框架在精神科研究中的应用
  3. 精神科 Meta 分析的效应量选择
  4. 精神科研究的量表与测量问题
  5. 异质性的特殊挑战
  6. 亚组与网络 Meta 分析
  7. 发表偏倚:精神科的"重灾区"
  8. 经典案例解析
  9. 用 MetaReview 5 分钟完成精神科 Meta 分析
  10. 常见问题

为什么精神科研究特别需要 Meta 分析

精神障碍是全球疾病负担最重的领域之一。根据 GBD(Global Burden of Disease)2019 数据,精神障碍影响全球近 10 亿人,抑郁症和焦虑症分别位居致残原因的第 2 和第 8 位。中国精神障碍的终生患病率约 16.6%,抑郁症患病率约 3.4%,精神分裂症患病率约 0.6%。然而,精神科临床研究面临的方法学挑战比大多数医学领域更为严峻,这使得 Meta 分析在精神科循证医学中的地位不可替代。

效应量普遍较小

与降压药降低 10-15 mmHg 血压或他汀类降低 30-40% LDL-C 这种显而易见的疗效不同,精神科药物的效应量往往较小。以抑郁症为例,多数抗抑郁药 vs 安慰剂的 SMD 仅为 0.3 左右(Cohen's d),对应 HAMD-17 量表约 2 分的差异。这意味着单项 RCT 若样本量不够大(通常需要 300+ 例/组),很容易因统计效力不足而得出阴性结果。Meta 分析通过合并多项试验增加总样本量,是检测这种小效应量的最佳工具。

安慰剂效应显著

精神科是安慰剂效应最强的医学领域之一。抑郁症临床试验中,安慰剂组的响应率通常高达 30-50%,有些试验甚至超过 50%。这不仅削弱了"药物-安慰剂差异",还导致不同试验之间安慰剂响应率的巨大变异,成为重要的异质性来源。近 30 年来,安慰剂响应率呈逐年上升趋势,使得近期试验比早期试验更难获得阳性结果——这种"年代效应"在 Meta 分析中必须考虑。

量表评估的主观性

精神科疾病不像糖尿病(HbA1c)或高血压(收缩压)那样有客观的生物标志物。疾病严重程度的评估依赖于主观量表,不同量表的分数范围、条目数量和评分标准各不相同。例如抑郁症就有 HAMD-17(0-52 分)、HAMD-21(0-64 分)、MADRS(0-60 分)、PHQ-9(0-27 分)、BDI-II(0-63 分)等十余种量表。不同试验使用不同量表,无法直接以原始分数进行比较——这正是 Meta 分析通过标准化均数差(SMD)统一尺度的核心价值所在。

需要大样本汇总才能得出可靠结论

综合以上三个因素,精神科领域单项 RCT 的证据强度天然受限。一项典型的抗抑郁药 RCT 纳入 200-400 例患者,随访 6-8 周,结果可能受安慰剂响应、评定者偏倚和量表选择的多重影响。只有通过 Meta 分析汇总数十甚至数百项试验的数据,才能:

Cipriani 等人 2018 年在 Lancet 发表的里程碑研究合并了 522 项 RCT、116,477 例患者的数据,比较了 21 种抗抑郁药的疗效和可接受性,结论是所有抗抑郁药均优于安慰剂(SMD 0.19-0.53),但药物间差异显著——艾司西酞普兰、米氮平和阿米替林疗效最好,氟西汀和文拉法辛可接受性最佳。这种规模的结论不可能从任何单项 RCT 中获得。

PICO 框架在精神科研究中的应用

精神科 Meta 分析的 PICO 框架需要兼顾诊断分类的复杂性、干预手段的多样性(药物 + 心理治疗 + 物理治疗)以及结局评估的主观性。一个精确的 PICO 框架是避免"将苹果和橘子混在一起"的前提。

Population(人群)

精神科的诊断系统本身就是异质性的重要来源。定义目标人群时需明确:

诊断类别典型诊断标准核心量表常见分型/亚型
重性抑郁障碍(MDD)DSM-5 / ICD-10 / ICD-11HAMD-17, MADRS, PHQ-9首发 vs 复发、伴焦虑特征、伴精神病性特征、围产期抑郁
广泛性焦虑障碍(GAD)DSM-5 / ICD-10HAM-A, GAD-7伴/不伴抑郁共病
精神分裂症DSM-5 / ICD-10PANSS, BPRS, CGI首发 vs 慢性、治疗抵抗性(TRS)
双相障碍DSM-5 / ICD-10YMRS(躁狂), HAMD/MADRS(抑郁)I 型 vs II 型、躁狂期 vs 抑郁期 vs 维持期
创伤后应激障碍(PTSD)DSM-5 / ICD-11CAPS-5, PCL-5急性 vs 慢性、战斗相关 vs 非战斗相关
强迫症(OCD)DSM-5 / ICD-10Y-BOCS治疗抵抗性 OCD
注意缺陷多动障碍(ADHD)DSM-5 / ICD-10ADHD-RS, CGI儿童 vs 成人、注意缺陷为主 vs 多动冲动为主 vs 混合型
DSM-IV 与 DSM-5 的诊断标准存在差异。例如 DSM-5 取消了抑郁症的"丧亲排除"标准,PTSD 从焦虑障碍分类中独立出来成为"创伤和应激相关障碍"。纳入跨越 DSM 版本的试验时,需在方法中说明如何处理诊断标准差异。

Intervention(干预)

精神科干预手段分为三大类:

药物治疗:

心理治疗:

物理治疗:

Comparison(对照)

精神科 Meta 分析中对照组的选择极为关键,因为它直接决定了效应量的大小和临床可解读性:

对照类型含义效应量影响适用场景
安慰剂(Placebo)外观一致的惰性药丸效应量较小(包含安慰剂效应)药物疗效评估的金标准
活性对照(Active comparator)另一种已证实有效的药物效应量更小(两种有效药比较)头对头比较,NMA
等待名单(Waitlist)延迟接受治疗效应量偏大(无安慰剂效应)心理治疗试验常用
常规治疗(TAU)Treatment as usual效应量中等实效研究
注意力对照(Attention control)等量的非特异性关注控制非特异性因素心理治疗试验的优质对照
等待名单对照和安慰剂对照不能在同一个 Meta 分析中混合。等待名单组缺乏安慰剂效应(没有治疗期望),使用等待名单对照的试验效应量会系统性地偏大。药物试验和心理治疗试验的对照类型通常不同,合并分析时必须按对照类型分层。

Outcome(结局指标)

结局类型具体指标数据类型效应量
症状严重度变化HAMD/MADRS/PANSS/Y-BOCS 评分变化连续变量SMD (Hedges' g)
响应率HAMD 评分下降 ≥50%二分类OR/RR
缓解率HAMD ≤7 或 MADRS ≤10二分类OR/RR
脱落率(可接受性)因任何原因提前退出二分类OR/RR
因不良反应脱落因副作用退出二分类OR/RR
复发时间至首次复发事件的时间时间-事件HR
特定不良反应体重增加、性功能障碍、锥体外系反应、QTc 延长二分类OR/RR
自杀相关事件自杀意念、自杀未遂、自杀死亡二分类OR/RR (Peto OR)

PICO 示例:SSRIs 治疗成人 MDD 的急性期疗效

PICO 元素定义关键考量
P18-65 岁成人 MDD 患者(DSM-IV/DSM-5/ICD-10),HAMD-17 ≥17 或 MADRS ≥20排除双相抑郁、精神病性抑郁、产后抑郁?基线严重度如何分层?
ISSRIs(氟西汀 20-60mg/舍曲林 50-200mg/艾司西酞普兰 10-20mg 等),单药治疗是否将所有 SSRIs 作为一类合并?不同剂量如何处理?
C安慰剂仅纳入双盲 RCT,排除开放标签试验
O主要:HAMD/MADRS 评分变化(SMD);次要:响应率(OR)、缓解率(OR)、因不良反应脱落率(OR)急性期通常为 6-12 周,是否限定最短治疗时间?
在 PROSPERO 注册方案时,必须明确诊断标准版本、量表版本、最短治疗时间、对照类型和主要效应量。精神科 Meta 分析中"P"的精确定义至关重要——一个混合了轻度抑郁、中重度抑郁和治疗抵抗性抑郁的分析可能得出无意义的合并结论。

精神科 Meta 分析的效应量选择

效应量的选择是精神科 Meta 分析最关键的方法学决策之一。与心血管或糖尿病领域不同,精神科的核心挑战在于:几乎所有主要结局指标都依赖于主观评定量表,不同量表的分数不可直接比较。这使得 SMD(标准化均数差)成为精神科 Meta 分析的核心效应量。

SMD(标准化均数差):精神科的核心效应量

当不同试验使用不同量表测量同一构念(如"抑郁严重度")时,必须使用 SMD 将效应量标准化到同一尺度:

SMD = (Meantreatment - Meancontrol) / SDpooled
Hedges' g = SMD × (1 - 3 / (4(n1+n2-2) - 1))

SMD 的精神科解读标准(Cohen 1988):

SMD 范围效应大小精神科典型对应
0.2小效应多数抗抑郁药 vs 安慰剂(轻度抑郁)
0.5中效应CBT vs 等待名单(抑郁症)、抗精神病药 vs 安慰剂(精神分裂症)
0.8大效应氯氮平 vs 安慰剂(治疗抵抗性精神分裂症)、ECT vs 假刺激
推荐使用 Hedges' g 而非 Cohen's d。两者区别在于 Hedges' g 对小样本研究进行了偏差校正,更适合精神科常见的中小样本 RCT(n=50-200/组)。当单组样本量 > 50 时,两者差异可忽略不计。

OR/RR:二分类结局

精神科常用的二分类结局指标及其效应量:

NNT = 1 / (CER × (OR - 1) / (OR - 1 + 1/CER))
其中 CER = 对照组事件率(安慰剂组缓解率)

NNT(Number Needed to Treat)是将 OR/RR 转换为临床可理解指标的重要方法。例如,抗抑郁药缓解的 NNT 约为 7-8,意味着每治疗 7-8 个患者有 1 个额外达到缓解。

HR:时间-事件数据

HR 在精神科 Meta 分析中主要用于维持期/预防复发试验:

效应量选择总结

终点首选效应量备选效应量说明
症状评分变化(多种量表)SMD (Hedges' g)--精神科最核心的效应量
症状评分变化(同一量表)MDSMD仅当所有试验使用同一量表同一版本时
响应率ORRR, NNTHAMD 下降 ≥50%
缓解率ORRR, NNTHAMD ≤7 或 MADRS ≤10
脱落率(可接受性)ORRRCipriani 2018 以此衡量可接受性
复发时间HR--维持期试验
自杀相关事件Peto OROR罕见事件,Peto OR 更稳健
体重变化MD (kg)--抗精神病药的重要安全终点
核心原则:不同量表测量的连续变量必须用 SMD 合并,绝对不能用 MD。将 HAMD-17 的分数变化和 MADRS 的分数变化直接以 MD 合并是最常见的初学者错误,因为两个量表的分数范围和单位完全不同。

详细的效应量选择方法请看:OR、RR、MD、SMD 怎么选?Meta 分析效应量完整指南

精神科研究的量表与测量问题

量表选择和测量标准化是精神科 Meta 分析中最棘手的方法学问题。与实验室检查(如 HbA1c、LDL-C)不同,精神科量表的评分受评定者训练水平、患者配合度和文化背景的多重影响。

抑郁症主要评定量表对比

量表条目数分数范围评定方式缓解阈值响应定义优缺点
HAMD-17170-52医生他评≤7下降 ≥50%最广泛使用,FDA 认可;条目权重不均,躯体症状偏重
HAMD-21210-64医生他评≤7(前17项)下降 ≥50%增加 4 项非核心抑郁条目;与 HAMD-17 部分兼容
MADRS100-60医生他评≤10下降 ≥50%对抗抑郁药变化更敏感;条目更均衡
PHQ-990-27患者自评≤4下降 ≥50%简短高效,适合大样本筛查;自评可能有偏差
BDI-II210-63患者自评≤13下降 ≥50%认知症状评估详细;自评量表
CGI-S11-7医生他评≤2--全局严重度评估,简单直观但不够精细

评定者间信度问题

HAMD 和 MADRS 作为医生他评量表,评定者间信度(inter-rater reliability)直接影响数据质量:

患者自评 vs 医生他评

这是精神科 Meta 分析中一个被低估的方法学问题:

基线严重度对效应量的影响——Kirsch 2008 争议

2008 年 Kirsch 等人在 PLoS Medicine 发表的重磅 Meta 分析利用 FDA 注册数据分析了 6 种新一代抗抑郁药的疗效,结论引发了巨大争议:

这一争议的核心方法学启示:

  1. 基线严重度是精神科 Meta 分析中最重要的效应修饰因素之一
  2. 必须在亚组分析或 Meta-regression 中检验基线严重度对效应量的影响
  3. "临床显著性"的阈值如何定义(SMD 0.50?HAMD 3 分?)本身就有争议
  4. 安慰剂组的响应率不是常数——它随基线严重度、试验年代和中心数量变化
Fournier 等人 2010 年在 JAMA 发表的 IPD(个体患者数据)Meta 分析进一步证实了基线严重度效应:在轻度抑郁中(HAMD <19),抗抑郁药的获益微乎其微(d = 0.11);在重度抑郁中(HAMD ≥25),获益具有临床显著性(d = 0.47)。这提示精神科 Meta 分析若不按基线严重度分层,得出的"平均效应量"可能误导临床实践。

精神分裂症量表的特殊处理

精神分裂症的核心量表 PANSS(阳性和阴性症状量表,30 项,分数范围 30-210)有其独特的分析挑战:

异质性的特殊挑战

精神科 Meta 分析的异质性问题比大多数医学领域更加突出。安慰剂效应的高度变异、诊断标准的演变、共病的普遍存在以及治疗方案的巨大差异,使得 I² 值经常偏高。理解和解释异质性是精神科 Meta 分析的核心能力。

安慰剂响应率变异(30-50%)

安慰剂组的响应率是精神科 Meta 分析中最重要的异质性来源之一:

诊断标准差异

跨越不同诊断系统版本的试验合并时需注意:

诊断系统转换关键变化对 Meta 分析的影响
DSM-IV → DSM-5MDD 取消丧亲排除;PTSD 重新分类;SSD 取代躯体化障碍DSM-5 可能纳入更广泛的抑郁患者,影响基线严重度分布
ICD-10 → ICD-11抑郁症分类简化;复杂 PTSD 新增;游戏障碍新增ICD-11 的诊断标准可能与 DSM-5 趋于一致
PANSS vs BPRSPANSS 30 项 vs BPRS 18 项需要量表转换或使用 SMD

合并症问题

精神障碍之间的共病率极高,这是精神科 Meta 分析异质性的重要来源:

治疗持续时间差异

精神科急性期 RCT 的治疗持续时间差异显著:

处理方法:在纳排标准中设定最短治疗时间(如 ≥6 周);按治疗时间进行敏感性分析;在 Meta-regression 中检验治疗时间对效应量的影响。

剂量差异

同一药物的不同剂量可能有不同的疗效和耐受性曲线:

发表年代效应

精神科试验结果存在显著的发表年代效应——近年试验的效应量普遍小于早期试验:

在精神科 Meta 分析中,I² > 50% 是常态而非例外。遇到高 I² 时,不要急于选择固定效应模型"消除"异质性——这只会掩盖问题。正确做法是使用随机效应模型,同时通过亚组分析和 Meta-regression 解释异质性来源。如果异质性无法合理解释,应考虑是否有必要进行合并分析。

亚组与网络 Meta 分析

精神科拥有医学领域中最丰富的亚组分析维度和最成熟的网络 Meta 分析(NMA)应用。从药物类别到疾病严重度,从年龄分层到治疗模式,每一个亚组都可能指向不同的临床决策。

精神科 Meta 分析的核心亚组变量

亚组变量分组方式临床意义
药物类别SSRI vs SNRI vs TCA vs 非典型抗抑郁药不同类别的疗效-耐受性权衡不同
疾病严重度轻度(HAMD 8-13)vs 中度(14-18)vs 重度(19-22)vs 极重度(≥23)Kirsch 争议的核心——轻度患者是否需要药物治疗
年龄分层儿童青少年(<18 岁)vs 成人(18-65 岁)vs 老年(>65 岁)FDA 儿童 SSRI 黑框警告;老年人药代动力学差异
治疗模式单药 vs 药物联合 vs 药物+心理治疗联合治疗是否优于单一治疗
急性期 vs 维持期6-12 周急性治疗 vs 6-24 月维持治疗/复发预防维持期的效应量和研究设计完全不同于急性期
首发 vs 复发首次发作 vs 多次复发复发患者可能对药物更敏感,但安慰剂响应率更低
治疗抵抗治疗抵抗性(TRD/TRS)vs 非治疗抵抗性治疗抵抗性人群是特殊亚组,效应量通常更小
资助来源Industry-sponsored vs Investigator-initiated药企资助试验的效应量可能偏大(Ebrahim 2016 BMJ)

网络 Meta 分析(NMA):精神科的"杀手级应用"

精神科是网络 Meta 分析应用最广泛、最成功的医学领域。NMA 允许同时比较多种干预措施,即使它们之间没有直接的头对头 RCT,通过"借用"共同对照(通常是安慰剂)的间接比较实现。

为什么精神科特别适合 NMA

Cipriani 2018 Lancet:NMA 的经典范例

Cipriani 等人 2018 年在 Lancet 发表的"21 种抗抑郁药网络 Meta 分析"是精神科 NMA 的里程碑:

NMA 的关键方法学要求

  1. 一致性假设(Consistency) -- 直接证据和间接证据的效应量一致。使用 node-splitting 或 SIDE 检验评估局部不一致性
  2. 传递性假设(Transitivity) -- 比较的试验在效应修饰因素(基线严重度、年龄、试验年代等)上大致可比
  3. 网络连通性 -- 所有药物通过直接或间接比较形成连通网络。孤立节点无法纳入
  4. 排名解读 -- SUCRA 值表示每种药物是最优的概率,0% = 最差,100% = 最好。应结合 SUCRA 和点估计值,避免仅依赖排名
MetaReview 目前支持两两比较(pairwise)的 Meta 分析,适合按药物类别(如所有 SSRIs vs 安慰剂)进行分层分析。对于完整的网络 Meta 分析(同时比较 10+ 种药物),推荐使用 R 的 netmeta 包或 Stata 的 network 命令。MetaReview 可用于 NMA 前的数据整理和初步探索。

发表偏倚:精神科的"重灾区"

精神科是发表偏倚最严重、研究最充分的医学领域。从 Turner 2008 年的开创性研究到 Roest 2015 年对苯二氮卓类的分析,大量证据表明仅依赖发表文献进行的 Meta 分析会系统性地高估精神科药物的疗效。

Turner 2008:揭露抗抑郁药的选择性发表

Turner 等人 2008 年在 NEJM 发表的研究堪称发表偏倚研究的里程碑。他们获取了 FDA 注册的所有 74 项新一代抗抑郁药(12 种药物)临床试验数据,将 FDA 判定结果与发表文献进行对比:

FDA 判定结果试验数发表数发表时报告为阳性
阳性(有效)3837 (97%)37 (100%)
阴性/可疑(无效)3614 (39%)11 (79%)

关键发现:

FDA 审批数据 vs 发表数据差异

除了 Turner 2008,还有多项研究揭示了精神科药物的 FDA-发表差异:

Industry-sponsored bias

药企资助的试验在精神科尤为普遍(抗抑郁药和抗精神病药 RCT 中超过 70% 为药企资助),这带来多层面的偏倚:

小样本研究过度乐观

精神科存在大量小样本 RCT(n < 50/组),这些研究更容易产生:

Cochrane vs 非 Cochrane 综述的差异

Cochrane 系统综述因其严格的方法学标准(必须检索未发表文献、必须评估偏倚风险、必须检索试验注册库),通常比非 Cochrane 综述得出更保守的效应量估计:

发表偏倚的评估方法

方法适用条件精神科注意事项
漏斗图≥10 项研究精神科 Meta 分析通常有足够多的研究支持漏斗图
Egger 检验连续型效应量(SMD、MD)SMD 可能存在 Egger 检验的假阳性(因 SMD 与 SE 的数学关联)
Peter 检验二分类效应量(OR)响应率 OR 的发表偏倚评估
Trim-and-fill漏斗图不对称时估计"缺失"研究并调整合并效应量
对比分析法有 FDA 或注册库数据时最可靠的方法:直接比较发表 vs 未发表试验的效应量
ClinicalTrials.gov 交叉检索任何 Meta 分析检索所有注册但未发表的试验
在精神科 Meta 分析中,如果不系统检索 ClinicalTrials.gov、FDA 审批数据和 Cochrane 试验注册库中的未发表数据,你的结论几乎一定会高估药物疗效。Turner 2008 的研究已经给出了明确的证据:仅依赖发表文献会使抗抑郁药效应量高估约 1/3。

经典案例解析

以下四项研究代表了精神科 Meta 分析的方法学巅峰,每一项都改变了临床实践或引发了深远的学术讨论。理解它们的设计、方法和局限性,是做好精神科 Meta 分析的基础。

案例 1:Cipriani 2018 -- 21 种抗抑郁药的网络 Meta 分析(Lancet)

研究背景:这是迄今为止精神科领域规模最大、影响最深远的 Meta 分析。由牛津大学 Andrea Cipriani 领导,合并了截至 2016 年的所有成人 MDD 急性期双盲 RCT。

方法学亮点

局限性和争议:纳入的 RCT 中约 82% 为药企资助,可能存在系统性偏倚;未区分首发 vs 复发抑郁;未分析不同剂量的效应差异;头对头试验数量较少,间接比较的不确定性较大。

案例 2:Leucht 2013 -- 15 种抗精神病药的网络 Meta 分析(Lancet)

研究背景:Stefan Leucht 领导的这项 NMA 首次全面比较了 15 种抗精神病药在精神分裂症急性期的疗效和副作用谱。

方法学贡献:同时报告了 7 个维度的效应量(疗效、脱落、体重、EPS、催乳素、QTc、镇静),使临床医生可以根据患者的具体情况权衡利弊。这种"多维度比较"成为后续精神科 NMA 的标准模式。

案例 3:Cuijpers 2019 -- 心理治疗 vs 药物治疗 Meta 分析

研究背景:Pim Cuijpers 是心理治疗 Meta 分析领域最多产的研究者。他系统比较了心理治疗(主要是 CBT)与药物治疗(主要是抗抑郁药)在成人抑郁症中的疗效。

方法学启示:心理治疗 Meta 分析面临独特挑战——治疗师技能差异(therapist effects)、治疗忠实度(treatment fidelity)、无法实现双盲——这些都是药物试验中不存在的异质性来源。

案例 4:Kirsch 2008 -- 抗抑郁药 vs 安慰剂争议(PLoS Medicine)

研究背景:Irving Kirsch 利用信息自由法案(FOIA)获取了 FDA 注册的 35 项新一代抗抑郁药(氟西汀、文拉法辛、奈法唑酮、帕罗西汀)RCT 数据,分析了药物-安慰剂差异。

争议和反驳

方法学遗产:Kirsch 2008 虽然结论有争议,但其方法学贡献巨大——它开创了使用 FDA 注册数据进行 Meta 分析的先河,揭示了发表偏倚的严重性,并将"基线严重度作为效应修饰因素"推到了精神科 Meta 分析方法学的核心位置。

引用这些经典研究时注意:(1)Cipriani 2018 和 Leucht 2013 的数据截止到 2016 和 2012 年,近年获批的新药(如 esketamine、brexanolone、pimavanserin)未纳入;(2)Kirsch 2008 仅分析了 4 种药物,不能推广到所有抗抑郁药;(3)Cuijpers 的心理治疗 Meta 分析多次更新,引用时注意使用最新版本。

用 MetaReview 5 分钟完成精神科 Meta 分析

以"SSRIs 治疗成人 MDD 的急性期疗效(HAMD/MADRS 评分变化)"为例,演示在 MetaReview 中完成一次完整精神科 Meta 分析的全过程。

第 1 步:准备数据

从文献中提取以下 6 项 SSRI vs 安慰剂 RCT 的数据(示例数据):

研究药物量表N (药物/安慰剂)Mean change (药物)SD (药物)Mean change (安慰剂)SD (安慰剂)
Study A (2015)艾司西酞普兰 10mgMADRS150/148-14.29.5-10.89.8
Study B (2016)舍曲林 100mgHAMD-17120/118-10.57.2-8.17.5
Study C (2017)氟西汀 20mgHAMD-17180/175-9.87.8-8.07.6
Study D (2018)艾司西酞普兰 20mgHAMD-17200/198-11.28.1-8.98.3
Study E (2019)帕罗西汀 30mgMADRS140/135-13.510.2-10.09.9
Study F (2020)舍曲林 50mgMADRS160/158-12.89.0-10.59.3

注意:6 项研究使用了 3 种不同量表(MADRS 和 HAMD-17),因此必须使用 SMD 而非 MD。

第 2 步:打开 MetaReview 并输入数据

  1. 访问 MetaReview 主页,效应量类型选择 SMD(Hedges' g)
  2. 数据输入模式选择均数和标准差(Mean ± SD)
  3. 逐行输入:Study 名称、Treatment N、Treatment Mean、Treatment SD、Control N、Control Mean、Control SD
  4. MetaReview 自动计算每项研究的 Hedges' g 和标准误

第 3 步:选择模型并运行分析

  1. 选择随机效应模型(不同 SSRI 药物、不同剂量、不同量表、不同人群)
  2. 点击 Run Meta-Analysis
  3. 查看合并 SMD(Hedges' g)、95% CI、p 值和异质性统计量(I²、Q、τ²)

预期结果:合并 Hedges' g 约 -0.30 到 -0.35 (95% CI: -0.45 to -0.20),表明 SSRIs 相对安慰剂有小到中等的疗效优势(0.3 SD 单位)。这与大规模 Meta 分析的结论一致。

第 4 步:生成森林图和漏斗图

  1. MetaReview 自动生成森林图,展示每项研究的 Hedges' g 和 95% CI 以及合并效应菱形
  2. 切换到漏斗图视图 -- 检查是否存在漏斗图不对称(小样本阳性研究偏多)
  3. 查看逐一剔除敏感性分析:排除效应量最大/最小的研究后合并 SMD 变化多大?

第 5 步:扩展 -- 响应率的二分类分析

在 MetaReview 中新建一个分析,使用 OR 或 RR 分析响应率(HAMD/MADRS 下降 ≥50%):

研究药物组响应药物组总数安慰剂组响应安慰剂组总数
Study A7515052148
Study B5512038118
Study C7218058175
Study D9820069198
Study E6314044135
Study F7216055158

预期结果:合并 OR 约 1.5-1.7,对应 NNT 约 7-8,意味着每治疗 7-8 个 MDD 患者有 1 个额外达到治疗响应。

整个流程从数据输入到两张森林图(SMD + 响应率 OR)生成只需 5 分钟。MetaReview 的所有计算在浏览器本地完成,数据不会上传至服务器,保护你的未发表数据安全。精神科 Meta 分析建议同时报告连续变量(SMD)和二分类(响应率/缓解率 OR)两组结果,以提高临床可解读性。

开始你的精神科 Meta 分析

MetaReview 支持 SMD、MD、OR、RR、HR 等全部效应量,从数据输入到森林图只需 5 分钟。免费、无需安装、无需编程。

打开 MetaReview

查看在线示例:阿司匹林 vs 安慰剂 Meta 分析(7 篇 RCT)→

获取更新通知

留下邮箱,第一时间获取新功能通知和 Meta 分析技巧。

我们不会发送垃圾邮件,随时可退订。

常见问题

精神科 Meta 分析为什么首选标准化均数差(SMD)而不是均数差(MD)?

精神科 Meta 分析中不同试验经常使用不同的评定量表(如 HAMD-17、MADRS、PHQ-9),这些量表的分数范围和单位完全不同,无法直接用 MD 合并。SMD 通过将效应量除以标准差来消除量表差异。推荐使用 Hedges' g(对小样本有偏差校正)。SMD 0.2 为小效应,0.5 为中效应,0.8 为大效应。多数抗抑郁药 vs 安慰剂的 SMD 约 0.3。

精神科 Meta 分析中安慰剂效应为什么这么大?如何处理?

精神科疾病的安慰剂响应率异常高(30-50%),原因包括主观量表的期望效应、临床试验中的额外关注具有治疗作用、均值回归和自然波动。处理方法:始终使用安慰剂校正后的效应量;在 Meta-regression 中将安慰剂响应率或发表年代作为协变量;注意等待名单对照和安慰剂对照的区别。

HAMD-17、HAMD-21 和 MADRS 在 Meta 分析中如何统一处理?

首选方案是使用 SMD(Hedges' g)将所有量表标准化后合并。次选方案是选择报告最多的量表(通常 HAMD-17)作为主要分析。HAMD-17 和 HAMD-21 虽然都是 HAMD,但总分范围不同(52 vs 64),不能直接以 MD 合并。在方法部分必须明确说明量表统一策略。

什么是网络 Meta 分析(NMA),为什么精神科特别需要?

NMA 可以同时比较多种干预措施,即使它们之间没有直接的头对头试验。精神科同类药物众多(20+ 种抗抑郁药),两两头对头 RCT 不现实,且临床决策需要排名。Cipriani 2018 在 Lancet 发表的 21 种抗抑郁药 NMA(522 项 RCT,116,477 例患者)是经典范例。NMA 需要满足一致性假设和传递性假设。

抗抑郁药 Meta 分析中发表偏倚有多严重?

Turner 2008 NEJM 研究揭示:FDA 注册的 74 项抗抑郁药试验中,阳性结果 97% 发表,阴性结果仅 39% 发表(且多被包装为阳性)。仅基于发表文献,94% 的试验显示有效;根据 FDA 完整数据,仅 51% 为阳性。发表文献的效应量高估约 32%。必须检索 ClinicalTrials.gov 和 FDA 审批数据。

儿童青少年和老年人群的精神科 Meta 分析有什么特殊考量?

儿童青少年:药物数据远少于成人,不应外推;FDA 黑框警告 SSRI 可能增加自杀意念风险;氟西汀是唯一获批用于儿童抑郁的 SSRI;安慰剂响应率更高(50-60%)。老年人:需考虑多药联用和跌倒风险;老年抑郁常合并认知下降;量表可能不同(如 GDS)。两个人群都应独立分析。

MetaReview 能做精神科相关的 Meta 分析吗?

完全可以。MetaReview 支持 SMD(Hedges' g)、MD、OR/RR、HR 等全部效应量类型,提供固定效应和随机效应模型,自动生成森林图和漏斗图,支持按药物类别或疾病严重度进行亚组分析,以及逐一剔除敏感性分析。免费使用,无需安装,无需编程。