Design of experiments

date

Mar 10, 2024

slug

doe

status

Published

0x01 实验设计的基本概念

1.1 实验设计的历史

实验设计虽然主要存在于工程领域，比如在生产和质量控制中来控制错误，但是在农业、教育、医药、服装设计等各种领域都存在实验设计，从工程的视角中，好的实验设计希望得到以下结果：

reduce time，减少新产品或者新流程的设计和开发时间

improve performance，提高现有流程的性能

improve reliability 提高产品的可靠性和性能

achieve robustness，实现产品和流程的稳健型

对材料、设计方案、系统容差等进行评估

农业起源（1918 – 1940年代）：R.A. Fisher及其同事对农业科学产生了深远影响，发展了阶乘设计、方差分析（ANOVA）等。

第一工业时代（1951 – 1970年代末）：Box和Wilson发展了响应面方法，应用于化学和流程工业。

第二工业时代（1970年代末 – 1990年）：许多公司开始质量改进倡议，连续质量改进（CQI）和全面质量管理（TQM）成为重要的管理目标。

现代时代（约1990年开始）：经济竞争力和全球化驱动所有经济部门变得更具竞争力。

1.2 医学中的典型案例

在医学领域，之前的临床试验的重要部门被省略，之后随机双盲临床试验作为黄金标准。主要是展现了统计方法在提高过程效率、产品质量和进行科学研究的重要性
随机化（Randomization）实验参与者被随机分配到不同的研究组中，通常至少包括一个实验组（接受新治疗或药物）和一个对照组（接受标准治疗、安慰剂或无治疗）。随机化的目的是确保各组在实验开始时在基线上是相似的，从而减少偏见和其他混杂因素的影响。
双盲（Double-Blind）在双盲实验中，既参与者本人也不知道自己属于哪个组（即是接受新治疗还是对照治疗），同时研究人员（包括医生和研究人员）也不知道参与者的分组信息。这样做的目的是减少实验结果可能出现的主观偏差，确保实验数据的客观性和可靠性。
临床实验（Clinical Trial）临床实验是在人类参与者身上进行的研究，旨在评估一种医疗干预措施的效果。这包括新药物、疫苗、手术方法、诊断工具或其他治疗方法。临床试验通常分为几个阶段，从初步评估药物安全性的第一阶段到广泛测试药物效果的第三阶段。

1.3 实验设计的基本原则

随机化 randomization：随机分配是消除偏差的关键步骤

重复 replication：通过重复希望估计或者控制结果的不确定性，另一种方式是通过增加样本量 N 的方式来减少对于估计的误差

分组 blocking：分组是一种包含实验中导致不希望的变异的其他因素的技术。通过考虑性别、年龄等作为分组因素可以避免将受试者分配到不同治疗组而发生的变差

多因素设计 Multi-factor designs：2k 设计、3k 设计、响应面设计，多因素设计的要点与科学方法相反，因为仅修改单一变量造成的是效率低下。

混淆 Con-founders：在通常全款下混淆是希望被完全避免的，因为最后的 outcome 可能收到 treatment 和 confounders 的共同影响

而在构建复杂实验中，我们可以利用混淆来获取更高效的实验结果，混淆不感兴趣的事物来方便对感兴趣的事物进行更有效的实验，在后续的多因素实验中体会出我们对主效用感兴趣而不是交互作用，所以将这种方式混淆交互作用来降低样本量，从而降低实验成本

0x02 实验设计的基本方法

2.1 共性流程

认清（recognition）并说明（statement）问题

选择因素（Factors）、范围（Ranges）和水平（Level）

选择响应变量（Response）

选择设计方式

实施实验

统计分析

得到结论（Conclusion）和建议（Recommentation）

2.2 确定样本量

在针对假设检验中，可以看出置信区间的大小收到方差、样本数量、置信度的影响，因此希望在一定的方差范围内得到置信度的水平，可以计算出理论的样本数量。

在假设检验中，为了保证一定的置信度下所需的样本数量，通常与以下几个因素有关：

效应大小（Effect Size）：效应大小是指研究中感兴趣的效应或差异的程度。效应大小越大，检测到它的可能性就越高，因此所需的样本量就会减少。

置信水平（Confidence Level）：置信水平是指在多次重复实验中，我们能够得到包含真实参数的置信区间的比例。常见的置信水平有95%、99%等。置信水平越高，为了保证这一置信度，通常需要更多的样本量。

功效（Power）：功效是在给定效应大小的情况下，正确拒绝零假设（即发现实际效应）的概率。功效越高，意味着假设检验的灵敏度越高，但这也需要更大的样本量。

显著性水平（Significance Level, \( \alpha \)）：显著性水平是研究者愿意接受的第一类错误（错误地拒绝了真正成立的零假设）的概率上限。常用的显著性水平有0.05、0.01等。显著性水平越低，意味着对结果的要求越严格，通常需要更多的样本量。

方差（Variance）：目标变量的方差越大，意味着数据间的差异越大，要在这种情况下检测到效应，就需要更多的样本量。

设计效应（Design Effect）：如果研究采用了复杂的抽样设计（如分层、整群抽样等），可能需要通过设计效应来调整所需样本量，以反映抽样设计对估计精度的影响。

期望宽度的置信区间（Desired Width of the Confidence Interval）：如果研究者希望得到一个较精确的估计（即较窄的置信区间），则需要更多的样本量。

这些因素相互影响，通常需要通过统计软件或样本量计算公式来综合考虑这些因素，以确定所需的样本数量。

2.3 检查模型假设

数据是否满足正态分布 normality

数据是否具有方差齐性 constant variance

数据之间是否具有独立性 independence

参插图，residual plot 帮助检验上述是否满足正态性、同方差性和独立性等假设

2.4 模型分析

见第四章

2.5 多重比较

在经过方差差异分析之后，比较各组平均值差异的多重比较方法，常见的方法包括：

Scheffe 方法

Fisher 的最小显著差异法

Bonferroni 方法

Tukey 的学生话方法

0x03 常见的实验设计的模块

3.1 单因子方差分析 AVONA

3.2 多分组情况下如何考虑

分组（Blocking）是一类处理干扰因子（Nuisance factor）的方式，属于可以影响结果但是对于实验者并不是实验目标，常见的分组包括

生产场景中的生产批次

不同的操作员、护士或者研究主题

测试设备的不同部分

一天中的不同时间

因此在滴滴的 AB 实验平台中往往会知道订单分流、司机分流或者是时间片实验来达到良好的分组效果。

如果已知并且可以控制干扰变量，可以通过在实验中包含一个分组因素来使用分组控制

如果是已知但是不可靠的干扰因子，可以使用协方差分析来测量和分析干扰因子带来的影响

如果是未知并且不可控的因素，通常使用随机来消除他们的影响，随机化是避免滋扰因素产生系统性偏见的保证

在单因子多水平检验过程中，

输出 = 均值+组内误差+组间误差

在分组单音字多水平检验过程中

输出 = 均值+ 组内误差+分组误差+分策略误差+组间误差

额外的还包括：

重复 LSD

Graeco-Latin Squares 方法

交叉设计方法

后面的实验分析过程较为复杂，不在赘述。侧重于分析，单独撰写第四章

3.3 因子设计分析

3.4 响应分析设计

使用Design-Expert 软件进行响应面法（RSM）试验设计与分析

响应面法（RSM）是一种综合试验设计和数学建模的优化方法，可有效减少试验次数，并且可以考察影响因素之间的交互作用。一般采用Design-Expert 软件进行响应面法试验设计与分析，接下来我们将结合一个实例 [1]进行…

https://zhuanlan.zhihu.com/p/530650873

0x04 实验设计的分析方法

4.1 复习：参数估计

点估计可以分为矩估计法和极大似然估计方法；如何评价参数估计的优劣，主要从无偏性、有效性、相合性和渐进正态性出发，首先讨论估计的期望，在估计期望相同的情况下希望均方误差较低的更优，当某个估计量是所有无偏估计中最小的称之为最小方差无偏估计量；可以根据 Fisher 信息量来判断是否为最小方差无偏估计量，有效估计是所有正规估计中的最小方差无偏估计。

在点估计的方式上进一步延伸出两个基本问题：

单正态总体下的未知参数的区间估计，mu 和 Sigma

双正态总体下均值差和方差比的区间估计，mu1-mu2 以及Sigma1/sigma2

求解置信区间的一般步骤包括：

构造点估计量

构造包括原始参数和位置参数的随机变量 J，要求随机变量 J 分布已知

通过变形 J的上下界，来求解估计量的上下界

Sigma 已知，构造正态分布

Sigma 未知，构造 T 分布

mu 已知，构造Chi-square 分布

mu 未知，构造 F 分布

4.2 复习：假设检验

由此延伸出假设检验问题，假设检验就是研究如何在样本寄出上对假设做出可靠结论，所谓统计检验指的是根据样本观测值来对假设做出判断的一般规则，通常为两个假设，H0 原假设（成立）、H1 对立假设（不成立），由此结论分为两种：

H0 成立，接受原假设，样本存在于 W0 中

H0 不成立，拒绝原假设，样本存在于 W1 中

在使用一个检验通常会存在两个错误；一个是样本在W1 中，但是实际上是成立的，这个是弃真；第二个是样本本来不成立，但是样本落在了 W0 中，这个是取伪；分别对应存在第 I 类风向和第 II 类风险。通常假设检验只能保证不会第 I 类风险不会超过 Alpha，则为显著性检验，

但是因为在构造这种检验统计量的过程中前提假设原假设成立，因此在得到的结果中，接受原假设并不可信，拒绝原假设较为可靠，因此通常设置过程中将历史资料的命题设置为原假设，在结果不显著的时候。假设检验可以分为参数性和非参数性检验，目标分为针对某个未知参数，还是针对未知总体的分布类型进行假设。假设检验的一般步骤包括

建立原假设和备择假设

求解出未知参数的较优点估计

构造检验统计量 T

对于给定的显著性水平，找到如何的W1

假设检验分为单正态总体和双正态总体，单正态总体略，双正态总体包括

方差 1、方差 2 已知，检验期望 1 和期望 2；正态分布

方差 1 和方差 2 相等未知，检验期望 1 和期望 2，T 分布

期望 1 和期望 2已知，检验方差 1 和方差 2，F 分布

期望 1 和期望 2 未知，检验方差 1 和方差 2，F-1 分布

假设检验的评价标准为采用功效函数，比较I 类风险和 II 类风险，来得到最大功效检验，NP 引理

常见的例子包括：

卡方拟合优度检验

独立性检验，分别计算概率值，对应的检验为卡方分布 F(n-1)(m-1)

秩和检验