专业 快速 优质

测量不确定度的数学原理及应用

引     言

人类认识客观世界是一个逼近真实的过程。在此过程中,有时由于不能完全掌握产生客观现象的因果关系,导致认识上缺失了因果律,只能通过随机理论来描述;有时由于不能完全真实地掌握或描述客观现象,进而借助粗糙理论来描述;并且有的客观现象不能非此即比地应用排中律,所以只能借助模糊理论来描述。这就使我们对客观世界的认识具有了不确定性。

   在这一人类认识客观世界逼近真实的过程中,我们主要做两件事情。第一是尽量控制或减少认识的不确定性;第二是评估认识的不确定性。特别是实验科学中的测量工作,这两点同样重要。但是在控制或减少认识的不确定性的手段有限时,恰当地评估认识的不确定性则显得更为重要。

   爱因斯坦说过“我们的概念和概念体系所以能够得到承认,其唯一的理由就是它们是适合于表示我们的经验的复合;除此以外,它们并无别的关于理性的根据”【1 。因此恰当地评估认识的不确定性,特别是测量结果的不确定性,需要一整套适合于表示我们的经验的复合的概念和概念体系。

   1927年海森堡(Heisenberg)提出了不确定原理,又称测不准原理,首次使用了不确定(uncertainty)一词。

1963年原美国标准局(NBS)的数理统计专家埃森哈特(Eisenhart)在研究“仪器校准系统的精密度和准确度估计”时提出了测量不确定度的概念。其后各国计量部门逐渐使用不确定度来评定测量结果,但采用的方法不尽相同。

1980年国际计量局在征求各国意见的基础上,提出了采用测量不确定度来评定测量结果的建议书INC-119880),1981年第70届国际计量委员会(CIPM)讨论通过了该建议书,形成了CI-1981

1986年国际计量局(BIPM)、国际电工委员会(IEC)、国际标准化组织(ISO)、国际法制计量组织(OIML)、国际理论和应用物理联合会(IUPAP)、国际理论和应用化学联合会(IUPAC)以及国际临床化学联合会(IFCC)等联合成立了工作组,起草关于不确定度评定的指导性文件。并于1993年联合发布了《测量不确定度表示指南》(Guide to the Expression of Uncertainty in Measurement, 简称GUM)。1995年又发布了GUM的修订版。

1999年我国发布了JJF1059-1999《测量不确定度评定与表示》。

   测量不确定度的概念和概念体系所以能够得到承认,其唯一的理由就是它们是适合于表示我们的经验的复合。

 

    2011年7月27日        

第一章              测量误差与不确定度

1.1   真值与测量结果

真值是测量的终极目的。

然而从哲学角度讲,真值即存在也不存在。真值的存在是指真值是客观的,不以人类意志为转移的客观实在;真值的不存在,是指在现实环境中,真值是变化的、瞬时的、运动的。尤其当测量系统接入时,测量系统本身不可避免地对真值产生影响,使得真值的变化性更加难以琢磨,这也是海森堡(Heisenberg)提出了不确定原理的哲学基础之一。

幸好在测量这一认识客观世界逼近真值的过程中,测量人员主要做两件事情就可以满足要求:第一是尽量控制或减少测量的不确定性;第二是评估测量的不确定性。特别是在控制或减少测量不确定性的手段有限时,恰当地评估认识的不确定性则显得更为重要。

为了描述这一不确定性,首先要定义什么是真值,所以有:

定义1:与给定的特定量定义一致的值称为[量的]真值。

这一定义有两重含义:第一,真值是客观的,不能给出的,只能用符号代表的; 第二,真值是主观给定的,与特定量的定义一致,这就是所谓的约定真值。

真值从数学角度可分两类,一类为无界量,一类为有界量。无界量真值是指从理论上真值处于之间,理论上该真值没有确定的边界范围,或在实际测量中,真值远离给定的边界。有界量真值是指从理论上真值必然处于给定区间内,如三角形内角和为180度,百分比量必然处于0100%之间。

为了描述测量的不确定性,其次还要定义什么是测量结果,所以有:

定义2:由测量所得到的赋予被测量的值称为测量结果。

由于测量过程中可能的随机性、测量粗糙性的影响,致使测量结果只是一个模糊值。

1.2     误差

最早的线性误差模型于1877年由Adcock,R,J提出,并给出了误差方差之比一致的条件下测量误差模型的估计【2】。

1901Karl Pearson验证了Adcock的结论,并与1902年提出了这种误差会对实验结果产生影响。

1968CochranKarl Pearson的基础上把几种简单的数学模型应用于测量误差的研究中【3】。

1987年,Fuller W.A 详细讨论了各种假设之下测量误差模型的参数估计,以及测量误差对与单一变量模型、向量模型、非线性模型、因子分析等统计学方法的影响【4】。

    现在沿用的误差定义如下:

定义3:测量结果减去被测量的真值称为[测量]误差。

根据误差的定义,设测量结果为y,真值为x,误差为e,则有:

                                                           1-2-1

所以测量误差只针对一个具体的测量结果而言,不同的测量结果会有不同的误差。

如果考虑实际测量过程中真值的变化性,则第i次测量结果表示为:

                          1-2-2

     式(1-2-2)表示了真实的测量误差模型,其中是第i次测量时刻的真值,是对应的误差。显然测量误差针对的是每次测量所对应的真值和测量结果而言的,相同的测量结果未必就有相同的误差。

     由于式(1-2-2)中的真值在每次测量中都可能变化,为了能够方便的使用,则可以认为在n次测量中,令与给定的特定量定义一致的值(即约定真值)为:

                                                              1-2-3

将式(1-2-3)代入式(1-2-2)有:

                                                 1-2-4

显然式(1-2-4)与式(1-2-1)相同,但是这里的误差是指测量结果减去被测量的约定真值。此时误差不但与测量结果有关,而且与约定真值也有关。

在无特别说明的情况下,本书将作为误差的一部分进行处理,即使用式(1-2-1)作为同一被测量的误差模型,不再另外考虑同一被测量的真值的变化情况。

显然,误差是测量过程引入的,必然对测量过程的一致性提出要求,为此给出了测量过程的重复性条件。

定义4:相同的被测量,相同的测量程序,相同的观测者,在相同的条件下使用相同的测量仪器,相同的地点,在短时间内重复测量合并称为测量的重复性条件。

有了测量重复性条件,就可以对误差进行进一步分析。

单次测量结果与重复性条件下对同一被测量进行无限多次测量所得结果的平均值之差为:

                                                1-2-5

 将式(1-2-1)代入有:

                             1-2-6

从式(1-2-6)可以看出,只与单次测量结果的误差及其期望有关,而其期望又可以表示为:

            1-2-7

因此将误差分为两类,其定义分别如下:

定义5:测量结果与重复性条件下对同一被测量进行无限多次测量所得结果的平均值之差称为随机误差。

定义6:在重复性条件下,对同一被测量进行无限多次测量所得结果的平均值与被测量的真值之差称为系统误差。

显而易见,从数学角度讲,系统误差就是误差的期望,是测量的整体特征;随机误差是单次测量结果与误差的期望之差,是单次测量的数学特征。

通过简单的推导,可以获知随机误差和系统误差具有如下性质:

性质1:随机误差的期望为0;

性质2:对于特定的真值,系统误差为一常数;

对于随机误差的分布,文献【5】给出了广义误差分布的研究成果,本文作如下假设:

假设1:随机误差服从正态分布。

1.3     误差模型

依据(1-2-7)有,代入式(1-1),忽略下标,则有:

                         1-3-1

该式就是对同一被测量进行一次测量的基本测量误差模型。

从数学角度而言,式(1-3-1)是一个非常简单的线性方程,如果知道系统误差和随机误差,则通过一次测量就可以求出真值。然而根据定义,系统误差和随机误差的都需要通过无限测测量才能准确获得,所以在实际测量过程中,要想获得系统误差和随机误差,必须通过其他途径。这一途径就是计量学中的量传溯源体系。

1.4     系统误差的测量

在现有的量传与溯源体系下,对于每个国际单位量,有唯一的国家(国际)基准,这一基准可以认为就是测量中的真值。在理想情况下,对相应的基准进行无限次测量,就能给出系统误差的具体值:

                                 1-4-1

然而,由于不可能进行无限次测量,所以实际中,只能给出有限次测量的平均值:

                                     1-4-2

将式(1-3-1)代入(1-4-2)有:

                                      1-4-3

则每次测量,系统误差的测量值可以表示为:

                                       1-4-4

对于式(1-4-4),希望知道系统误差每次测量值与系统误差真值的偏差:

                                     1-4-5

根据统计学原理,我们希望获得在大样本情况下的测量结果的偏差的分布,根据定义,这一分布的方差为:

                                  1-4-6

将式(1-4-5)代入式(1-4-6)有:

                                1-4-7

由于实际中方差很难求得,根据性质1 ,则可用样本方差代替(1-4-7)式,所以有:

                   1-4-8

上式就是一次测量值的样本方差,对于多次测量的平均值而言,其方差为:

                                1-4-9

现在可以给出在真值给定的情况下,其测量的系统误差估计值和方差。但是从测量角度讲,如果给出只点估计值并不能令人满意。因此如果能够给出区间估计及其概率即的概率,其中k为非负实数。我们就可以对系统误差的测量结果的平均值进行评价。根据假设1,随机误差服从正态分布,因而系统误差的测量结果也服从正态分布,因而我们可以给出这样的一个区间和概率。

然而一般情况下,我们不可能对相应的基准进行测量,而只能对标准进行测量。由于标准的值是通过量传溯源体系得到的,设标准的约定值为,在某个概率下,其系统误差的估计为,显然有:

                                  1-4-10

       其中为标准的真值。则将(1-4-10)代入式(1-4-2),则有:

                                  (1-4-11)

则每次测量可以表示为:

                                 (1-4-12)

对于式(1-4-12),我们希望知道每次测量值与系统误差值的偏差:

                                1-4-13

同样根据统计学原理,我们希望获得在大样本情况下的测量结果的偏差的分布,根据定义,这一分布的方差为:

                                  1-4-14

将式(1-4-13)代入式(1-4-14)有:

                       1-4-15

已知, 为一给定固定值,所以式(1-4-15)可化简为:

                              1-4-16

同样在实际中方差很难求得,则用样本方差代替(1-4-16)式有:

               1-4-17

上式就是一次测量值的样本方差,同样对于测量的平均值而言,其方差为:

                                1-4-18

 现在,我们可以给出一般情况下的系统误差估计值和样本方差,即:

                            1-4-19

                               1-4-20

同理,上述测量值也服从正态分布,所以我们能够给出的区间估计及其概率,其中k为非负实数。

上述系统误差的估计值均针对一个给定的真值而言。如果忽略测量仪器随着时间所产生的细微变化,由于同一仪器的系统误差与被测量的具体真值有关,给定一个被测量的特定真值,同一仪器的系统误差不变。但是当用同一仪器测量不同给定真值的时候,系统误差很难说相同。原因之一是仪器制造原理导致的,因为所有仪器测量的线性区域都是近似给定的,而实际上所有仪器都是非线性的。因此在给定测量范围内,理论上特定仪器的系统误差是由一系列真值对应的系统误差所组成的,而在实际给出过程中,特定仪器的系统误差是由一系列真值对应的系统误差的估计值(每一个估计值都服从正态分布)所组成的。一般仪器制造商给出的就是其仪器测量范围内一系列真值对应的系统误差估计值的上下界。

1.5     被测量之值的测量和评估

假设已知仪器针对某个被测量之值的系统误差测量的估计值和方差,则依据式(1-3-1)有:

                          1-5-1

使用该仪器测量n次之后,其平均值为:

                  1-5-2

可见测量次数的增加,对系统误差的估计值并无影响,只是从概率角度降低随机误差的影响。

此时测量结果平均值的方差为:

                     1-5-3

然而在实际测量当中,由于太复杂,一般情况下不给出系统误差估计值的方差,只给出系统误差的范围。这一范围可能是仪器测量范围内的k为实数)或其他方式获取的各种估计范围。并在仪器测量范围内,针对不同的真值,系统误差的估计值服从特定的概率分布;而针对特定的真值点,系统误差的估计值服从正态分布。

并且,在实际测量过程中,测量人员希望知道系统误差每次测量值与系统误差真值的偏差:

                       1-5-4

同样根据统计学原理,我们希望获得在大样本情况下的测量结果的偏差的分布,根据定义,这一分布的方差为:

                       (1-5-5)

将式(1-5-4)代入式(1-5-5)有:

                    (1-5-6)

   依据性质1和性质3有:

                   1-5-7

同样在实际中方差很难求得,则用样本方差代替(1-5-7)式有:

                     1-5-8

由于实际中系统误差很难求得,则用一个估计量代入,则式(1-5-8)改写为:

                     1-5-9

式中

                              1-5-10

如果能够给出估计量,测量人员就可以对测量结果进行评估。显然其均值的评估公式为:

                     1-5-11

1.6     测量不确定度

定义7:表征合理地赋予被测量之值的分散性,与测量结果相联系的参数称为测量不确定度。

由于式(1-5-9)或(1-5-11)中的是“表征合理地赋予被测量之值的分散性,与测量结果相联系的参数”,所以可以作为测量不确定度的一种,由于其以标准差表示,所以又称为标准不确定度。

对于式(1-5-9)或(1-5-11)中,由于不能用对观测列进行统计分析的方法进行估算,所以称其为B类标准不确定度,而可以用对观测列进行统计分析的方法进行估算,所以称其为A类标准不确定度。

则式(1-3-1)的不确定度公式可记为:

                      1-6-1

其中:

        1-6-2

   则通过如下信息获得:

a)以前观测数据;

b) 对有关技术资料和测量仪器特性的了解和经验;

c)生成部门提供的技术说明文件;

d)校准证书、检定证书或其他文件提供的数据、准确度的等别或等级,包括目前暂在使用的极限误差等;

e)手册或某些资料给出的参考数据及其不确定度;

f)规定试验方法的国家标准或类似技术文件中给出的重复性限r或复现性限R

1.7     标准不确定度的A类评定

    显然在大样本情况下,式(1-5-1)测量值样本的方差就是随机误差的方差。 于是单次测量结果的标准不确定度就为:

                 1-7-1

上式就是通常所讲的贝塞尔公式。

    贝塞尔公式的意义在于,从n个测量值中任取一个作为测量结果,其标准差或不确定度为。然而实际测量中测量人员一般使用均值作为测量结果,此时,如果把n次测量都看作n个随机变量的容量为1的样本,根据概率统计定理有:

                         (1-7-2)

    根据统计学原理,显然当n较小时,样本方差与总体方差相差比较大,所以一般要求。但是在实际测量中,很多测量只进行三次或更少,此时上述公式虽然依旧可用,但是其与总体方差相差比较大,为了能够更好的对总体方差进行估计,一般采用极差法:

            1-7-3

式中极差系数可由表1-7-1给出,其值与测量次数n有关。

1-7-1

N

2

3

4

5

6

7

8

9

10

15

20

1.13

1.69

2.06

2.33

2.53

2.70

2.85

2.97

3.08

3.47

3.73

1.8     标准不确定度的B类评定

标准不确定度的B类评定是指用不同于对观测列进行统计分析的方法,来评定标准不确定度的一种方法。换言之,不确定度的B类评定是不同于A类评定的一种方法。从各种测量的不确定度模型可以得出,只要不能用A类评定获得结果的不确定度,均应使用B类方法进行评定。

从式(1-5-8)、(1-5-9)可以看出,该测量模式下的B类不确定度理论上应满足如下公式:

                                     1-8-1

显然当特定测量对象之值不同时,式(1-8-1)的值极有可能不同。但是由于一般仪器误差只给出其测量范围内的粗糙描述,无法获得针对该测量对象之值的系统误差的准确值。所以进而希望能够给出一个近似估计以满足测量人员对系统误差的估计。

而进行估计必需使用一种统一的方法,目前基本基于概率论。随着研究的深入,使用了模糊理论或粗糙理论进行B类不确定度评定或许成为可能。

通过1.4知道,对于仪器测量范围内真值的系统误差,系统误差在测量范围内的变化情况未知。为此必需先根据有限信息估计系统误差在测量范围内的分布情况,由于真值与系统误差有着一定的联系,上述说法也可以表述成根据有限信息估计系统误差在给定范围内的分布情况。

1.8.1最大熵原理求取系统误差的估计分布

     20世纪50年代,申农创立了信息学理论,并在研究如何度量信号源信号的不确定性的过程中,提出了信息熵的概念。1957年,杰尼斯(E.T.Jayness)提出了最大熵原理【7】,该原理认为:在只掌握部分信息的情况下对未知的分布形态做出推断,应选择符合约束条件同时信息熵取最大的那个分布,其他任何的选择都意味着添加了另外的约束条件,而这些约束条件或假设是无法根据现有信息获得的。

定义8:如果一个事件有n个等可能的结果,那么结果未出现前的不确定程度hn的自然对数成正比,即信息熵为:

                    为常数)                 1-8-1-1

     定义9:如果一个事件有n个结果,每个结果出现的概率为,则其信息熵为:

                                                   1-8-1-2

     定义10 如果一个事件的结果为一维连续随机变量,其概率密度函数为,则在区间的信息熵为:

                                             1-8-1-3

    在规定约束条件下,由最大信息熵原理求“最佳”概率分布,就是求解条件极值问题,一般采用拉格朗日乘子法来求解。

1-8-1-1:量块国际标准规定,钢质量块线膨胀系数应在范围内,求系统误差满足什么分布?

思路一:钢质量块线膨胀系数应在范围内,则表明若随机选取一钢质量块,其线膨胀系数的真值 内,那么所有钢质量块线膨胀系数的真值服从什么分布呢?根据最大熵原理有,假设其概率密度函数为,令,则其信息熵及满足的条件为:

                                              1-8-1-4

结合拉格朗日乘子法有:

                               1-8-1-5

根据极值条件,则有:

                                                    1-8-1-6

解该方程,则有:

                                               1-8-1-7

将上式代入条件有:

                          1-8-1-8

所以有:

                                                        1-8-1-9

 即:

                                                        1-8-1-10

代入有:

                 

这说明所有钢质量块的线膨胀系数服从矩形分布。

对于这样的结论有时让人困惑,这是因为当钢质量块给定时,其一定条件下的真值必然不变,而我们却给出了它的分布。实际上这一理解的假设条件是所有的钢质量块的线膨胀系数的真值是相同的,或者是把所有钢质量块线膨胀系数的平均值看作是特定刚质量快的真值。然而当真值给定时,上式结论也就变为了系统误差的分布,所以从这个角度而言,上式结论就是系统误差分布的概率密度。

思路二:特定的钢质量块线膨胀系数应在范围内,当使用该钢质量块进行测量时,钢质量块线膨胀系数的真值虽然确定但是未知,其系统误差的范围为 那么该钢质量块线膨胀系数的系统误差服从什么分布呢?根据最大熵原理有,假设其概率密度函数为,令,则其信息熵及满足的条件为:

结合拉格朗日乘子法求解该方程亦有:

从上述两种求解思路来看,其结论是一致的,但是其测量学意义却有很大的差别,思路二中的系统误差的机理可参见1.4,其本质原因是人类测量能力的有限性导致的。而思路一中系统误差的机理却是基于仪器总体和真值的假设,根据奥克姆剃刀理论“如果多个理论同时都能解释某一现象,那么我们优先取利用假设最少的理论,这个理论被认为是最好的。所以使用时应根据不同情况进行区分。

1.8.2 基于系统误差的估计分布求取B类标准不确定度

给定了系统误差的估计分布之后,选定那个量作为B类标准不确定度呢?随机变量的概率分布有两个基本的统计特征量:期望和方差。由于一般情况下,从仪器总体的角度理解,系统误差的期望为零,显然这一方差能够作为系统误差平方的一个估计;另一个很好的选择理由是由于A类标准不确定度采用了测量数据的方差,所以我们选择系统误差概率分布的方差作为B类标准不确定度。

所以求出系统误差的估计分布之后,求该分布的方差即求出了对应的B类标准不确定度。表1-8-2-1给出了利用最大熵原理求解系统误差常用分布和不确定度的结论。

1-8-2-1:常用系统误差信息对应的概率分布及B类标准不确定度

已知信息

服从的分布

概率密度函数

B类标准不确定度

特殊情况下的B类标准不确定度

只给出量取两个可能值

两点

量在某个范围内符合正弦变化或符合醉汉游走的规律时

U

只给出量在某个范围

矩形分布

待求量由两个独立的量的和组成,两个量的已知信息为相应的值在某个范围

梯形分布

其中:

     

 

时有:

待求量由两个独立的量的和组成,两个量的已知信息为相应的值在某个范围 且有

三角

其中:

     

     

1-8-2-1:手册中给出纯铜在时的线膨胀系数,并说明此值变化的半范围为

解:根据已知信息,系统误差给定在一个范围内,通过表1已知其为矩形分布,则相应的B类标准不确定度为

1-8-2-2:数字显示式测量仪器,如其分辨力为,求其B类标准不确定度。

解:根据已知信息,应分辨力为,则其分辨力可能导致的最大误差的绝对值为,则根据表1符合矩形分布,因此其相应的B类标准不确定度为

1-8-2-3:在规定试验方法的国家标准或类似技术文件中,按规定的测量条件,明确指出了两次测量结果之差的重复性限或复现性限,求其B类标准不确定度。

解:根据重复性限或复现性限的形成机制可知,重复性限或复现性限的值符合醉汉游走的规律,故根据表1符合U型分布,因此其相应的B类标准不确定度为

1-8-2-4:在空调的试验室内,已知空气温度在范围内进行正弦变化,则求其B类标准不确定度。

解: 根据表1该类型符合U型分布,因此其相应的B类标准不确定度为

1.8.3 根据观测数据求取B类标准不确定度

有时候系统误差通过1.4的方法进行测量,而没有其他信息,这时就需要通过1.4提供的方法对相应的系统误差进行估算,进而求其B类标准不确定度。

1-8-3-1:数字电压表制造厂说明书说明:仪器校准后1-2年内,在1V内示值最大允许误差的模为(读数)(范围),求其校准后20月在1V内的B类标准不确定度。

解:其校准后20月在1V内,在重复性条件下独立进行测量,获得电压的平均值为 ,方差为 (在求取方差的过程中使用了A类标准不确定度的评定方法),则电压表最大允许误差的模:

显然根据表1,该类型符合矩形分布,因此其相应的B类标准不确定度为

1.8.4 根据给定不确定度求取B类标准不确定度

如仪器的校准证书上给出了其扩展不确定度和包含因子,则其B类标准不确定度可通过如下公式计算:

                                            (1-8-4-1)

1-8-4-1:校准证书上指出标称值为1kg的砝码质量 ,并说明包含因子的扩展不确定度为,求其B类标准不确定度。

解:根据式(1-8-4-1),其B类标准不确定度为

            

     如仪器的扩展不确定度是按置信概率给出的半宽,除非另有说明,一般按正态分布考虑并查表1-8-4-1获得包含因子评定其B类标准不确定度。

1-8-4-1 正态分布情况下置信概率与包含因子的关系

50

68.27

90

95

95.45

99

99.73

0.67

1

1.645

1.960

2

2.576

3

1-8-4-2:校准证书上给出标称值为的标准电阻器的电阻时为:

         

其置信概率为,求其B类标准不确定度。

解: 显然仪器的扩展不确定度是按置信概率给出,其半宽。由于没有其他情况说明,则按正态分布考虑,查表1-8-4-1知其包含因子,根据式(1-8-4-1),其B类标准不确定度为