就去读小说网 > 文学电子书 > 女士品茶 >

第3章

女士品茶-第3章

小说: 女士品茶 字数: 每页4000字

按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!



砜怂迹↘arl Marx)的著作,为了表达崇拜之情,他把自己名字的拼法从Carl改成Karl。带着政治学博士的学位,他回到了伦敦,并在这个领域写过两本值得重视的著作。在维多利亚时代的英国,伦敦的拘谨之风最甚,K?皮尔逊却大胆地效仿德国和法国上流社会的沙龙,组织了一个青年男女谈话俱乐部(Young Mens and Womens Discussion Club)。俱乐部的青年男女平等地聚焦在一起(未婚少女并没有人陪伴),讨论世界上重大的政治和哲学问题。K?皮尔逊正是在那种环境下与夫人相遇而结缘的,这个事实使人感到发起这类俱乐部可能另有动机。这个小小的社会冒险对我们进入K?皮尔逊的内心世界提供了帮助,可以见证他对已经建立起来的传统是那样地不以为意。
尽管拿的是政治学博士学位,K?皮尔逊的主要兴趣还是在科学哲学和数学模型的性质上。19世纪80年代,他发表了《科学的法则》(The Grammar of Science),这本书后来再版了多次。在第一次世界大战之前的一段时间里,它被视为关于科学和数学性质最伟大的著作之一,其中充满了闪光的、原创性的、最具洞察力的见解,这使该书成为科学哲学的一本重要著作。同时,它又是以流畅、简单的风格写成,任何人都可以接受,你不必懂得数学就可以理解《科学的法则》。尽管从写作之日算起,这本书已经有100多年的历史了,但其中充满洞察力的见解和思想,对21世纪的数学研究,仍然是适用的。而它所提供的对科学性质的理解,至今也是真实的。

高尔顿的生物统计实验室
在人生的这个时段,K?皮尔逊感受到了英国科学家弗朗西斯?高尔顿(Francis Galton)爵士的影响。大多数人知道高尔顿这个名字,缘于他是指纹现象的“发现者”。高尔顿的贡献是认识到指纹对每一个人都是独特的,此外,还有通常用于识别和分类指纹的方法。指纹的唯一性存在于手指类型中出现的不规则标识和切面,这被称为“高尔顿标识”(Galton Marks)。高尔顿做的远比这多,作为一个只是将生物学算作其业余爱好的科学家,通过数字模型的研究,他寻求将数学的严密引入生物学,这同样是富有价值的。他所初创的各种调查当中的一项,是对天才遗传的研究。在这项研究中,他搜集了有关父子的信息,这些人因智商高而闻名。但由于当时对智力的测量没有什么好的办法,他发现研究这个问题特别困难,于是他决定转向诸如身高之类的遗传特性的研究,因为这更容易测量些。
高尔顿在伦敦成立了生物统计实验室(biometrical laboratory),并打广告动员不同的家庭来做测量。在这个实验室,他搜集身高、体重数据,测量特殊的骨骼和家庭成员的其它特性。他和他的助手将这些数据列成表格,并一再检验,他是在寻找利用父母测度数据来推断子女的某些办法。比如说,很明显,高个子父母很容易有高个子的小孩,但是不是存在某些数学公式,只用父母的身高就可以预测孩子将有多高呢?

相关与回归
高尔顿用这种方法,发现了他称之为“向平均回归”(regression to the mean)的现象,这表现为:非常高的父亲,其儿子往往要比父亲矮一些;而非常矮的父亲,其儿子往往要比父亲高一些。似乎是某种神秘的力量,使得人类的身高从高矮两极移向所有人的平均值。不只是人类身高存在着向平均数回归的现象,几乎所有的科学观察都着了魔似的向平均值回归。在第5章到第7章,我们将看到,费歇尔如何能够将高尔顿向平均值回归的思想纳入统计模型,而这种模型现在支配着经济学、医学研究和工程学的很多内容。高尔顿仔细思考了他的惊人发现,而后认识到这必定是真实的,在进行所有观察之前这就是可以预言的。他说,假设不发生这种向平均值的回归,那么从平均意义上看,高身材父亲的儿子将与他们的父亲一样高,在这种情况下,一些儿子的身材必须高于他们的父亲,以抵消身材比父亲矮小者的影响,使平均值不变。高身材者这一代人的儿子也将如此,那么会有一些儿子身材更高。这个过程将一代一代延续下去。同样地,将会有一部分儿子身材比他们的父亲矮小,而且有一部分孙子将更加矮小,如此下去,不用多少代,人类种族就将由特别高和特别矮的两极构成。
上述的情形并没有发生,人类的身高在平均意义上趋向于保持稳定。只有当非常高的父亲其儿子平均身材变矮,而非常矮的父亲其儿子的平均身材变高,才能出现这种稳定。向平均值回归是一种保持稳定性的现象,它使得某给定物种代际之间大致相同。
高尔顿发现了这种关系的一种数学测度,他称之为“相关系数”(coefficient of correlation)。高尔顿给出了明确的公式,以计算这个系数,所用的资料则是在生物测量实验室搜集的。这是一个非常详细而明确的公式,它只计算了向平均值回归的一个方面,但没有告诉我们任何有关这种现象原因的信息。正是在这个意义上,高尔顿最先使用了“相关”这个字眼,这之后它演变进入了大众词汇。与高尔顿特定的相关系数相比,“相关”经常被用来表示更为模糊的东西,尽管“相关”本身有严格的科学含义。科学圈外的人经常说到这个词,似乎它描述了两种事物如何相联系,但除非你涉及到高尔顿的数学测量,否则,当你使用高尔顿用于特别目的的“相关”这个词时,它不必那么精确。

分布与参数
有了这个计算相关的公式,高尔顿实际上已经非常接近新的革命性观念了,这个观念革命在20世纪几乎修正了所有的学科。但却是他的弟子K?皮尔逊,在非常完整的意义上第一个规范地阐明了这个观念。
为了理解这个革命性的观念,你必须将已有的关于科学的成见抛开。通常我们被教导,科学就是测量,我们进行精心的测量,并用它来寻找描述自然的数学公式。在高中的物理课中我们学过,当时间给定时,一个自由落体的运行将遵循一个含有符号“g”的公式,这里的“g”是关于重力加速度的常量。我们学过可以用来确定“g”的值的实验。然而,当高中生们进行一系列确定值的实验时,顺着斜板滚动小球,并测量小球需要多长时间到达不同的位置时,发生了什么呢?这就是很少得出确切的结果。学生进行实验的时间越长,困惑就越多,因为不同的实验得出了不同的“g”值。老师仅凭自己优越的知识来审视学生的实验,并认定学生之所以得不到正确的结果,要么是因为工作草率,要么是因为不够细致,要么是抄错了数据。
老师没有告诉学生的是:所有的实验都是草率的,并且,即使是最精心的科学家,也很少得到确切的数值。不可预见和不可观察的小扰动在每一个实验中都有:室内的空气可能太潮湿,或者落体在滚动前卡住了一个微秒,旁边飞过的蝴蝶可能会有其影响:造成气流的轻微扰动。人们从一个实验中真正得到的是散乱的数据,其中没有一个单个数据是确切的,但所有这些数据可以用来对确切值进行近似的估计。
武装了K?皮尔逊的革命性观念,我们就不再将实验结果看作精心测量得出的数据,它们也不是本来就确切的,用更容易接受的术语来代替:它们是一组散布数据,或一个数据分布中的样本。数据的分布可以写成数学公式,它告诉我的数值是不可预测的,我们只能谈论概率值而不是确定值,单个实验的结果是随机的,在这个意义上看它们是不可预测的,然而,分布的统计模型却使我们能够描述这种随机的数学性质。
科学家花了一些时间才认识到观测值所固有的随机性质。在18和19世纪,天文学家和物理学家创造出描述他们观察值的数学公式,达到了可接受的精确程度,在为测量工具不够精确,所以观察值与预测值之间的是预料之中的,可以忽略不计。星体和其它天体的运动被假定遵循运动基本公式所确定的精确路径,其不确定性是由于简陋的测量工具造成的,并不是其固有的性质。
随着物理学中更为精确的测量工具的发展,随着将这种测量科学扩展到生物学和社会学的尝试,大自然所固有的随机性越来越明显了。怎么处理它?一种办法是坚持数学公式的精确性,将观测值与预测值之间的离差视为小的、无关紧要的误差。事实上,早在1820年,拉普拉斯的数学论文描述了第一个概率分布,即误差分布,那是一个与这些小的、无关紧要的误差相联系的概率的数学公式。这个误差分布以钟形曲线(bellshaped curve)或正态分布(the normal distribution )的说法进入了大众的词汇。
这使K?皮尔逊比正态分布或误差分布更进了一步,审视生物学中积累的数据。K?皮尔逊认为,测量值本身,而不是测量的误差,就具有一种正态分布。我们所测量的,实际上是随机散布的一部分,它们的概率通过数学函数——分布函数被描述出来。K?皮尔逊发现了被他称为“偏斜分布”(skew distribution)的一组分布函数,他宣称,这组函数可以描述科学家在数据中可能遇到的任何散布类型,这组函数中的每一个分布由四个数字所确定。
用来确定分布函数的这些数字与测量中的数字不属于同一类型,这些数字决不会被观察到的,但可以从观测值散布的方式中推导出来。这些数字后来被称为参数(parameters——源自希腊语,意思是“几乎测量”(almost measurements))。能够完整地描述K?皮尔逊体系中数字的四个参数分别被称为:
1。 平均数(the mean)——测量值散布状态的中间值;
2。 标准差(the standard deviation)——测量值的散布与平均值偏离有多远;
3。 对称性(symmetry)——测量值在平均值一侧规程的程度;
4。 峰度(kurtosis)——个别的观测值偏离平均值有多远。
用K?皮尔逊偏斜分布体系去考虑问题,思路会有一种微妙的转移。在K?皮尔逊之前,科学所处理的事情都是真实的。开普勒试图发现行星如何在空间运行的数学规律;威廉?哈维的实验打算确定血液如何在某一特定动物的静脉和动脉中游动;化学则处理元素和由元素组成的化合物。然而,开普勒所试图追踪的“行星”实际上是一组数据,用来给地球上的观测者所看到的天空中微弱的光点定位。单匹马身上血液通过静脉流动的实际情形,也许与在另一匹马或者一个人身上所可能看到的不同。没有人能够生产出纯铁的样本,尽管谁都知道铁是一种元素。
K?皮尔逊提出,这些观测到的现象只是一种随机的映像,不是真实的,所谓的真实是概率分布。科学中真实的东西并不是我们所能观测到或能把握到的,它们只是通过用来描述我们所观测事物随机性的数学函数来反应。科学调查中我们真正想确定的,是分布的四个参数。从某种意义上说,我们永远不能确定这四个参数的真实数值,而只可能从资料中估计它们。
K?皮尔逊并没有意识到这关键的一点,他以为,如果我们能够搜集到足够的数据去估计参数,就会得到参数的真实数值。而他的年轻对手费歇尔指出,K?皮尔逊的许多估计方法并不是最优的,在20世纪30年代末期,当K?皮尔逊临近他漫长生命的终点之际,一位杰出的波兰年轻数学家耶日?奈曼(Jerzy Neyman)表明,K?皮尔逊的偏斜分布体系并没有包含所有可能存在的分布,许多重要问题不能用K?皮尔逊的体系解决。
还是让我们离开1934年那个被离弃的老皮尔逊吧。回到他三四十岁、精力充沛的时期,那时的他对自己所发现的偏斜分布充满了热情。1897年,他接管了高尔顿在伦敦的生物统计实验室,带领一支年轻的娘子军(被称为“计算员”),计算高尔顿所积累的人种测量数据的分布参数。在20世纪之交,高尔顿、K?皮尔逊和R?韦尔登(Rerhael Weldon)共同努力,创办了一个新的科学期刊,这将使K?皮尔逊的观点应用到生物数据上。高尔顿用他的个人财富建立了一个信托基金支持这个期刊。在第一期,编辑们提出了一个雄心勃勃的计划。

生物统计计划
当时,英国科学家中有一位杰出的人物,他就是达尔文,同期的科学家们致力于探索达尔文富有洞察力的见解,高尔顿、K?皮尔逊和韦尔登便是其中相当热心的骨干。达尔文的进化理论认为,生命形式随着环境压力而变化,他提出,变化的环境会给更适应新环境的随机变化提供些许的优势,渐渐地,伴随着环境改变和生命形式继续发生随机转变�

返回目录 上一页 下一页 回到顶部 0 0

你可能喜欢的