统计学(statistics)作为一门科学始于19世纪,但统计工作自古就有。统计工作最初是为统治者治理国家的需要而组织的收集资料的工作,迄今已有几千年的历史。早在古埃及时期,国王为修建金字塔征收税款,就曾对全国人口与财产做过调查统计。古希腊及罗马时期,许多国家用统计方法进行人口调查和财产登记,并且从各国统计数字的差别中研究各国的政治经济情况,曾称之为“政治算术”。中国也曾在大禹治水时,划全国为九州,分田赋为九等,编制《禹贡九州篇》作为分配贡赋的依据。
从语源角度看,英语中的“statistics” 一词源自拉丁文“status”,意思是“对各种现象或基本情况进行简单的估量”。在拉丁语系中,“统计(statistic)”和“国家(state)”出于同一语源。意大利人根据“status”一词,把它演变成意大利文“stato”,其含义为“国家概念,国家机构和国力的总称”。这时的“stato”与“计量”只有隐含的联系。到17世纪,德国人又在“stato”基础上,把它明确地发展成为德文的“statistika”,正式命名为“统计学”,意思是“国家应该注意的事实学问”,包括国家的组织、人口、军队、国民职业和地上地下资源等。但当时“统计”多用文字表述,极少用数字。直到1749年,德国统计学中的国势学派仍把统计学的目标定为“国家显著事实的记载”。当时,统计学尚未成为真正的科学。随后,英国数学家配第(William Petty,1623—1687)把德文的“statistika”改成英文的“statistics”,意思是“专门研究各种数量”,数字是它的专用语言形式,于是人们称之为“统计学”。现在,英文“statistics”一词有好几个意思:一个是指这门学科本身,指它的知识总体;第二个是指许多统计测量值组成的一个集合;第三个是指统计技术或统计量。
【资料卡1-2】
威廉·配第——统计学之父
英国数学家,一位多才多艺学识渊博的人。一生有过许多发明,最有名的是复印机,并于1647年获得专利,最著名的著作是他死后才出版的《政治算术》(1690)(陈冬野译,商务印书馆,1963年),政治算术亦即用数字表达国情事实。他有一句至今仍流行的名言:“我们用长度和重量来反映一个国家的情况。”
马克思在《资本论》中写道,配第是政治经济学之父,在某种程度上也可以说是统计学的创始人。配第在统计方法方面贡献非常杰出,在计量方法、图表方法、分组方法、推算方法等方面都有建树。正如他的长子查理·配第(Charles Petty,1673—1696)在写信给国王威廉三世的呈文中说,“千万人都把先父看做是这一启示方法的发明人。”从统计理论和统计方法来看,配第的贡献已初步地为近代统计学奠定了基础。
——资料来源:高庆丰编著,《欧美统计学史》,北京:中国统计出版社,1987,第33~38页
随着社会的发展和科学技术的进步,统计学的应用范围也日益扩大,由社会经济方面扩展到自然科学技术方面,最后形成了经济统计学与数理统计学两个系统。数理统计的发展又经历了两个阶段:描述统计学与推论统计学。在这一发展历程中,出现了一些影响统计学科产生发展的重大事件和里程碑式的人物。
(一)统计学的理论基础——概率论与正态分布曲线方程的产生
16世纪,伽利略为解答赌徒们提出的问题提出了概率论的基本理论。17世纪中期,法国数学家帕斯卡(Blaise Pascal,1623—1662)和费马(Pierre de Fermat,1601—1665)在讨论解决赌博难题中,创立了概率论,为统计学的发展奠定了重要理论基础。
17世纪末18世纪初,瑞士数学家贝努里(Jakob Bernoulli,1654—1705)创立了贝努里定理,并提出概率论可应用于社会、伦理及经济事务的见解。贝努里定理的产生,为发现正态概率分布创造了条件。1733年,棣莫弗(Abraham de Moivre,1667—1754)提出了正态分布概率和概率的乘法运算法则,推广了贝努里定理,推导出“正态曲线方程”。几十年后,高斯(Karl Friedrich Gauss,1777—1855)和拉普拉斯(Pierre Simon de Laplace,1749—1827)各自独立发现了这个方程。高斯还首次提出了正态分布曲线。到 19世纪初期,泊松(Siméon Denis Poisson,1781—1840)积极推广贝努里定理,提出“大数定理”。这些数学家为概率论的发展作出了很大贡献,这个时期的概率论称为古典概率论。
(二)数理统计的产生与发展——描述统计学与推论统计学
数理统计学的奠基人是比利时的统计学家凯特勒(Lambert Adolphe Jacques Quételet,1796—1874),他首先提出要把统计学与数学中的概率论相结合,以概率论为理论基础确立统计研究方法。1867年,德国的韦特斯坦(T.Wittstein)第一次提出“数理统计”一词,以后又发展为数理统计学派。数理统计的发展经历了两个阶段:描述统计学与推论统计学。描述统计学产生于20世纪20年代之前,以高尔顿(Francis Galton,1822—1911)和皮尔逊(Karl Pearson,1857—1936)为代表。推论统计学产生于20年代之后,以费舍(Ronald Aylmer Fisher,1890—1962)为代表。这两个阶段是渐进发展的,在时间上并无明显的分界。
19世纪末期,在生物学、优生学、心理学的研究中,高尔顿努力探索简化数据的途径和方法,提出了中位数、百分位数、四分差等描述统计学的重要概念。在与他的学生皮尔逊研究人类智力与体力的遗传等问题时,提出了相关与回归概念,相关与回归系数的计算方法。皮尔逊发表了频率曲线理论,提出直线相关系数的计算方法。1900年,皮尔逊推导并系统地阐明了配合度检验方法,并将相关与回归理论扩展到许多领域,为大样本理论奠定了基础。他的贡献,为推论统计学的发展准备了一定的条件。
1908年,英国数理统计学家格赛特(William Sealy Gosset,1876—1937)有感于大样本理论的限制,开始建立小样本理论,提出了一种根据样本资料估计均数的检验方法,即t分布理论,从而开辟了在样本数目较小的情况下进行统计推论的新途径,但这一工作未能得到老师皮尔逊的重视。直到1923年经费舍数理论证,指出其应用价值后,这种小样本技术才得到广泛承认。t检验也成为今天应用得非常广泛的统计检验方法之一。
推论统计真正的创始者是英国的费舍,他是20世纪初对统计学作出最大贡献的科学家。他将皮尔逊及格赛特的工作发扬光大,对t分布给出理论论证,最先提出F分布理论,后被命名为F分布,使方差分析系统化。第一次世界大战后,他在农业试验中首倡 “实验设计”,提出了随机化概念,建立了点估计与区间估计理论,发展并确立了推论统计思想,使统计方法的应用范围更为广泛。1925年,他出版了数理统计名著《研究工作者用统计方法》一书,对促进推论统计学的发展影响很大。1938年他与耶茨(Frank Yates,1902—1994)合编《供生物、农业与医学研究用统计表》,1956年出版了《统计方法与科学推论》。第二次世界大战以后,非参数方法、序列分析、随机过程的研究、小样本分布这些都逐渐被认识和应用。而且随着一元统计方法的逐步完善与拓宽,多元统计理论与方法也被应用到各种实际研究中去。数理统计由此产生了许多应用分支学科,为工农业生产及科学研究开辟了广阔的应用前景。同时,实践的发展又为数理统计的发展提出了很多新课题。