学习统计学需要掌握哪些知识(超级长文,但很受用!)
这是一个很好的问题,对于新手、特别是非统计科班出身的人来说,心里总是有这样的顾虑,掌握的统计学基础只是不够,然而又应该从哪里入手呢?以下是整理自知乎的一些答案,希望对大家会有所帮助。
我想应该首先问提问者的是,你想要:1)纯粹做一个统计的消费者;还是2)要用统计做应用研究;还是3)深度理解统计方法?
如果是1)的话有很多通俗的统计入门读物介绍生活中会碰到的统计数字和口径。比方说Charlse Wheelan的Naked Statistics: Strippingthe Dread from the Data,就是一本很不错的书。
如果是2)的话,我想不出有什么书可以看。知识的话有基本的代数和高中几何知识就可以的。现在美国高校里研究生专业做应用方向的(比方公共政策、教育测量和统计、某些语言学分支)所开设的课程并不要求懂微积分或者高等代数。当然这种应用取向的方法并不受很多统计科班出身的老师的青睐。但是优点是从分析的问题本身出发,可以抓住学生的兴趣,毕竟大部分人并不想了解统计的细枝末节。我以前在语言学系听过听过一门课,老师直接就对没有高数基础的学生用Analyzing Linguistic data: A Practical Introduction to Statisticsusing R 这本书。把软件和统计知识作为分析工具(对语言学现象)来教。我觉得也是一种路径可供尝试。找到你感兴趣的学科,然后读一两本该学科内定量/统计分析的书。
如果是3)那么就像其他很多人已经回答的,数学分析、高等代数、概率论是很必要的工具。离开它们便无法掌握统计的根基。再往上就看你所走的专业不同了。统计系的培养可能按照多元统计、随机过程、统计抽样……等等展开,经济系的话就是各种计量方法。入门的书可以看Wooldridge的Introductory Econometrics: AModern Approach,涵盖了大部分的基本知识。还有Angrist Pischke的Most Harmless Econometrics(第二部分Core),可以在比较短的篇幅内掌握核心知识。整个系统的训练至少需要2年(依你自己的数理背景而定)。
@朱雪宁:
没想到我这样一个半路出家学统计半瓶醋晃荡的人居然被邀请回答“如何学统计”这样的问题 =w=。我本科是学数学的,大三开始才开始接触统计,由于不是统计科班出身,我当时一下子接触的是statistical modeling的东西,我并不知道这个东西叫做“统计”,只是当时正在搞数学建模的东西,觉得这个东西从模型的角度来说简直太fancy了!我其实觉得兴趣对于学习来说很重要,到现在为止还是觉得掌握的大多数知识都是兴趣驱动的。这算个开端,接下来有意识的选修了一些统计系的课程,基本是统计学的经典课程,发现统计和数学有区别也有联系,培养的思维和习惯也有所区别,基本来说,我觉得统计是美的,它很简洁,但是很有智慧。
举个例子,每个学统计的人都会学数理统计,其实很多搞应用的人并不了解统计,原因是他们没有受过系统的统计训练,无论经典统计在现在受到多大的冲击,我始终觉得学习经典的理论和思想是大有脾益的,比如假设检验,我们学得仅不仅是手段,而且是一种思维,比如type 1 error和type 2 error之间怎么tradeoff,还有样本量的大小有什么影响?这背后隐藏的是中心极限定理,它们是浑然一体的。所以我觉得基础和经典也要学,比如,数理统计,概率论,线性代数,数学分析。
接下来,统计是跟现实和应用结合及其紧密的学问,尤其是如何利用统计来分析现实问题。可以接触一下现实问题,我始终觉得问题驱动的学习是比较有效率的。比如数据挖掘,就可以去参加kaggle上的各种比赛,当然啦,最好找一个靠谱的小伙伴=w=,自己单干也ok。对于经典算法,比如聚类啊分类啊回归啊神马的我觉得完全可以自己模拟数据写个算法体验一下,千万不要小看实现能力与编程能力,这很容易成为统计系学生的瓶颈。结合一门统计语言来学我觉得蛮好的,比如R语言,可以看一些《R语言实战》,《datamining with R》之类的书,跟着做一下,不过我自己是遇到问题就google或者泡bbs(国内的话可以去cos)或者stackoverflow(我觉得这个网站上绝对是超级professional的码农有木有!),一般自己遇到的问题亲手解决了超有成就感,不过总的来说,思想还是最重要的,边做边学吧~~~
@李少洋:
想学统计学真的要看什么应用导向,这里大致按需求向上:
文科生大致就是在要求数学模型的导向下希望应用统计方法,鉴于文科数学基础薄弱,推荐吴喜之的 《统计学基本概念和方法》,是一本译作,最大的特色就是正文中木有数学公式,讲清楚统计方法都在干什么,这点足够吸引了;贾俊平的《统计学》有些公式,难度较友好;工科类统计方法并不是重点,浙大的《概率论与数理统计》应该够用,更详细的有茆诗松的《概率论与数理统计》;医学类的话包括生物在内,主要是分析实验数据,浙大的《概率论与数理统计》加上《属性数据分析》应该能够满足需要,或者再实验设计上有需求的,加上《实验设计与方差分析》;
经管类的话,主要用的是回归分析方面,他们又另一个名称叫做计量经济学,推荐《Introduction to Econometrics》作者James H.Stock可以找找有没有中文版;还有《国民经济核算》这种课程,不过严格说来这个更像会计;文科和经管类可能会涉及到抽样,人大的《抽样技术》推荐;金融类应该是进阶级,在经管类的基础上,可能会需要对股票期权等等做研究,《时间序列分析》和《随机过程》应该是必备的两门课程,这个推荐华章译丛的,有结合软件讲;数理统计和概率论(数学)类,请接受专业指导;数据挖掘,机器学习,人工智能等等,请接受专业指导;
软件方面:excel,SPSS对于非专业人士足够了,请仔细阅读软件提供的帮助,结合知识正确使用方法和解释结果;Eviews做时间序列不错,Stata做回归也就是计量不错,这都是经济类偏爱的;SAS是美国FDA要求使用的软件,所以医学生物类如果学校有条件,尽量用,不过这个license很贵。。;MATLAB也是不错的选择,矩阵运算很棒,自带的函数也很方便;还有R,软件不大,还有很多包可以下,目前有很多人用资源应该比较丰富,运算的效率木有MATLAB高,最关键它免费~
无论什么用途,基本的概率论知识和数理统计方法是必要的,微积分是不可避免的,非理论研究的话,大学的高数足够;有一门课没有提到《实用多元统计分析》(清华出版,国家盗版,有相应中文版),涉及到多变量问题,多元回归,聚类判别,主成分因子分析等等,有大量矩阵运算,线性代数是必要的先修课;再难到了非参数方面,需要的数学工具也越来越多越来越难;对这方面有兴趣的,可以看看陈希孺的相关书籍大体这样,欢迎指正补充~
@肖玄:
我认为首先要明确的是学统计干什么,如果有明确的作用,比如时间序列,市场调研这些,那么推荐书籍各不一样,统计终究只是一个工具,在实际运用中的偏重和变化还是蛮大的,如果不是有特别的目的,只是想要了解统计的话建议从理论基础看起,再看一些实际操作的书会比较好。
基础书籍,我看前面各位大师都推荐的差不多了,就不详细写了,就简单写一下我理解的基础书籍涉及的方面
第一个是《统计学基础》,建议这个先看,至少能大致了解统计是什么东西。只看过人大版的,私底下觉得逻辑还是有点问题,大神勿喷,也许是我脑子笨。不过作为入门还是不错的。
接下来就是《概率论与数理统计》,这是所有数学学科中最霸气的一门,没有之一。
然后是《多元统计》《时间序列》,基本上到这里统计大致的框架已经有了。
其他的《非参数统计》、《贝叶斯统计》等等看自己需要。
另外这里推荐一本非主流的书,高级调查分析师考试中的《预测与决策》教材,这是我最喜欢的一本统计相关的教材,没有之一。但是貌似现在要买到比较难,如果有哪位知友知道哪里有买,那么求共享,我也只有一个打印的版本。
操作书籍,好吧,我知道这4个字比较糙,大家将就看。
如果要涉及开源软件,建议R,知乎上面关于学习R的数据推荐太多,不重复了,自己搜一下就行了。
就说一下SPSS,这里推荐第一个是中文版的SPSS操作手册,这个绝对是宝典,另外可以参考一本实际案例的书,哪本都行,关键是要跟着案例自己去操作分析。
通俗书籍,最后推荐一点统计的通俗书籍,理论毕竟看起来太烦,通俗的读物可以帮助更多的理解,像《统计陷阱》,《深入浅出统计学》,这些都适合入门的看一下。另外如果有明确的目的,最好看一下统计学之前分析的方法,比如如果你做市场分析方面的话,可以去了解下消费者行为学,市场营销理论,这样才能了解统计在学科上的意义。
@邹日佳:
还是强烈推荐先把理论搞清楚,见过直接上软件搞统计的,解释数据一塌糊涂,连回归做的是因变量的期望都不知道。
前期需要:微积分
统计学知识较深,用的地方非常广,还是希望说一下您想做什么用。是在工程上用?还是在临床试验上用?还是基因组排序上用?处理金融资产实现无风险套利时用?亦或是在法律统计上用?
无论怎样,数理方面一定要过关,不论是t统计量、卡方统计量、F统计量,一定要知道它的式子是个什么形式,这样才好说明意义,也才好进行筛选与对比,可以找《概率论与数理统计》这本书看一看
能做统计的软件太多了,SAS、R、S-PLUS、SPSS、Eviews、Matlab,都可以以后学的统计知识得看你想拿它做什么用,软件也要根据你不同的用处来选择,等你修改好问题后,我会再来具体说明的。
@尚可:
因为不知道题主是在哪方面需要接触到统计学,下面仅从我自己的接触的方面说一下,希望对题主有帮助。因为我是从心理统计开始接触的统计学,所以很多概念和书可能涉及心理学方面的多一些。统计的话主要分数理统计和推论统计两大块,数理统计的话基本是个人都能理解,你只需要简单的代数基础就行了,这个对咱中国人不是问题。推论统计的话我觉得是统计学中最有价值的部分,也是统计学的魅力所在,这反面学习的话主要在于统计思想与概念的理解,而且入门书籍很重要(我在这上面吃过亏,导致死钻技术的运用,但其实不怎么理解为什么要这样,搞的自己也很痛苦),只要基本思想你理解了,自学的过程会很顺畅。
书籍推荐:
心理统计(第9版) 人民邮电出版社 作者理查德·鲁尼恩 这本书让我受益匪浅,也是从这本书才把统计学的各种概念理解清楚,书是全英的,也比较厚,但是千万不要被这些表象吓到,书中的英文都很基础,例子也比价多,而且作者写的深入浅出,是专门为国外对统计学也头疼的学生写的教材,被很多学校选作教材,很受欢迎的。由于国内很多统计书籍都是从国外翻过来,同一个统计学名词会有好几种翻译,这本书也可以帮你理解这几个名词其实说的都是一个东西。
统计学的世界(第5版)中信出版社 作者戴维·S·穆尔 这本书是中信引进的,有中文版,写的也是相当通俗易懂,书中也有相当的习题会帮助你巩固所学的知识点,也会加强你对概念的理解,让你爱上统计学。
现代心理与教育统计学 北京师范大学出版社出版 作者张厚粲、徐建平,张奶奶算是国内心理统计方面的泰山北斗,这本书对知识点的吸收比较全,论述也详尽,但是个别方面的话需要多看几遍,不然不太好理解,可以对照其他的书来看,学透的话能帮助你上一个台阶。
心理与行为科学统计 北京大学出版社 作者甘怡群,甘教授的这本教材在推论统计方面讲的比较好理解,这本书我当时是作为北师大的那本比照的读的,有些地方会一下子让你豁然开朗。
心理与教育研究中的多因素实验设计 北京师范大学出版社 作者舒华,舒华教授的这本书把方差分析这个统计学中的老大难真是讲的通透极了,书中的逻辑相当清晰,而且你一旦弄明白了就再也不会糊涂了,真是佩服舒华教授能把这么复杂的东西讲的这么明白,我感觉这是你学方差分析必须要读的一本书。统计学中还有很多特别高深的技术,什么结构方程模型(听过侯杰泰教授的讲座,但是真心没听明白)之类的,感兴趣的话可以了解了解。
自己学习统计学的一点心得:重要的还是要把概念和思想搞清楚,这才是统计的核心,你明白了这个东西能做什么和为什么要这么做,学起来会事半功倍,千万不要纠结于具体的计算与技术,这些都是软件可以搞定的东西。以上是自己的一点浅见,希望对题主能有所帮助。
@王洪城:
忽视对象和目标而谈方法,的确是耍流氓。统计学太宽、太杂,而且正处在蓬勃发展之中,任何一个细小的领域都能耗尽人的一生。况且统计学这东西,用的很广,越来越多的文科生都想用用统计来支持自己的结论。文科生、工科生、经管类学生、数学系学生有不同的目标,自然方法不一样。
不过,如果只是想要粗略地了解统计学的大概的话,还是有一些很好读的书的。比如《女士品茶》、Rao的《统计与真理》,这些可以了解(只是了解)统计的思想、哲学和历史。国内吴喜之《从数据到结论》、Freedman的《统计学》都写的很不错,有一些很好的案例,对统计的一些概念也会有一些理解。
感觉统计就跟医学差不多,对付小感冒这种病,只要自己买药,按照说明书服用,就ok了;如果只是像做个回归,看看相关系数这种,现在已经有很成熟的方法和软件,像exel和spss。遇到复杂一点的问题还是请教专业人士吧,即使你能够用一些方法得出结果,对结果的解释也是很大的一个问题,大病还是得到医院治。当然我并不是说统计很难,无法自学成功。统计并不难,只是无法速成,只是统计自身的特殊情况(对于特定情况下的模型选择、结果解释,即使在专业人士之间也会有争议)使得统计有很大的灵活性,只有对统计了解地够多,才能够应付多变的情况,得到最符合预期且合理的结果。
一句话,想得多,读得少。想了解直接就去看,缺啥补啥呗。
@郑来轶:
给你推荐几本统计学的经典图书,《深入浅出统计学》、《漫画统计学》、《女士品茶》、《爱上统计学》、《统计陷阱》,都很不错的。然后就是上中国统计网
@李超群:
专注潜水二十年,头一次被邀请,照这趋势看,不用多久,我就会升职加薪,当上总经理,出任CEO,迎娶白富美,走上人生巅峰。想想还有点小激动呢~
………………………………………………………………
呃,万万没想到,醒来后还是那个王大锤。
OK,回到正题,题主的这个问题啊,就像是在一个项目中一样,真正的用户(通常情况下我们可以称为“优秀”的用户,原因在下面解释)对自身的需求从来是不明确的,而优秀的产品经理呢,就是尽可能地明确用户的需要,然后与项目经理沟通,再交给项目成员(干活的苦力)实施完成。
说到这儿,有过喜当爹或者喜当妈经验的同学们就会有经验了。没错,想想吧,突然你家小宝贝儿哭了,哭得声嘶力竭,惊天动地……
怎么了?
不舒服了?饿了?渴了?痛了?冷了?热了?害怕了?
对了,这里我们要补充一个背景设定,小宝贝儿不到1岁,还不能通过语言沟通。
这个时候怎么办呢?
年轻的爸爸妈妈们开始讨论了,这是怎么回事儿,怎么突然哭了呢?
爸爸:是不是不舒服?(提出原假设H0)
妈妈:废话!你要是舒服了会哭吗?(根据长期的观测值与经验判断,舒服并哭的出现概率极低,近似为0,接受原假设,== 孩子不舒服)
爸爸:那怎么就哭了呢?上午刚哭了一次,好不容易才哄好。(判断事件发生频率是否符合常态,判断是否是异常值,检查基础数据的准确性,是否存在观察误差)
妈妈:你不耐烦了是不是?天天给你做饭,昨天吃了今天就别吃!(在绝对值上下波动,符合正态分布,基础数据的准确性没有问题)
爸爸:说到吃饭,宝宝是不是饿了啊?(由经验判别,宝宝饿了== 哭泣,提出假设:宝宝饿了)
妈妈:不可能,才喂了奶不到半个小时
(在这里我们假设正常情况下宝宝每3个小时喝一次奶,左右波动0.5小时,那么可以知道:
设X为宝宝喝奶的时间,假设服从正态分布,有X~N(μ,0.5^2),样本容量n=1,样本均值X1=0.5,提出的假设为:HO:μ=3;H1:μ≠3
设显著性水平α为0.05,所以临界值 1.96,原假设H0的否定域为V1={|Z|≥1.96}
检验统计量Z=(0.5-3)/(0.5/根号下1)=-5
因为|-5|=5》1.96,落在否定域内,所以要否定原假设,表明宝宝这次的表现不符合标准的3个小时会饿的情况,所以宝宝不是因为饿了才哭的……)
爸爸:那,是被蚊子咬了吗?
妈妈:大冬天的,哪来的蚊子?(p(冬天|蚊子)=0,不可能事件)
………………………………………………………………
经过无数轮讨论,呃~这时我们的宝宝声音已经哭哑了……
妈妈得到了最终结论:宝宝尿床了!
于是爸爸吩咐保姆,快给孩子换尿布,洗床单
保姆:顺利完成任务
爸爸检查保姆的任务完成情况,并制作工作周报上交给妈妈
妈妈观察宝宝的状态,觉得还可以,给了爸爸一笔钱
爸爸给保姆发工资
——————整个事件得到了完美的解决————————
幸好跑题还不是太远,还是可以扯回来的
其实在以上事件中,套用了一个比较简单的项目流程模型:宝宝扮演了用户的角色,提出了需求;妈妈则是产品经理,把控了整个项目的方面,并负责了用户与项目经理及项目成员的沟通协调;爸爸是项目经理,提出解决方案,交由组员实施;保姆就是实施的组员。
所以为什么说不明确自身需求的用户是“优秀”的用户呢?通常意义下,更有利于产品经理的发挥,也就是方便忽悠钱……去年在电力集团做SAP实施,最直观的感觉就是,只要能忽悠住了用户,实施顾问们肆无忌惮圈钱的感觉真棒!
那么在整个项目的决策与实施中,我们套用了一些统计学上的概念来解释日常的概念,是因为统计学最初是基于生活中的基本现象而产生的,比如山顶洞人一天可以采集多少浆果?赌场里连续出老千不被打断两条腿可能吗?晴川打败所有竞争者晋升为老佛爷而不被干掉的概率是多少?……
所以平常在和别人交流时,偶尔会有这种的感觉,就是通过有过系统学习统计学的背景的人,他们的思维方式会与其他背景的人存在差异,通常前者会试图通过逻辑性与概率来证明观点或思考。
也就是说,其实统计学的思维,在自觉不自觉之间就融入到了个人的生活中,刚毕业后去找工作,面试官一听说是统计学毕业,总会问一句你的专业对这份职业的优势是什么?曾经统计过我们这一级同学对这类问题的回答,大多数都回答“统计是工具,是一种思维方式,需要和其他的知识或领域结合……巴啦巴啦”(当然这也是由于我们这一级的家伙,80多个人,有50多人选修了第二专业,为了侧面烘托自己的优势也会这么去说).
所以扯了这些,其实只是想告诉题主,统计学的学习,需要先把这门知识,化为日常生活中的一点一滴,不要把统计学只落在纸面或试卷上的冰冷文字,它是有命的,在生活中习以为常的事情,背后都有各种有趣的统计知识。
虽然不清楚题主希望从事的方向(应用统计/理论统计……)
不过对于入门来讲,需要事前掌握的知识不需要多么的特殊,有一定的数理知识基础,学习了高等数学,就基本上相当于解决了前置技能,所需要的不过是找到合适的教材与合适的老师,加上认真学习,并尝试在生活中应用就可以。
推荐阅读的几本书:和楼上的几位会有重合的部分。
《女士品茶——20世纪统计学怎样变革了科学》,很有趣的统计学发展史;
《统计陷阱》,数字是怎样欺骗了你
《深入浅出统计学》、《深入浅出数据分析》深入浅出系列出品,必属精品
《统计与真理----怎样运用偶然性》
《统计学的世界》《爱上统计学》有些概念性的知识,可以强化掌握
《漫画统计学》系列
《社会心理学》戴维·迈尔斯(第8版)——这本书作为心理学的教材,超经典。毕业前曾认真读了一遍,可以看到心理学与统计学的结合
以上书籍为课外阅读,至于正式学习的教材么~本科时基本上全使用的是人大版的教材,黄皮封面的那些,说实话,即枯燥又无味,印象最深的是人大版的《抽样技术》,有很多印刷错误,以致上课时亲爱的teacher会先花十分钟,在黑板中把本章节中错漏的地方通知大家修改过来~(PS:teacher是本校数理统计方向数一数二的大牛)后来偶然间接触了一些国外的教材,惊为天人。学习教材参见肖玄与李少洋,尚可的推荐即可
以上,为熬夜敲出,纯属个人毕业后混迹软件实施行业与电商数据分析行业的小小感悟,看看就好,不必太当真。
@ Yan Alfred:
非统计专业,然而多次用统计解决过许多问题,回忆写写学习的经历。
扫盲阶段:大二,《概率论与数理统计》,开始接触系统的统计内容。浙江大学,盛骤《概率论与数理统计》。书的优点是推理比较详细,便于入门和自学。听课 做完所有练习,基本熟悉了概念及常用定理。至于应用和效果,呵呵,只满足了高分的虚荣心,期末考试接近满分。。科普类:一商务印书馆出版的科普书,数学之旅,《概率论与数理统计》。书中讲的是概率和统计的渊源,每个重要的定理的最早的发展都进行介绍和解释,浅显易懂。然而,至于后面的发展鲜有涉猎。培养了兴趣并满足了好奇心。
入门阶段:大三,数学建模竞赛。培训授课阶段,主要用的是《数学建模》,姜启源。书中统计的例子让扫盲阶段学习的知识灵活起来。与此同时,matlab编程能够大大简化数学运算的时间,更好的求解回归方程。培训演练期间,许多统计类的数学建模的得到国奖的论文也用许多具体的例子阐释了统计在数据分析中的具体应用。接触了线性最小二乘,时间序列,灰色模型,回归分析等方法。“纸上得来终觉浅”,当这些方法应用于具体的数学模型的比较学习中,竞赛阶段:统计预测类,上海世博会对上海市经济的影响和评估。部门数据:ARMA模型,总体数据:回归分析。之前学习的理论才有了应用的机会。最终,我们的论文也拿到了国二等奖:)
基础阶段:研究生,模式识别与智能系统。研一基础课:线性系统理论 应用泛函 智能计算,智能信息处理,智能控制,模式识别。项目:在师兄,师兄的师兄,以及导师的基础上改进神经网络模型(吐血),研究神经网络的隐层节点,泛化能力,逼近精度。困难:读过若干篇中英文文献,感受很深的是神经网络的参数和结构,工程靠经验(猜测加实验),说不清为什么,好用就行。转折:研读element of statistiacl learning data mining, inference,andprediction ,终于有所领悟,线性回归,线性分类,光滑样条,神经网络,支持向量机等是从不同的角度解释问题。目前还在进一步研究中。
@屈增玉:
毋容置疑,作为一门研究如何收集、整理、分析数据的方法论学科,统计学的应用性非常强。可以说只要跟数据打交道,都需要用到统计学的一些方法。当然,应用目的不同,需要掌握的知识层次也不同。这里推荐的书单是针对那些非统计专业出身,但又需要使用到一些定量分析工具的人群。对于这些人群,特别是对人文社科领域的人来说,统计学中丰富的数据分析方法对于自己的知识结构是一个极强的补充。就我看来,需要从以下四个方面进行学习:
一、基本原理类—搞明白统计学的一些基本概念
无须赘言,了解标准差、变异系数、标准误、P值等一些统计学基本的概念对于正确运用统计学的方法是十分必要的。虽然现在已经读研,老师也时常提醒我们要对统计学的基本概念、定义及背景反复思考,这样知识掌握的才会更加扎实牢靠。
就我了解的,以下几本经典入门书值得推荐:《统计学》,贾俊平,人民大学统计出版社。贾老师以前的学术背景是经济社会统计(非数理统计,经济社会统计是从苏联传入中国的,主要是指标与指数分析,数据统计有统计推断,现在的统计学书讲的都是),所以他本人学统计学是文科背景来学,写的书相对起点比较低,公式不复杂,点到为止,讲解细致,语言平和。每一章节还附有详细的EXCEL操作,比较实用。《统计学》,David Freedman等著,魏宗舒,施锡铨等译,中国统计出版社。基础入门书。老外作书,篇幅浩瀚,无拘无束自由挥洒,表面上絮絮叨叨,可是思想火花恰在此絮叨中显现。此书比较厚,但对最基础的统计思想和方法进行了极为耐心细致的分析,从中可见,任何貌似高深的方法其实都可以从平淡中得来,关键在于要有一双善于观察的慧眼和进行理论升华的洞察力。《商务与经济统计》,安德森,机械工业出版社。《商务与经济统计技术》,林德,机械工业出版社。这两本书都是国外商务统计学经典教材,一直在不断更新再版。两本书都是以应用为导向的,基本没有什么数学推导过程,认认真真精读过一遍的人几乎都可以对整个统计学的脉络有一个全盘且通透的认识。如果想让自己的统计学专业水平在一个比较高的水平上起步,不妨读安德森或者林德。(本段摘自豆瓣书评)
二、分析方法类:掌握一些基本的定量分析方法
有一定的基础后,可以继续学习回归分析 计量、时间序列、多元统计、抽样调查等应用性非常强的统计方法。掌握了这些方法,你的统计学水平就会上一个比较大的台阶。其中当然,这一阶段的学习要求有一定的数学基础(基础的微积分 线性代数 概率论知识基本就够用了),否则学起来会感觉有些吃力。
多元统计方法:《统计学:从数据到结论》,吴喜之,中国统计出版社。吴老师原为南开大学数学教授,现为中国人民大学统计学院教授,绝对是国内统计学界的大牛!吴老师写作、翻译了不少统计教材,其中不少都堪称经典。这本书其实是一本融合初中级统计学内容的教材,不过相比较其他多元分析教材,这本书在讲解多元方法时略去了许多公式的推理,直接从统计本质的道理入手进行相关讲解,较为注重原理的介绍及软件(SPSS\SAS,最新版的好像是R软件)的对接应用。非常实用,也非常适合入手阅读。
回归分析 计量经济学:这部分包含的内容非常多,应用的也最为广泛。个人觉得有必要强调的是,计量经济学首先是一门经济学,其次才是有统计学的属性,统计和数学不能代替经济学本身!!!那些忽视背后的经济学原理上来就搞模型搞方法的只不过是徒添笑柄而已。只不过计量经济学很大一部分都是回归分析里边的内容,所以放在一起说。
初级:《计量经济学基础》,古扎拉蒂,人民大学出版社。《计量经济学》,李子奈,高等教育出版社。作者李子奈是国内计量经济学界的权威,在国内的诸多教材中,这本的确是经典上乘之作!一篇精彩的书评在此计量经济学 (豆瓣)《例解回归分析》,Chatterjee
Hadi,中国统计出版社。目前,国内外有大量介绍回归分析的理论与应用的书籍,这本书在介绍回归分析理论方面别具特色。如书名所说,这本书不是从数学角度来写的,不讲方法、公式的详细推导,而是用精选出来的例子来描述方法、解释理论结果的实际意义。例子大多来自实际研究或生活,涉及面广,生动丰富。同时强调图形工具的运用,强调探索性数据研究的原则,真正体现了统计学是一门关于数据的科学和艺术这一特点。第一章里用图形讲解协方差、相关系数,第四章的变量添加图让我顿有醍醐灌顶之感(都研一了,以前学的统计学真是白瞎了#_#)。《Logistics回归模型——方法与应用》王济川,郭志刚,高等教育出版社。不多的国内的经典统计教材。两位都是社会学出身,不重推导重应用。每章都有详细的SAS和SPSS程序和输出的分析。两位估计洋墨水喝得比较多,中文写的书,但是明显老外写书的风格。
中级:《计量经济学导论》,伍德里奇,人民大学出版社。如书名所说,这是一本导论性的书籍,所以对于初学计量经济学的人来说是一本从内容到难度都很合适的教材,书的正文中基本没有复杂的数学推导。不过相比古拉扎蒂的要难一些。读了这本书我才第一次对回归分析里边的那些基本假设有了比较清楚的理解。整本书比较厚,中文翻译的水平倒还不错,更推荐看原版英文教材。《计量经济学中级教程》,潘省初,清华大学出版社。我们研究生所采用的教材,体系比较全,中级水平的计量知识都有所涉及,我对比了很多国内的计量教材,这本书算是真的对得起”中级”二字。
高级:这部分会接触到GMM,面板数据,非参计量和一些渐近理论,理论性较强。《计量经济分析》,格林著,张成思译,人民大学出版社。计量经济领域“圣经”般的教材,理论性比较强。吃透了这一本书,就可以去评价任何一个期刊上的所有关于实证分析的论文了。我们老师也说,只要你吃透的格林的计量经济分析,我这门课你完全可以不用来上课了。《计量经济学》,林文夫,上海财经大学出版社。作者林文夫是日本计量经济学家,这本书内容有一定深度,属于反映现代计量经济学研究成果的最流行教材之一。这本书也是厦大WISE的考博指定参考书,适合有兴趣的研究生钻研学习。
时间序列:时间序列是计量经济学的一个分支,近年来发展十分迅速,金融中运用非常广泛。这部分内容在上文推荐的几种计量经济学教材里边都会涉及,这里再列出几本比较好的书籍作为补充。这部分如果数学不好的简直就是被死虐!我最近都被虐惨了!《时间序列分析预测与控制》,BOX著,中国统计出版社。时间序列经典之作,主讲经典的ARIMA模型。《应用计量经济学-时间序列分析(第二版)》,沃尔特·恩德斯,高等教育出版社。理论部分和例子讲解都比较详实,涉及了应用计量经济学时间序列分析的最新发展成果。
三、软件操作类:提高自己的实际应用能力
比较基础的有Eviews,SPSS.都是菜单式操作,比较傻瓜化,前者优势在于回归分析和时间序列分析,后者的多元统计分析功能比较强大。STATA做计量也不错,需要编程。 高级一点的SAS和R,两者都需要编程,扩展能力更强,有一定的学习门槛。R是开源免费软件,在数据挖掘中用的非常多。《计量经济分析方法与建模:EViews应用及实例(第2版》,高铁梅,清华大学出版社。《Eviews使用指南与案例》,张晓彤,机械工业出版社。《SPSS统计分析方法及应用》,薛薇,电子工业出版社。
四、科普读物类:培养自己对统计学的学习兴趣
很多人刚接触统计的时候,总有一种畏难心理,总觉得里边一些公式推导好麻烦,从而学习兴趣不高。其实读一些统计学的科普读物对于培养自己对统计学的学习兴趣很有帮助。《女士品茶》若说到统计学的科普书籍,这本书几乎是所有学过统计的人首推的一本。它不是一本女性读物,也不是一本介绍饮茶文化的书籍。《女士品茶》是一本名人故事集。每一个章节的内容,作者都是以某一个著名的统计学家的介绍为开端,并以此为支点开始介绍与之相关的人物的故事以及他们所做的富有创造性的工作,以此来描述20世纪科学界的统计革命。
《统计陷阱》统计是门非常有用的工具,但是误用错用的统计情也是数不胜数。生活在一个信息大爆炸的时代,我们每天都会接收到数以千计的信息,这是大数据云计算的时代。报纸、杂志、电视、广播、网络,这些都是信息的来源。那些统计数据、统计资料是真的吗?是否存在陷阱?这本书给了我们一种新的思想,一种思考问题的方法;当我们在生活中再遇到这样的问题时,我们将不会轻易相信结论,而会愿意通过几个问题来验证此结论是否可信,等等。
@怡航:
看了回答里那么多书目,都非常好,我就补充一两句总结一下自己的看法。
·既然是入门那么要有数学基础,概率论与数理统计就够了,至于泛函,数分之类的入门暂时不需要。还要看看人大黄皮那本概率论,对理论自己梳理。(也可以是其他统计学基础书籍)书里会系统讲述基本统计描述和统计推断的方法。描述如各种分布函数(正态、卡方、泊松、指数、F等等),推断如点估计、区间估计等等,之后还会涉及统计检验,如方差,t检验,f检验。
·接下来有了一定基础,看吴喜之的从数据到结论,这本书言简意赅,理论与实践结合,还有spss和r的操作方法和数据很薄的一小本,统计最终还是软件的应用。
·之后题主发现统计博大精深,分枝众多,如楼上列举的非参数统计,多元分析,时间序列等,这些工具被应用于各个领域,统计学在各个领域有了自己的生命,金融统计,心理统计,医药实验,大数据的挖掘,工业质量管理等等。
·我想告诉楼主的是,楼上讲了很多入门书籍,可以参考我说的顺序看看,打好基础,主流分支都要涉猎,统计学是一个工具,最终还是应用实践,是要依附于其他科目的,早日找到自己的方向,做专做好。
·最后压轴隆重推荐一本书,《女士品茶》,了解统计的发展历史,你会更加了解统计,思考它未来的前景在哪。
·最后的最后,原谅我的排版。(⌒-⌒; )。有不准确的请指出。
@周汉唐:
本科学的是数理统计,说说对学数理统计的看法。觉得打好数学基础是很有必要的,数学分析(积分很重要),高等代数(矩阵方面),概率论与数理统计(重要性不说了),后续的有回归分析,时间序列,试验设计,运筹学等等,关键是要耐下心来看,打好基础。至于软件的话,同意邹日佳的观点。至少在弄明白统计学的许多基本概念及其意义前,不要太过钻研,否则对运行出来的数据和表格,却不知道什么意思,再去查资料,没有效率。软件推荐学好spss和matlab。
@Veronica:
统计是一门实用科学,可以广泛运用在各个领域,在开始学习前务必先理解其思想,再掌握方法,并在实际问题中理解原理、各种方法的利弊和结果的阐释。如果直接上手工具、软件,或者脱离真实案例枯燥的背诵数理公式都可能本末倒置或者事倍功半。对于不同背景和需求的人可能不同,可以先从统计学历史入手了解其思想,如《女士品茶》,陈希孺先生的《数理统计学简史》。
对于统计方法,了解其发明的背景(最初用来解决什么问题)将有助于我们了解这一统计方法的适用范围(包括可以引申来解决什么问题)。吴喜之先生的《统计学:从概念到数据分析》,《统计学:从数据到结论》深入浅出,作为入门。可以参照陈希孺的《概率论与数理统计》(着重导言)和Freedman《统计学》中的案例。
理论基础之上推荐用开源的R来进行统计分析,吴喜之老师的《复杂数据统计方法》内容全面,但理论知识稍难,可以结合《R语言实战》练习。分析过程中再回顾理论、公式和思想。如果有可以实践的项目,可以运用软件实践,并尝试对结果结合领域的背景、常识和假设进行解释。体会统计作为中立性工具,收集和分析数据,“用有效的方法”帮助我们理解世界、解决特定问题。知乎中“文科生想自学一点统计学,看哪些入门书籍比较好”也介绍了相关系列书籍,可以参考:文科生想自学一点统计学,看哪些入门书籍比较好?。
@ninedegree:
想学统计学需要掌握那些知识?这个问题要看你想学到什么程度。初浅一点,需要微积分、线性代数和概论论的数学基础,一定的编程能力。在这些基础上学完入门的基础知识后,可以开始学习数理统计、回归分析以及多元统计等。学完这几门就算是入门了。如果再深入一些,可以学习统计计算,非参数统计,线性模型,混合模型等。熟练的掌握R之后,就可以开始自己探索各个R包了。再深入一些,需要测度论知识或比较厉害的编程和算法知识。如果测度论好可以尝试读比较理论的paper,把证明一个个看懂;如果编程厉害,可以看一些重方法的paper。
什么初级的书籍可以介绍?书知道的不多,当年各种前辈推荐的《女士品茶》《统计陷阱》全部没看过。这些书像科谱书籍,用处不大。吴喜之教师的《非参数统计》和《从数据到结论》名声很好,很通俗,比较概括(依然没认真读过,对不起吴老师)。如果要学点基础性的知识还是要从正统教材一步步开始。一般的统计学教材都可以用来入门,比如各种以《统计学》命名的书。具体哪本不要紧,关键不能掉进去,不能看完一本入门教材就觉得自己已经学会统计了。有位英语专业的同学学了一个学期的入门课后和我说,你们统计到了回归也就到了极限了吧。我无言以对,感觉想辩也不知道从什么辩起。
@陈浩:
如果你想做一般单位的统计工作人员,就是只是向统计局报报表的话。直接参加统计局的上岗证培训。或买书自学即可。高中文化即可,同时熟悉excel表格就OK了。如果你想做数理统计,搞搞模型。要求比较高一点。基础是微积分,线性代数,然后才开始学习概率论和数理统计。同济大学的高数,高等教育出版社的线性代数,中国科技大学出版的那本《概率论与数理统计》
@曹琦:
作为一个学了三年统计的学生来说,个人觉得学好统计最主要的是要有一定的高数与线性代数的知识,初学概率论的时候大部分用到微积分,求偏导这样的知识,现在在学的多元统计分析理论部分多用到线性代数的知识,协方差矩阵,正定半正定矩阵这些,涉及实际操作部分就是用SPSS,因为我们用的都是英文版的软件,所以这时英语好也有一定优势,可以买一本对应的SPSS教程,老师说在工作中经常会用的就是进行因子分析,判别分析这样的,运筹学,抽样技术,国民经济核算,时间序列分析以及计量经济学都有涉及。
学统计真的需要每一步都扎扎实实的,不然会有很多吃力的地方,打好基础很必要!初级书籍大力推荐《漫画统计学》非常有趣味性,入门必备,看后一定会爱上统计学的哈哈~
@孙霖:
个人以为,看统计之前就是要会点高数、线代,学下概率论,然后就可以找本统计的书学学了。基础的统计,分析和矩阵的知识用的不深。高数、线代教材都差不多,概率论复旦李贤平教授那本还是不错的,英文的钟开来大神有本入门书各种直觉上的东西讲的非常到位。入门的统计书中文的不太了解,当时用的是学校老师自己编的。。。。统计推断这书很好,也有翻译版。统计这门学科各种分支很多,上边讲的都是基础入门的东西,基本概念掌握了,对书里的大部分东西会用之后(不要求记住,感觉学习主要还是把握直觉,练练基本功,然后各种推倒证明知道用的时候去哪查就行了,关键是会用),自己喜欢或要用到什么工具在继续找书或文章深入就是了。要是真做理论研究,那样的统计就是建立在测度论之上的了,另一个世界。。。
@Eddie宸:
从课程角度直接回答tz问题:1) 统计的前置知识是什么?学习“数理统计(Mathematical Statistics,统计学系的专业课)”之前,你需要:微积分(Thomas Calculus/复旦or常庚哲数学分析),线性代数(David Lay/居余马代数与几何or许以超线性代数与矩阵论),概率论(Sheldon Ross/林正炎浙大概率论),随机过程(Sheldon Ross/方兆本or何书元)学习“工程统计(EngineeringStatistics,工程学院的一门数学课)”之前,你需要:微积分,线性代数,概率论
2) 然后你就可以真的学“统计”这门课了:Mathematical Statistics主要讲随机变量,样本和抽样分布;参数估计(点估计、区间估计);假设检验(可以看Casella, Berger Statistical Inference/韦来生数理统计);Engineering Statistics内容相似,不要求理论证明(可以看Montgomery Engineering Statistics/盛骤谢式千概率论与数理统计)。
@方彤:
前面很多大神说了这么多,我就提几句吧。我本科是数学学院的,专业统计学,感觉本科的话,学统计还是从概率论、数理统计入手,前提你已经掌握了高等数学的知识,学统计之前的两年,已经学了大部分数学基础课程,包括数学分析、高等代数、实变函数、常微分方程等等,后面学概率论、数理统计的时候也就比较顺手。
较为基础的统计课程,例如:回归分析、随机过程、时间序列、多元统计分析,都可以自己系统学一下。因为是学数学的,在上回归分析课的时候,把课本上的大部分定理和推论都自己证了一遍,印象非常深刻,对以后学计量经济学有一定的帮助,因为计量经济学前面还是讲回归分析。时间序列可以好好学习一下,如果非统计专业,不需要太过深入,知道那些常用的简单的时间序列模型即可,比较专业的模型就现用现学即可。
在掌握一定的经典统计之后,推荐吴喜之《复杂数据分析方法》,这本书既可以让你学习非经典统计方法,就是机器学习方法,还可以详细教你如何使用R软件。毕竟现在大数据了,很多经典统计不一定好用,机器学习方法则比较适用。另外,你也可以考虑学习SAS、SPSS等软件。
对统计感兴趣,不见得会多么厉害的方法或者模型,专注于若干几种方法,而非全部。另外,上述都是学习过程,学习中,你要多加思考,最重要的是具备统计思想,实际就是一种逻辑思维。
@陈喜乐:
1.想学统计学需要哪些知识?微积分和代数,要求不高,不搞理论研究的话真的是一点皮毛就够用;两者之中又以代数更重要,数据集都是矩阵嘛。概率论,要求高一些,J.A.Rice的数理统计教材前六章能基本掌握也足够了。
2.有什么初级的书可以介绍?“初级的书”我理解为“第一本教材”。上面提到的Rice的教材是国外挺流行的一本,我觉得部分章节很值得细读、做书后题。国内的话,浙大的《概率论与数理统计》很经典,大概面向大学高年级的水平。题外话,其实现在传统的“统计学”似乎已经渐渐地被data science盖过了风头,各种各样的test远不如各种各样的机器学习方法受关注。
@周军:
需要一些数学知识储备是必须的了,前期把高等数学,线性代数,概率论,数理统计这些先有比较不错的概念和理解。在学习下C语言,为以后的统计软见应用养成一个编程思路。具体要看什么书的话,知乎上有前辈都回答过的啦……
------------------------------------------------
统计这一块呢,先看一些入门级的《深入浅出统计学》《深入浅出数据分析》系列出品,培养出兴趣,然后先熟悉SPSS,R的应用,,,如《R语言实战》《统计建模与R软件》,后期慢慢深入STATA,SAS等,如《the little sas》……
-----------------------------------------------
多找自己感兴趣的话题,,然后用统计学加以解决,在解决的过程中,,会遇到很多新的领域(包括理论知识和软件操作等),不懂得就多baidu google library进行深入的学习,,然后就在解决问题中得以提高啦。
-----------------------------------------------
然后平时就多看点知乎,人大经济论坛什么的,有很多精华。