第一章导论
一、比较描述统计和推断统计:
数据分析是通过统计方法研究数据,其所用的方法可分为描述统计和推断统计。
(1)描述性统计:研究一组数据的组织、整理和描述的统计学分支,是社会科学实证研究中最常用的方法,也是统计分析中必不可少的一步。内容包括取得研究所需要的数据、用图表形式对数据进行加工处理和显示,进而通过综合、概括与分析,得出反映所研究现象的一般性特征。
(2)推断统计学:是研究如何利用样本数据对总体的数量特征进行推断的统计学分支。研究者所关心的是总体的某些特征,但许多总体太大,无法对每个个体进行测量,有时我们得到的数据往往需要破坏性试验,这就需要抽取部分个体即样本进行测量,然后根据样本数据对所研究的总体特征进行推断,这就是推断统计所要解决的问题。其内容包括抽样分布理论,参数估计,假设检验,方差分析,回归分析,时间序列分析等等。
(3)两者的关系:描述统计是基础,推断统计是主体
二、比较分类数据、顺序数据和数值型数据:
根据所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
(1)分类数据是只能归于某一类别的非数字型数据。它是对事物进行分类的结果,数据表现为类别,是用文字来表达的,它是由分类尺度计量形成的。
(2)顺序数量是只能归于某一有序类别的非数字型数据。也是对事物进行分类的结果,但这些类别是有顺序的,它是由顺序尺度计量形成的。
(3)数值型数据是按数字尺度测量的观察值。其结果表现为具体的数值,现实中我们所处理的大多数都是数值型数据。
总之,分类数据和顺序数据说明的是事物的本质特征,通常是用文字来表达的,其结果均表现为类别,因而也统称为定型数据或品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此可称为定量数据或数量数据。
三、比较总体、样本、参数、统计量和变量:
(1)总体是包含所研究的全部个体的集合。通常是我们所关心的一些个体组成,如由多个企业所构成的集合,多个居民户所构成的集合。总体根据其所包含的单位数目是否可数可以分为有限总体和无限总体。有限总体是指总体的范围能够明确确定,而且元素的数目是有限可数的,需要注意的是,统计意义上的总体,通常不是一群人或一些物品的集合,而是一组观测数据。
(2)样本是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本容量。例如我们从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本。
(3)参数是用来描述总体特征的概括性数字度量。有总体平均数、标准差、总体比例。由于总体参数通常是不知道的,所以参数是一个未知的常数。所以才需要进行抽样,根据样本来估计总体参数
(4)样本量是用来描述样本特征的概括性数字度量。统计量是根据样本数据计算出来的一个量,通常包括:样本平均数、样本标准差、样本比例等,由于样本是我们已经抽出来的,所以统计量总是知道的,抽样的目的就是要根据样本统计量推断总体参数。
(5)变量是说明现象某种特征的概念。变量的特点是从一次观察到下一次观察会呈现出差别或变化,分为分类变量、顺序变量、数值型变量、离散型变量和连续型变量。
第二章 数据收集
一、调查方案的主要内容:
(1)调查目的:是调查所要达到的具体目标,他所回答的是“为什么调查”“要解决什么样的问题”等
(2)调查对象和调查单位:调查对象是根据调查目的的确定的调查研究的总体或调查范围。调查单位是构成调查队选中的每一个单位,它是调查项目和调查内容的承担着或载体。所要解决的是“向谁调查”由谁来提供所需数据
(3)调查项目和调查表:调查项目要解决的问题是“调查什么”,也就是调查的具体内容,大多数统计调查中,调查项目通常以表格的形式来表现,称为调查表
二、数据的误差:统计数据的误差通常是指统计数据与客观现实之间的差距,误差的类型主要有抽样误差和非抽样误差两类。
(1)抽样误差:主要是指在用样本数据进行推断时所产生的随机误差。只存在于概率抽样中。这类误差通常是无法消除的,但事先可以进行控制和计算。
影响抽样误差大小的因素:
(a)抽样单位的数目。在其他条件不变的情况下,抽样单位的数目越多,抽样误差越小;反之,越大。这是因为随着样本数目的增多,样本结构越接近总体,抽样调查也就越接近全面调查,当样本扩大到总体时,则为全面调查,也就不存在抽样误差了。
(b)总体背研究标志的变异程度。在其他条件不变的情况下,总体标志的变异程度越小,抽样误差越小,反之,越大。抽样误差和总体标志的变异程度呈正比变化。这是因为总体的变异程度小,表示总体各单位标志值之间的差异小。则样本指标与总体指标之间的差异也可能小;如果总体各单位标志值相等,则标志变动度为零,样本指标等于总体指标,此时不存在抽样误差
(c)抽样方法的选择。重复抽样和非重复抽样的抽样误差大小不同。采用不重复抽样比采用重复抽样的抽样误差小
(d)抽样组织方式不同。采用不同的组织方式,会有不同的抽样误差,这是因为不同的抽样组织所抽中的样本,对于总体的代表性也不同,通常,常利用不同的抽样误差,作出判断各种抽样组织方式的比较标准。
(2)非抽样误差:主要包括:抽样框误差,回答误差、无回答误差、调查员误差;是调查过程中由于调查者或被调查者的人为因素所造成的误差。调查者所造成的误差主要有:调查方案中有关的规定或解释不明确导致的填报错误、抄录错误、汇总错误等;被调查者所造成的误差主要有:因人为因素干扰形成的有意虚报或瞒报调查数据。非抽样误差理论上是可以消除的。
三、简单随机抽样:
(1)概念:从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的;
(2)特点:a、简单、直观,在抽样框完整时,可直接从中抽取样本
b、用样本统计量对目标量进行估计比较方便
(3)局限性
当N很大时,不易构造抽样框
抽出的单位很分散,给实施调查增加了困难
没有利用其它辅助信息以提高估计的效率
第三章 数据的整理与展示
一、数据排序的目的:
(1)数据排序是按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索
(2)排序还有助于对数据检查纠错,以及为重新归类或分组等提供方便。
(3)在某些场合,排序本身就是分析的目的之一。
二、数据分组:
是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别,分组后的数据成为分组数据。数据经分组后再计算出各组中数据出现的频数,就形成了一张频数分布表,分组方法有单变量值分组和组距分组两种,单变量分组通常只适合于离散变量,且在变量值较少的情况下使用,在连续变量或变量值较多情况下,通常采用组距分组。
三、组距分组的步骤和原则:
(1)步骤:
a、确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按 Sturges 提出的经验公式来确定组数K
b、 确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即
组距=( 最大值 - 最小值)÷ 组数
c、统计出各组的频数并整理成频数分布表
(2)原则:
采用组距分组时,需遵循“不重不漏”的原则,“不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现;“不漏”是指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。为解决不重的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内。当然,对于离散变量,我们可以采用相邻两组组限间断的办法解决“不重”的问题。也可以对一个组的上限值采用小数点的形式,小数点的位数根据所要求的精度具体确定。缺点:组距分组掩盖了各组内的数据分布状况
四、直方图和条形图的区别:
首先,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度则是固定的;直方图是用面积表示各组频数的多少,频数的高度表示每一组的频数或频率,宽度则表示各组的组距,因此高度与宽度均有意义。
其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。
最后,条形图主要用于展示各类数据,而直方图则主要用于展示数据型数据。
五、绘制线图应注意的问题:
(1)时间一般绘在横轴,观测数据绘在纵轴
(2)图形的长宽比例要适当,一般应绘成横轴略大于纵轴的长方形,其长宽比例大致是10:7.
(3)一般情况下,纵轴数据下端应从0开始,以便于比较,数据与0之间的间距过大,可以采取折断的符号将纵轴折断
六、设计统计表注意的问题:
首先,要合理安排统计表的结构,例如表号、行标题、列标题、数字资料的位置应安排合理。
其次,表头一般应包括表号、总标题和表中数据的单位等内容,总标题应简明确切地概括出统计表的内容。
再次,表中的上下两条线一般用粗线,中间的其他线用细线,表的左右两边不封口,列标题之间可以用竖线分开,而行标题之间通常不必用横线隔开。
最后,在使用统计表时,必要时可在表下方加上注释,特别注意标明数据来源。
七、数据的审核:
(1)原始数据:
a、完整性审核:检查应调查的单位或个体是否有遗漏;所有的调查项目或指标是否填写齐全
b、准确性审核:检查数据是否真实反映客观实际情况,内容是否符合实际;检查数据是否有错误,计算是否正确等
(2)二手数据:
a、适用性审核:弄清楚数据的来源、数据的口径以及有关的背景材料;确定数据是否符合自己分析研究的需要
b、时效性审核:尽可能使用最新的数据
八、数据的整理与显示(基本问题)
(1)要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的
(2)对分类数据和顺序数据主要是做分类整理
(3)对数值型数据则主要是做分组整理
(4)适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据
第四章 数据的概括性度量
一、集中趋势和离散趋势的度量:
(1)集中趋势是指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心点的位置所在。描述集中趋势所采用的测度值分为:众数、中位数和分位数、平均数。
(2)离散趋势是数据分布的另一个重要特征,它所反映的各变量值远离其中心值得程度,因此也称为离中趋势,数据的离散程度越大,集中趋势的测度值对该组数据的代表性越差,反之,代表性越好。描述数据离散程度所采用的测度值,根据所依据的数据类型的不同主要有异种比率、四分位差、方差和标准差。此外还有极差、平均差以及测度相对离散程度的离散系数。
二、众数、中位数和平均数:
(1)三者的关系:从分布的角度看,众数始终是一组数据分布的最高峰值,中位数的处于一组数据中间位置上的值,而平均数则是全部数据的算数平均。因此,对于具有单峰分布的大多数数据而言,众数、中位数和平均数之间具有以下关系:
(a)如果数据的分布是对称的,众数、中位数、平均数必定相等
(b)如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠近,而众数和中位数由于是位置代表值,不受极值的影响,因此三者的关系为众数>中位数>平均数
(c)如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值的一方靠近,则众数<中位数<平均数。
(2)特点及应用场合
统计学贾俊平考研知识点总结
本站小编 免费考研网/2020-01-13
相关话题/统计
2019深圳大学经院应用统计真题回忆
作者: 大禾小鱼 时间: 2019-12-23 19:21 标题: 2019深大经院应用统计真题回忆 为感谢上一年在此看到有师姐发出的回忆真题,继续延续相互分享的优良传统,在此发出本人记得的回忆真题 简答题: 一,为什么计算离散系数 二,中心极限定理(大量观察数据的依据) 三,两类错误 四,最小二乘法估计的优良性质 计算: ...专业课考研资料 本站小编 免费考研网 2020-01-122020清华大学432应用统计真题解答
作者: 路小佳的花生米 时间: 2019-12-23 20:58 标题: 432应用统计真题解答 求助同学之后写的,今年没怎么准备来试试水, 明年加油╰_╯ 最后一题最后一问不确定,解答仅供参考交流 作者: 干锅菜花 时间: 2019-12-24 00:18 第一题第二问不对,应该分0-1、1-2、2-3三个区间,图上这个分布函数都能 ...专业课考研资料 本站小编 免费考研网 2020-01-122020中国人民大学统计学805真题回顾
专业课考研资料 本站小编 免费考研网 2020-01-122020清华大学应用统计432回忆版考研试题
专业课考研资料 本站小编 免费考研网 2020-01-12江西财经大学2020年统计学432真题回忆版
简答题(10分一个,共40分) 1.抽样推断 2.离中趋势(离散程度)的统计指标 3.中心极限定理 4.环比发展速度和定基发展速度 计算题(共70分) 1.平均数,标准差,离散系数(10分) 2.回归方程(10分) 3.指数(20分) 4.假设检验(15分) 5.参数估计(15分) 论述题(20分一个,一共40分) 1.统计误差 2.综合指 ...专业课考研资料 本站小编 免费考研网 2020-01-082020年北京理工大学应用统计回忆版考研真题
作者: 七分好女孩 时间: 2020-1-2 15:13 标题: 2020年北京理工大学应用统计回忆版 考完第一天,和室友嗨了一天!昨天的失落的情绪慢慢淡去,人毕竟要向前看。 昨天铃响的那一刹那,专业课结束了,我意识到自己完了,眼泪在眼眶打转,庆幸的是我忍住了。当时只有一个想法,死就死彻底吧,回到宿舍坐在地上,看了下 ...专业课考研资料 本站小编 考研帮 2020-01-0419暨南大学经院应用统计的复试经验
作者: Jackie199619 时间: 2019-12-30 12:40 标题: 19暨大经院应用统计的复试经验 要考上暨大经院的应统专业,初试的500分和复试的200分是同样比重的,也就是说初试高出2.5分,复试只用1分就能追回来了,所以复试可能更需要比初试精心准备。 说说复试的经验吧,复试包括面试和笔试 面试与去年18年相比,发生了比较大 ...专业课考研经验 本站小编 免费考研网 2020-01-022011北京航空航天大学考博2011概率论与数理统计真题
考博 本站小编 免费考研网 2020-01-012020年西南财经大学应用统计025200真题回忆
作者: Puppet丶 时间: 2019-12-25 15:25 标题: 2020年西南财经大学应用统计025200真题回忆 一、因素分析+时点序列平均 二、1. 等比例抽样,平均值的区间估计,总的区间估计 2. 重复抽样,比例的最小抽样数目(比例给了经验值和标准差) 三、组中值,判断分布形状(平均值,中位数,众数) 四、多重线性回归(2元) ...专业课考研资料 本站小编 免费考研网 2020-01-012020华中农业大学432统计学真题回忆
作者: RachelZhong224 时间: 2019-12-25 15:34 标题: 2020华中农业大学432真题回忆 一、选择题(50分) 共25题 知识点较历年重复度较高,比较简单,主要有条件概率,区间估计,假设检验,切比雪夫不等式,卡方分布与指数分布的关系,分布性质等。 二、简答题(30分) 共6题 1、中心极限定理与大数定律的关系 2、总 ...专业课考研资料 本站小编 免费考研网 2020-01-012020年暨南大学432应用统计题目回忆版
作者: 喜吖 时间: 2019-12-25 15:42 标题: 2020年暨南大学432题目回忆版 一. 1.什么是统计整理,它分为哪几个步骤进行110分 2.相关分析和回归分析分为哪些步骤10分 3.(1)问卷星调查问卷与传统调查相比有哪些优缺点4分 (2)会有哪些误差,具体说明误差的危害6分 二.2000名学生,不重复抽样,抽了40个人,每个月话费 ...专业课考研资料 本站小编 免费考研网 2020-01-01暨南大学432应用统计李学长经验贴
1. 初试成绩19考研,本科普通本科上岸暨南的应用统计,各位2020准备报考暨大应用统计的学弟学妹们大家好,按照往届的师兄师姐的传统,上岸后来分享下自己的这段经历,希望能给各位带来一点点帮助和鼓励。当你下定决心的那一刻,就准备好了一往无前,你选择一条让自己去变得更加优秀和注定孤独的道路,所以可能不得不让你减少 ...专业课考研经验 本站小编 知乎网 2020-01-01华中师范大学2020应用统计真题超纲题回忆
作者: 一枚行走的雪莲 时间: 2019-12-28 15:02 标题: 华师2020应统真题超纲题回忆 简答:积分极限定理9分 比较几种随机序列收敛的关系9分 计算:有一个我看不懂的证明题15分 ...专业课考研资料 本站小编 免费考研网 2019-12-302019暨南大学经院应用统计学复试面试90+经验
作者: cinqueeee 时间: 2019-12-29 19:24 标题: 19暨大经院应统复试面试90+经验 20考研初试结束了,离复试也不远了简单说一下我去年是怎么准备复试的吧 复试成绩170+,面试90+,笔试80+ 复试总分是200,笔试面试各100,经院应统的复试科目是计量经济学和国民经济核算 ...考研复试经验 本站小编 免费考研网 2019-12-302017南京大学432统计学考研真题回忆版
2017南京大学432统计学真题回忆版 今年的试题风格跟往年几乎差不多,难度与去年持平,时间序列部分考得又多了些,变化了考法。 一.选择题:还是30个选择题(60分) 都很基础,很多都是以前考过的。今年新考的内容有:系统聚类法的种类, AR1模型一阶自相关系数的计算, 根据一组自相关系数挑选适合的模型匹配, 根据M ...专业课考研资料 本站小编 免费考研网 2019-12-28