★启用前机密★ 北京大学硕士研究生入学考试试题考试科目:社会学研究方法和分支学科研究方法考试时间:2011年1月10日下午14:00-17:00
1992年社会学方法五、统计计算题(一般考生答第1、2题,单独考试考生答第3、4题,共35分)1、①在实际调查中研究样本容量时应考虑哪些因素?②欲在某大城市进行一项抽样调查以了解某几类残疾患者占总人口之比例,根据所掌握的资料和专家判断,可断定这几类残疾患者的比例最高不会超过5%。问在概率为95.45%的情况下,若采用简单随机抽样,样本容量应为多大?(提示:由正态分布概率表可知φ(t)=95.45%,t=2)2、据研究认为某高校教职工月平均工资高于110元。从该校随机抽取100名职工进行调查,结果样本职工月平均工资 元,标准差s=43.89元,试问该校职工月平均工资是否高于110元?(显著性水平α=0.05)(15分)(提示:Z =1.65,Z =1.96)六、问答及计算(共35分)1、试用分布理论简述算术平均数、中位数和众数三者之间的关系。(15分)2、《中国社会统计资料》(1990年版)公布我国近年来离婚率如下:
年份
|
1984
|
1985
|
1986
|
1987
|
1988
|
离婚率(‰)
|
0.88
|
0.88
|
0.95
|
1.08
|
1.20
|
试依据以上资料,选择适当的计算方程式,对1992年的离婚率作出预测。(20分) 1993年社会学方法四、计算题(16分)为了研究生育率与妇女平均受教育程度之间的关系,随机抽查了某省16个县,以下是按等级统计的结果:
县名
|
A
|
B
|
C
|
D
|
E
|
F
|
G
|
H
|
I
|
J
|
K
|
L
|
M
|
N
|
O
|
P
|
生育率等级
|
1
|
2.5
|
2.5
|
4
|
5
|
6
|
7
|
8
|
9
|
10
|
11.5
|
11.5
|
13.5
|
13.5
|
15
|
16
|
妇女受教育程度等级
|
5.5
|
5.5
|
1
|
2
|
3
|
9.5
|
5.5
|
13.5
|
9.5
|
16
|
5.5
|
11.5
|
8
|
15
|
11.5
|
13.5
|
问:妇女生育率与平均受教育程度间是否有关?(α=0.05)【注:采用Z检验与t检验均可,Z =1.96,t =2.306】 1994年社会学方法四、计算题1、某村共有5000人,根据统计,村民的月收入为正态分布N(200,50 )。问:若某村民月收入为300元,那么,比他收入高的村民应有多少人?(10分)2、根据某项调查,有如下列联表:
|
男
|
女
|
同意
|
30()
|
10()
|
不同意
|
20()
|
40()
|
未表态
|
10()
|
10()
|
问:①写出期望列联表。②期望列联表是根据什么假设写出来的? (10分)3、设家庭社会经济地位分上、中、下三等,以下是它与子女受教育情况的统计:
|
上
|
中
|
下
|
小学
|
10
|
10
|
30
|
中学
|
20
|
20
|
30
|
大学
|
30
|
20
|
10
|
试选择一恰当的关联系数并计算它的数值。(10分)4、根据统计,子辈受教育程度与父辈受教育程度存在着线性相关性。设:父辈受教育年限的平均值为 ,标准差为S =1年,子辈受教育年限的平均值为 ,标准差为S =2年,x和y的相关系数为r =0.5。问:若已知某人受教育年限为7年,则预测其子辈受教育年限点估计值是多少?(10分) 1995年社会学方法二、为研究承包制后职工平均收入是否已超过原有的300元,作100人的抽样调查,结果有: (平均收入)=314元, s(标准差)=80元。问:上述看法是否得以证实?(α=0.05)【已知φ(1.65)=0.95,φ(1.96)=0.975】(20分)三、关于社会角色与人们的精神健康之间的关系,众说纷纭。有人说社会角色拥有量可以增进健康,有人持相反观点。为此,某研究人员作了共214人的调查:
社会角色拥有量精神健康
|
过多
|
中度
|
较少
|
良好
|
20
|
13
|
35
|
一般
|
35
|
20
|
20
|
较差
|
43
|
18
|
10
|
试选择一恰当的系数,描述二者之间的关系,并解释该系数的涵义。(20分) 1996年社会学方法三、设某村民小组共有10户,他们的家庭人口数分别为:4,10,4,4,5,5,4,5,4,5。问:①家庭平均人口数是多少?②标准差是多少?③如果从中作简单随机抽样(有效回收),每次抽4户,那么标准误差(样本平均值的标准差)是多少?(10分)四、有两名学生A和B,分别在自己的班上都考得80分。但学术A的班级平均分为70分,标准差为10分;学生B的班级平均分为65分,标准差为18分。问:两名学生(A和B)谁在班上的成绩更好些?(10分)五、根据抽样调查结果,得出收入(y)与受教育年限(x)的回归方程为:=300+20x。问:①若受教育年限为15年,则收入的回归预测值是什么?②有人为了检验所得的回归预测值是否正确,调查2名受教育年限为15年的职工,结果他们的收入都不等于回归的预测值。这是为什么?(假定回归方程的计算是无误的)六、根据人口普查,某的婴儿死亡率为40‰。为了检验普查数据的可靠性,对该地又作了一次抽样调查。结果是100名新生婴儿的死亡率为30‰。问:①根据题意检验的要求,确定显著性水平。②写出原假设和备择假设。③对人口普查数据的可靠性做出判断。(Z =1.65,Z =1.96,Z =2.58) 1997年社会学方法四、为了解某地今年人民的生活比去年是否有所改善,随机抽查8户人家。结果有7户生活有改善,1户生活下降了。试用符号检验法,推论该地人民的生活是否比去年有所提高(α=0.05)(20分)写出:①原假设 ______②备择假设 ③检验过程 ④推论结果(α=0.05) 五、若根据列联表1:
|
|
|
|
|
|||
计算出用于检验的统计量:那么,根据列联表2:
|
|
|
|
|
k
|
k
|
k
|
|
k
|
k
|
k
|
计算出用于检验的统计量 应等于什么?(20分)(注意:表2中所有格值都是表1相应格值的K倍) 1998年社会学方法三、问答题(5分×2)1、设总体X服从正态分布N(μ, ),其中μ已知, 未知。设 、 、 是取自总体X的一个样本,试指出:(1) + + (2) +2μ (3) (4)max{ , , }(5) (6)μ (7) (8) (9) +哪些是统计量?哪些不是统计量?为什么?2、为调查某地高校毕业生对求职的意向,从中抽取了200名应届毕业生。问总体、个体、样本、样本容量各指什么?五、计算题(10分+20分)1、为研究体制改革前后企业生产效益的变化,随机抽查了6家企业。结果表明它们中有4家效益增加了,其余为下降。试用一检验方法指出上述抽样结果能否推论到总体,认为改革后企业效益增加了。(α=0.05)2、设有以下两个二元重复情况下的方差分析:
AB
|
|||
12
|
78
|
1314
|
|
34 |
910
|
1516
|
|
56 |
1112
|
1718
|
AB
|
|||
12
|
1314
|
78
|
|
34 |
910
|
1516
|
|
56 |
1112
|
1718
|
问:①两表中哪些离差平方和相同?②两表中哪些离差平方和不同? 1999年社会学方法四、统计题1、设某企业职工收入都在1000元以下。下面是它的收入分布直方图(图略):【题意大致如下:0-100,100-200,200-300,300-400,400-500元的均占0.05;500-600,600-700,700-800元的所占比例均相等;800-900的占0.2;900-1000元的占0.1】试问收入在500-800元之间直方图的高度应是多少?(10分)2、设某单位共有10名员工。根据上级指示,年终奖金可供选择发放的标准有三档:100元,200元和300元。问:①如果平均奖金为200元,标准差为0元,那么该单位选择的奖金是哪几档?每档奖金各有几人?②如果平均奖金为200元,标准差为100元,那么该单位选择的奖金是哪几档?每档奖金各有几人?③如果平均奖金为200元,能否设计是标准差超过100元的奖金方案?每档奖金各有几人?(10分)3、设根据职业(A)与地区(B)来分析收入差别。其中职业分5类,地区分5类。得如下方差分析分析表:
方差来源
|
变量A
|
变量B
|
剩余
|
总平方和
|
平方和
|
||||
自由度
|
||||
平均平方和
|
||||
F值
|
|
|
||
临界值
|
|
|
已知: =247.22, =42.50, =39.47。求表中其它各值:① = ② = ③ = ④ = ⑤ = ⑥ = ⑦ = ⑧ = ⑨ =⑩若α=0.01, =4.77, =4.77,将对变量A和变量B作何结论?(α=0.01)(20分) 2000年社会学方法四、选择题(4分×5)1.如果有两个估计量同时满足参数估计“无偏”的评价标准,但我们选择了方差小的估计量,这是因为在置信区间相同的情况下,参数估计的: a)置信区间小 b)置信区间大 c)可靠性好 d)显著性小 e)把握大2.当样本容量增加时: a)总体方差增加 b)样本方差增加 c)样本方差减少 d)样本标准误减少 e)样本标准误增加3.如果拒绝了原假设,犯第一类错误(以假当真)的概率是: a)1 b)1/2 c)0 d)∞ e)说不定4.为了解某村改革开放近10年来的变化,对该村10年前随机抽样所得的样本又进行了重访调查。这样的比较研究属于: a)独立样本 b)个案样本 c)随机样本 d)典型样本 e)配对样本5.研究人员为了说明调查结果的众值具有很好的代表性,他应指出: a)较大的异众比例 b)较小的异众比例 c)较小的极差 d)较大的方差 e)较小的方差五、填空题(10分)以下是5个单元测量X和Y变量的等级值,问:
单元
|
X
|
Y
|
A
|
3
|
2
|
B
|
3
|
1
|
C
|
3
|
1
|
D
|
1
|
1
|
E
|
2
|
3
|
同序对为:___________异序对为:___________X同序对为:_________Y同序对为:_________X、Y同分对为:______六、计算题(10分) 根据已有资料,缺碘儿童占某村儿童综述的50%。经过补碘,随即抽查400名,缺碘儿童为168名。问补碘是否收到成效?(显著水平:α=0.05) 写出:(1)原假设及备择假设 (2)样本统计量及其观察值 (3)样本统计量的临界值(α=0.05) (4)检验过程及其结论 2001年社会学方法四、判断题(1分×20)(每一选项都必须做正误判断,在右侧横线处用√表示正确,用×表示错误)①可以根据定序变量的取值,来进行(a)计算平均值 ____ (b)对案例进行分类 (c)比较等级差别 ____ (d)比较确切差距 ②根据下面所提供的相关系数,判断相应的回归方程是否正确。(a)r=0.7, (b) r=0.7, ___ (c) r=-0.5, (d) r=-0.5, ___ __③要保证更大的置信度,可以通过以下方式:(a)缩小置信区间 (b)减少偏差 _____(c)扩大样本规模 (d)提高精度 ______④一个自变量的回归系数的统计性很显著,说明(a)该自变量对因变量有很大的实际影响 (b)该自变量对因变量很可能有影响 __(c)该自变量对因变量很可能没有影响 (d)该自变量对因变量根本没有影响 ___⑤无偏估计,指的是(a)样本规模越大,抽取一个样本的统计值越接近总体参数 (b)所抽某个样本的统计值正好等于总体参数 (c)所有可能样本的估计的平均数等于总体参数 (d)处于总体参数两侧一定区间之内的样本估计 五、在下表划线处计算填空,并判断 检验的结论(共20分)随机样本的观察频数分布为:
132 |
|
168
|
|
48
|
156
|
||
240 |
|
324
|
期望频数分布为:
|
43.6
|
|
115.6 |
40.4
|
;其自由度df= (请填空);对应这一自由度的临界值 。请判断以下每项结论的正确与否:以上统计结果说明① 检验在α=0.05水平统计显著 ② 检验在α=0.01水平统计显著 ③ 检验在α=0.05水平统计不显著 如果扩大样本规模2倍,那么①得到新的 统计值大约是现在的2倍 ②得到新的 检验的自由度是现在的2倍 ③得到新的统计显著水平α大约是现在的2倍 2002年社会学方法四、判断题(1分×20,每一选项都必须做正误判断,在右侧横线处用√表示正确,用×表示错误)①增多观测样本规模n,(a)有时是为了保证抽样分布可以近似看作正态分布 (b)有时是为了提高估计精度 (c)在所有条件下都能减少估计的误差 (d)在所以条件下都能减少估计的偏差 (e)在所有条件下都能取得精度上的边际收益 ②已知两个非标准化的定距变量y和x之间的相关系数等于-0.5,用y作为因变量对x做简单回归时,(a)决定系数肯定等于0.25 (b)回归系数肯定为正值 (c)标准化回归系数肯定为正值 (d)标准化回归系数值与回归系数值肯定不相同 (e)如果相关系数统计性显著则回归的统计性肯定也显著 ③当检验两个变量之间的相关性是否显著时,如采用 检验时,通常表明:(a)两个变量都是定类变量 (b)两个变量都是定序变量 (c)两个变量都是定距变量 (d)一个是定类变量,另一个是定距变量 (e)一个是定类变量,另一个是定序变量 ④在估计总体参数时,说某种估计具有一致性是指:(a)这种估计的抽样分布与总体分布的类型相同 (b)这种估计的期望值等于总体参数 (c)这种估计的标准误小于总体的标准差 (d)当观察频数增加时,这种估计的偏差会越来越小 (e)当观察频数无限增加时,这种估计的标准误等于0 五、统计计算与分析题(共20分,将下表抄录于答题纸上,根据提供的信息,计算MSS指标和F指标)二元方差分析表Dependent Variable:初中入学率
Source
|
SS
|
Df
|
MSS
|
F
|
Sig.
|
民族
|
316.75
|
2
|
|
|
0.002
|
居住地类型
|
266.67
|
1
|
|
|
0.001
|
Error
|
348.58
|
20
|
|
|
|
Total
|
932.00
|
23
|
|
|
|
2003年社会学方法五、统计学判断选择题(3分×10)①标准误(a)的大小与样本规模呈反向变化 (b)是样本方差的平方根(c)是总体方差的1/n(注:n为样本规模) (d)是置信区间误差范围的1/2②中心极限定理说明不管总体是什么分布,随着样本规模增大,其统计量的抽样分布将越来越接近于(a)总体分布 (b)标准正态分布 (c)正态分布 (d)t分布③在回归分析中,如果改变的自变量的测量单位,(a)回归系数将不发生变化 (b)回归系数的显著性将发生变化(c)标准化回归系数将发生变化 (d)确定系数将不发生变化④ 检验很显著说明列联表(a)变量之间的相关强度很高 (b)的变量关联不太可能是出于抽样误差(c)的条件分布与边缘分布很近似 (d)的观测频数与相应期望频数差异很小⑤在多元回归中,整体检验显著但单个自变量检验都不显著,说明(a)各自变量对因变量都没有显著影响 (b)各自变量与因变量为非线性关系(c)需要对各自变量先进行标准化 (d)各自变量之间存在高度线性相关⑥方差分析通常应用于(a)两个类别的样本平均值之间的差异 (b)两个类别的总体平均值之间的差异(c)多个类别的样本平均值之间的差异 (d)多个类别的总体平均值之间的差异⑦第一类统计检验错误(a)指在 不真实情况下接受了 (b)的标准概率在社会学中通常设为0.01(c)在希望接受 时应受到特别关注 (d)的概率很小表示差异的统计性很显著⑧两个变量之间的偏相关系数为负值意味着(a)两者之间的偏回归系数也是负值 (b)两者的相关系数存在着正偏差(c)两者的简单相关系数的绝对值更大 (d)两者的相关系数存在着负偏差⑨说某一样本统计量是总体参数的无偏估计是指(a)抽出的某样本的统计量等于总体参数 (b)其抽样分布的平均值等于总体参数(c)其抽样分布的标准误小于某一范围(d)当样本规模增大时其抽样分布的平均值越来越接近总体参数⑩95%概率的接受区间(a)是以样本统计量为中心的一个值域 (b)指总体参数有95%概率落入其间(c)的值域宽度与95%置信度宽度相等 (d)如包容样本统计量在内便拒绝六、统计计算与统计分析1、对随机抽样样本中的城乡家庭是否拥有电视机的观测频数列交互表如下:
观测频数( )
|
居住地区
|
合计
|
||
农村
|
城市
|
|
||
是否有电视机
|
无
|
10
|
2
|
12
|
有
|
6
|
12
|
18
|
|
合计
|
16
|
14
|
30
|
①将下表格式抄录答题纸上并计算 检验所需要的期望频数。(共4分,每空1分)
期望频数( )
|
居住地区
|
||
农村
|
城市
|
||
是否有电视机
|
无
|
|
|
有
|
|
|
②该 检验的自由度d.f.=?(3分)③请推测这一分析背后的备选假设是什么,并做简要文字表达?(3分)④该交互表的 =7.232,相应的Sig.=0.007这一统计结果的意义是什么?(5分)2、对同一数据研究“收入”,建立了两个多元回归分析模型。设:收入, =受教育年限, ={0=城市,1=农村}得以下结果:第一模型:第二模型:①分析第一模型所揭示的自变量的作用,指出城乡差异所在。(5分)②写出第二模型中的城乡各自的回归线方程并画出相应的简单图示。(5分)③比较分析两个模型关于收入与教育的关系假设在城乡之间有何不同。(5分)总的来说,出题思路有一定变化,多元回归以前从来没考过,选择中也有, 所以大家统计一定要全面复习,基本原理很重要,选择题出的很有水准,有些很迷惑。今年的理论比去年简单,人口和劳动没考,没有偏题,方法强调基本原理的理解,不用记太多公式。 2004年社会学方法 七、统计分析题 1、假设检验题:成数检验,拒绝时犯第一种错误的概率 2、回归分析题,照搬了去年的最后一题,改了一下问题 2005年社会学方法五、统计选择题10道,关于标准误的,卡方分析的,回归自变量的单位变化的,显著度含义的(这几个好象近来每年都考),消减误差比例的,t检验的,自由度问题的,还有三道不记得了。 七、计算题1.方差分析题20分,能计算三个方差和,自由度,和F值,能知道过程和结果的含义就可以了。2.回归分析题10分,整体检验显著,单个自变量检验不显著的问题.总的来说,方法今年有所变化,开始比较注重实际运用;统计没明显变化,不注重计算,只注重理解和逻辑. 2006年社会学方法
六、统计
1.方差分析
2.回归分析 定类-定类双边量分析 03年的原题,城乡电视的那个 2007年社会学方法六、统计选择题(3分×10)
1回归方程中两变量简单相关系数为正,偏相关系数为负。下面说法哪个正确?
A 两变量负相关 B
C两变量还受其它因素的影响 D
2 X可以解释Y的81%的变动,则
A 决定系数为0.81 B
C r为0.9 D 共变差为81%
3 如果使用方差分析,则一般情况下表明两变量
A都是定类变量 B一个是定类变量,一个是定距变量
C 一个是定序变量,一个是定距变量 D两个都是定距变量
4 对一个分布进行线性调整,则
A 斜率不变 B 显著度会发生变化
C截距不变 D 解释力下降
5 显著度α
A 表示正确拒绝H0的概率 B表示α是否定域占总面积的比例
C 错误地接受H0的概率 D6 中心极限定理表示
A当n→∞时,样本观测值的分布是正态分布
B 当n→∞时,样本观测值等于总体均值7抽样分布的含义是
A 是总体值的理论分布 B 是样本观测值的实际分布
C 总体中观测值的概率分布 D 样本中观测值的概率分布8接受区间
A 是以总体假设值为中心的 B 就是置信区间
9如果一个量的估计值等于其总体均值,那么,这个值叫做
A无偏估计 B七、计算题:(15分×2)1、根据居民楼100户的抽样调查,居民用于食品的支出平均占家庭总支出的比例为75%,标准差为20%.问:
(1)有关食品支出占家庭总支出的比例,平均为70%的说法是否成立?写出具体计算过程(α=0.05)
(2)如果拒绝了食品支出占家庭总支出的比例为70%的说法,则可能犯错误的概率为多少? 2、对同一数据研究“收入”,建立了两个多元回归分析模型.设y=收入,x1=受教育年限,
当x2=0时表示城市,当x2=1时,表示农村.得到以下结果:
第一模型: y=40+6x1-5x2
第二模型:y=36+7x1+4x2—2x1x2
1) 分析第一模型所揭示的两变量的作用,指出城乡差异所在;并说明两个模型的理论假设有什么不同。2)写出第二模型中的城乡各自的回归线方程并画出相应的简单图示
3)比较分析两个模型关于收入与教育的关系假设在城乡之间有何不同 2008年社会学方法
六、统计学选择题(3分×10)
1、无偏估计:基本定义
2、下列那些不具有消除误差比例的性质: A判定系数,B相关系数, CD
3、列联表中卡方检验显著说明: A不太可能是处于变量的偶然性因素BCD
4、t检验
5、极限与样本规模
6 在多元回归中,整体检验显著但单个自变量检验都不显著,可能是因为:
A变量之间有高度的线性相关BCD
7、正态分布与双尾检验
8、回归分析
9、XY相关
10、t分布的性质七、计算题(15分×2)
1、样本均值、区间估计、单正态总体均值检验 2、方差分析(需将表格抄于答题纸上)
下面是有关一些民族地区与经济发展水平的方差分析表:
|
自由度
|
F值
|
显著度
|
组间
|
|
16
|
0.030
|
组内
|
220
|
|
|
总的
|
1640
|
29
|
|
1)除了填出表中的括号,还需要补充其他需要填的内容(6分)2) 1.指出题目中原假设是什么
2.指出分析中的因变量是什么3.自变量的作用是什么
4.可能犯那一种错误5.犯错的概率是多少6.样本规模是多大
7. 忘记了(共9分)
方法基本上不是很难,在复习时要把袁方的书狠过,巴比的书也很重要,把两本书对比着看,最好把笔记落实在纸上。统计也简单,主要是卢淑华的社会统计学和郭的量化方法,卢的书是基本的,郭的书主要得看懂多元部分就可以,不要被抽样那几章吓倒。 2009年社会学方法六、统计单选题(3分×10)1 置信区间用于: A 参数估计 B假设检验 C D2下列关于非参数检验说法正确的是: A非参数检验一般用于定类-定序变量 B卡方检验是一种非参数检验 C非参数检验的灵敏度比相关参数检验高3方差分析用于:
A一般自变量为定类变量 因变量为定距变量
B一般自变量为定距变量因变量为定类变量 CD4 估计量的有效性是指: A抽样分布的标准差小BCD5下列那些不具有消除误差比例的性质:
A相关系数r B斯皮尔曼等级相关系数 C列联相关的系数 D忘记6 如果X与Y 为相关关系,则: A、X是自变量 Y是因变量 B、X是因变量 Y是自变量 C、X与Y的关系有可能是其它变量所引起 D、以上三种都有的情况是可能的7 极限定理说明
A 随着样本规模的增加抽样分布的标准误减小
B 随着样本规模的增加抽样分布越来越接近总体分布 CD七、统计计算题(第1题20分,第2题 10分)1、平均家庭规模Famisize 受两个变量影响 一个是城乡属性urban(城市=1,乡村=0)另一个是少儿人口比 children 平均家庭规模 Famisize标准差为0.5 以上三个变量的多元回归方程为:Famisize=3.8-0.28urban + 0.05 children ,标准偏回归系数(β) 0.00[url=]0.4 [/url] 0.3
问:1)如果以上数据均统计显著,请对以上回归方程做全面的分析(16分)
2)根据以上数据求出少儿人口比的标准差(写出计算过程)(4分)2、专家说大学生的平均智商为120,现有一随机抽样数据得观测值为123,抽样规模为100
问:1)对专家的说法进行检验(α=0.05)(5分)
2)如果我们否定专家的说法,犯错误的概率是多少(5分)