背景:在问卷星上做了一份媒介接触习惯的问卷调研。在问卷星导出的sav格式数据格式,和自己想象的不太一样,为了达到自己分析使用的目的,做了很多尝试。总结一下。
需求1.缺失值处理:
从问卷星导出的sav格式数据,多选题中,缺失值被标记为负值一般为-2,同时如果问卷中有逻辑跳转题,被跳出的样本则会使用-3来标记。多选题的有效样本数是指应答人数,即勾选了该选项的人数。所以-2,-3都是异常数据。在变量视图中,需要手动添加。
需求2.多分类 变量分组
年龄初期设置成:18-25、26-30、31-40、41-50种,后期分析的时候想转变为:18-30、 31-50
我自己的做法:
分组,直接就在“计算变量”中设置,结果就是新生成了两个变量,我的本意是把年龄变量的水平由四个改为两个,并不是拆分。不符合正常使用。

正确做法:
有两种实现方法:第一种是重新编码,可以重新编码为不同变量。第二种方法是计算变量。

2.Spss 计算变量-分组_腾讯视频
需求3.二分类计数的变量如何分组:
渠道(分为:超市,大卖场,便利店等等)是用二分法记录的,每一个渠道都是一个单独的变量,想把超市和大卖场合并成一个变量怎么做?然后在对二分法的渠道总体做一个定义多重响应集,为后面的交叉分析做准备。
我的做法:
我用的是“计算变量”,重新设计一个变量supermarkt,加入条件(如果超市=1,或者大卖场=1,就可以supermarkt=1)
IF (Q16_选项1 = 1 | Q16_选项2 = 1) supermarkt=1.
VARIABLE LABELS supermarkt '2'.
EXECUTE.
配合“定义多重响应”能勉强实现之前的交叉表。问题是:上述方法得到的变量superMarkt是一个数值型变量,仅有值1,没有选中的就是空,和二分法记录不太一致,需要改进
正确做法:
使用“计算变量”,方法和上面的年龄分层一致的,不过是把值该为了0和1。
然后在“变量视图”里把值的修改成“0,未选中。1,选中”,就变成了二分法的
然后就可以正常使用“定义多重响应集”
需求4.有跳转关系的多选题 如何做交叉表(列联表):
多选题,第一题选择微信,微博···后,后面的题目就只问第一题选中的内容,比如第二题就只能微信的使用频次。
在分析时,怎么交叉分组统计?比如统计各年龄层微信,微博···使用频次情况?
自己的做法:
想简单了,像往常一样,把第二题做一个“自定义多重响应集”,把第二题选项集中成一个。但问题是:这个题目不是二分法记录数据的。具体是:首先第一题的每一个选项(微信,微博···)都做成单独的题,然后,每一个题下都有几个选项(每天3次以上,每天1-3次···),每个选项转变为变量了。因此,无法使用定义多重响应集。
第二错误:这个题目的选项(每天3次以上,每天1-3次···)类型是标量,但实际是有序数据。数据类型很重要,不同数据类型spss分析方法不同。
正确方法:
使用“定制表”
定制表可以统计频次,做出类似交叉表的效果。定制表实现的效果类似于excel中的透视表,非常符合自己的需求,如果想要更深入的,比如卡方值,也可以在这个表中实现。

需求5:在用Excel处理数据导入变量时,需要注意
有的时候,数据需要二次加工,比如把具体地址转化为省市,在spss里其实也可以,但效率较低,我喜欢直接在Excel里处理,然后添加到现有是sav表中。
第一次使用出现了疏忽:直接粘贴的是值标签。把分类变量变成了一个字符串。在做“定制表”时,就会因为没有分类,无法创建。应该编码后在导入,同时在变量视图定义好值标签。


需求6:分类统计,求平均数。比如分性别统计某指标平均数
应该使用“平均数”,定制表只能用于分类数据,“平均数”才能用于定距定比数据。

需求7:我有一些样本数据性别和年龄是缺失的,但其他维度不缺失。我想把这部分人剔除出去,在分析其他问题时,这部分不参与。通过“选择个案”做数据筛选。

网友评论