我们有测量问题吗?

                                                                       

From Pixabay at Pexels
弗莱克和弗里德(Flake and Fried)辩称,对量化重要构想采取“测量schmeasurement"的态度.
来源:Pexels上的"Pixabay"

标准化测试是有争议的.智商测试是否真的可以衡量智力,还是仅与您的测验能力相关,而不能解决更实际的日常问题? GRE是否真的可以衡量谁被录取了研究生课程,他们会做得最好?即使这些测试合理地利用了这些数量,但它们给出的结果是否存在某些系统性偏差?他们的测量有多精确?我们应该相信它们的两位小数,还是四舍五入到最接近的整数?

解决这些问题是心理测量研究的一部分,这是一个令人震惊的研究领域,人们在思考心理学时常常会忽略它.但是就高赌注测试而言,衡量并不是什么值得讨论的事情.杰西卡·弗莱克(Jessica Flake)和埃柯·弗里德(Eiko Fried)需要您知道,即使我们谈论的不够多,它对几乎所有心理学领域都至关重要.

Flake是麦吉尔大学(McGill University)的定量心理学家,对当前的研究文化进行了深思熟虑的批评.她关于GRE的Twitter帖子使我写了一篇较早的文章,关于是否应从研究生入学中删除GRE.她最近在“两位心理学家,四啤酒"播客上的采访更好地说明了她的来历.最深入的是她在Fried上发表的题为"Measurement Schmeasurement"的学术文章,其中表明“心理学受到测量schmeasurement态度的困扰:QMP(可疑的测量方法)很常见,为研究人员提供了令人惊叹的自由度,构成了严肃的态度.对累积心理学科学构成威胁,但基本上被忽略"(摘自摘要).

Flake和Fried用QMP来形容QRP(可质疑的研究实践),该术语在2011年和2012年在心理学上无处不在.QRP与统计推断有关.如果您使用这些方法,则可以从声明一个变量对另一变量的影响(比如节食对自我控制的影响)声称不存在.您从说“我没有影响"到“我有影响".

但是,弗莱克和弗里德根据测量理论开辟了一个更广泛的问题框架.正确地进行统计推断(“有效果"与“没有")只是一种有效性.另一个是内部有效性,它建立变量之间的因果关系.这里提出的一个常见问题是,变量在不同的文化或环境中是否具有相同的关系.例如,自我控制可以通过要求人们继续坚持艰苦的难题,避免嘲笑有趣的电影以及尽可能长时间地握住握柄大师来衡量.在美国中产阶级的大学本科生中,所有这些任务的表现可能呈正相关,从而给出了一种内部有效的自我控制措施.在Mensa成员中,拼图上的表现可能与其他任务有所不同,因为他们喜欢他们的一些脑筋急转弯.因此,该措施的适用性受到限制.

外部有效性确定了普遍性发现的程度.也许我们看到节食降低了80年代东北大学生的意志力.在2010年代西南的成年人中,它会做同样的事情吗?如果不是这样,该发现可能没有太大用处,因为它通常不成立.

构造效度确定了我们如何衡量研究中的变量.对于“不嘲笑一部有趣的电影"任务来说,重要的事情是尽可能长时间地坚持笑吗?还是要始终保持镇定状态并尽可能减少噪音?如果您有一个“休息"然后无法停止笑的人,那么从这个指标中得出一个人的自我控制得分的数字可能会截然不同.如果您以第一方式为任务评分,我们将拥有自我控制的冠军;用第二种方式得分,这是一个自我控制的障碍.

Photo by Pixabay on Pexels.
测量问题在日常工作中是如此重要,我们忘记了它们对于心理学来说是严肃而棘手的.
来源:Pexels上的"Pixabay"照片.

Flake和Fried引用了很多“赞!"有关测量的统计信息.例如,对人格与社会心理学杂志(JPSP)的审查发现,有19%的时间以某种临时方式(未验证)修改了标准量表,并且对措施进行了审查.情感的人特别发现约90%的人被修改了.对JPSP的审查还发现,使用的量表中40%的人不清楚他们的来历,19%的人没有说出他们问了多少个问题,9%的人没有说出人们的反应选择是什么. >

当我们谈论标准化测试时,科学家和公众知道在确定其确实有效时要非常小心.这是一个连续的过程,并且正在不断研究检测测试偏差的新方法.我们应该非常关心在心理学的许多领域中正在研究的更抽象,理解较少的概念!

例如,我们应该继续担心抑郁量表是否真的可以衡量,它是否适用于所有人群,以及我们是否以有意义的方式组合这些项目(应该对某些因素进行加权)相对于其它的?).在开始宣称哪些疗法可以减轻抑郁症之前,我们需要这样做.如果我们不知道我们对抑郁症的量度是否在给出有效的读数,那么看看我们是否可以改变它有什么意义呢? (弗里德(Fried)的一篇论文表明抑郁症的测量方法非常不一致.)

我认为,这种测量问题是理解近期心理学中最具争议的研究领域之一:自我耗竭的关键.阅读关于自我耗竭的原始经典手稿,您会发现有四项声称使用四种不同的实验装置测量“意志力"(文献中自我耗竭的同义词)的研究.

其中一个,参与者在一个房间里,房间里有一碗新鲜出炉的饼干和一碗萝卜;有些人被允许吃饼干,其他人被允许吃萝卜.不吃饼干是为了征服意志力.在另一种情况下,参与者被告知他们将按照自己选择的位置录制预先写好的演讲,或者被分配来录制不支持自己立场的演讲.反对自己的自然立场发表演讲是为了征服意志力.在第三部分中,向参与者展示了激动人心的电影剪辑,并告诉他们可以自由表达自己的情感,或者应该隐藏自己的情感.隐藏他们的情绪是为了征服意志力.在第四部分中,要求参与者查看文本页面并划掉字母"e"的实例,或咨询有关哪些字符划掉页面的多个规则.必须咨询更多规则以了解要跨过哪个字母才能对意志力征税.

对我来说,本文中最大的主张不是核心主张(意志力通过共同的任务而得到推动).假设所有这些常见任务都具有相同的效果!研究人员似乎认为,任何看起来艰巨或不便的任务都必然以同样的方式消耗掉.他们从来没有采取确保他们仔细测量某些东西的初步步骤.

By A. Danvers (photo credits in image).
Willpower的研究人员不必担心哪些任务是有效的措施.
来源:A. Danvers(图片中的图片来源).

结果,几十年后,当一次自我耗竭任务无法复制时,原始研究人员声称原因仅在于未使用正确的任务.因为没有人回过头来花时间确定各种意志力任务的有效性,所以无法说出所用的是好是坏.这完全取决于不同科学家群体的直觉.即使到了现在,桌上无法理解意志力的解决方案中也没有涉及回溯并进行缺失的度量研究.

意志力就像抑郁一样,意志力是一个重要的大话题,其含义可能与许多日常生活相关.我们应该确保准确测量它们!如果您对标准化测试是否公平感到不满,就应该对我们是否正在准确诊断抑郁症感到不满!或实际上弄清楚在您的日常生活中拥有意志力意味着什么!心理测量研究不仅适用于统计书呆子和Twitter上有见识的人,而且还适用于那些希望准确了解人们的想法的人.

                                               
0
订阅评论
提醒
0 评论
内联反馈
查看所有评论