用简单的语言解释测量有效性

                                                                       

在我以前的博客文章中,我指出可靠性有效性是心理测量的两个基本属性.缺乏信度和效度的智力,个性,职业兴趣等指标要比没用更糟糕.当我们基于缺乏可靠性或有效性的心理措施为自己或他人做出重要决策时,这些决策很可能是错误的和有害的.因此,我认为对于任何接受过心理测试的人来说,理解信度和效度并认识到何时采取一种心理措施可能缺乏这些重要特征至关重要.

正如我在前一篇文章中指出的那样,如果一项人格测验是可靠的,那么您每次参加测验都会得到几乎完全相同的分数.假设您参加了一项旨在衡量您的害羞程度的测试.第一次参加考试时,满分为90,满分为100.两周后,第二次参加考试,再次得分为90.他们在第一次测试中得到的分数与两周后的分数相同或几乎相同.害羞度较低的人(介于0到34分之间)也第二次得分较低.得分在中间(例如35到65)的人第二次也获得了平均羞怯得分.害羞度高的人(66分以上)第一次也是第二次得分很高.我们似乎有一个可靠的测试来衡量害羞程度.

但是等等-每次都给出几乎相同分数的可靠测试正在衡量一些稳定的特征,但是我们怎么知道这套项目实际上衡量的是害羞而不是其他一些一致的特征?''测试有效性.有效的测试会衡量测试作者声称要衡量的内容,而不是其他一些特征.知道测试是有效的,不仅仅要求外观有效.害羞测试在表面上看起来似乎是有效的,因为它包含诸如“我倾向于避开社交聚会"之类的项目,并且同意此类陈述可以使您指向害羞.包含其内容显然与该测试应该测量的内容相关的项目的性格测试具有有时称为“面部有效性"的内容.但这还不足以得出结论,这些项目实际上衡量了害羞程度.如果人们不能或不愿意根据他们的实际害羞程度适当回答这些问题,那么看起来有效的人格测验实际上可能会缺乏有效性.问题仍然存在,我们如何知道人格测验实际上测量了测试作者声称要测量的?

CC0 license
来源:CC0许可证

事实证明这是一个非常困难的问题.关于有效性的文献庞大而复杂.关于该主题的数十篇文章已经发表.家撰写了各种不同的效度,例如标准效度,预测效度,并发效度和增量效度.我在这篇博客文章中的目的是消除复杂性以普通语言解释有效性,而这并不过分简化了测量有效性的极为重要的概念.

尽管已写过各种有效性的“种类",但心理学家一致认为,它们全都依赖于一个称为Cstrongbach和Meehl的经典专着中讨论的基本的中心概念,即"构造有效性"( 1955年). (Paul Meehl被描述为我们这个时代最聪明的心理学家.)诸如羞怯,社交智慧,抑郁,尽责等心理构造是无法轻易简化为一种简单行为的理论观念.害羞不只是在回避人们,尽管在日常生活中,非心理学家可能会使用这种行为来将害羞的人与那些不害羞的人区分开.对于研究心理学家而言,羞怯是一种理论建构,它是各种思想,感觉,身体状态和行为的基础和解释.具有证明的结构效度的害羞测试有证据表明它确实测量了这种理论结构中的害羞度.要了解如何建立构造效度的证据,让我们看看研究人员对害羞的看法.

CC0 license
来源:CC0许可证

害羞专家乔纳森·奇克(Jonathan Cheek)指出,害羞是内在状态的基础,例如自我批判和自我意识的思想,对他人评价的担心,害怕被拒绝以及对孩子的紧张,沮丧和尴尬的感觉.社会环境.它还是其他人在场时出汗,发抖和脸红之类的身体症状,以及诸如安静,不注视别人,在交谈中笨拙地绊脚石以及完全避免社交场合等明显可见的行为(例如安静)的原因.

那么,导致如此广泛的一致的思想,感觉和行为的这种理论构造,羞怯感究竟是什么?好吧,研究人员并不清楚.害羞的构造像理论物理学中的构造引力子一样,被认为在引力中起作用.据推测,害羞的个体差异最终对应于大脑功能中一些尚未观察到的一致性.害羞的人的大脑与不害羞的人的大脑有所不同.但是正如物理学家缺乏检测单个引力子的方法一样,心理学家仍无法检测到与个体羞怯感个体差异相对应的脑功能的所有差异(尽管已经提供了理论).因此,害羞仍然是一种理论建构.

科学理论对在某些情况下会观察到的情况做出预测.羞怯理论预测了当一个人处于各种社会状况(或被要求想象自己处于某种社会状况)时我们将观察到的内容.根据一个人的害羞理论,我们可以预测害羞的人在参加竞技游戏的人群中比在观看视频的人群中表现出更多的焦虑感(肌肉紧张,发抖,出汗).要测试这种预测,就需要我们以某种方式来衡量害羞程度,无论是通过害羞问卷,对害羞的简单自我评价,根据有知识的熟人对害羞的判断还是其他一些害羞度量.每次我们进行研究以测试关于羞怯感的预测时,我们都会同时检验所使用的测量羞怯感的方法的有效性.

用霍根(Hogan)和尼科尔森(Nicholson)(1988)的话说,“构造验证无非就是假设检验"(第622页).

假设我们实际上进行了上述研究.我们让研究中的每个人都完成了20项修订的脸颊和公交车羞怯度表(RCBS).我们为所有研究参与者配备了非阻塞性传感器,用于测量肌肉张力,颤抖和出汗,并且将它们随机分配到各个组.有些小组可以参加比赛,有些则可以观看视频.收集完所有数据后,我们将心理生理学记录与RCBS上的分数进行比较.我们发现,在观看视频时,RCBS得分高的参与者比那些RCBS得分低的参与者表现出更多的肌肉紧张,颤抖和出汗.但是,在参加比赛时,RCBS得分高的人比低得分的人表现出明显更多的肌肉紧张,发抖和出汗.我们的预测得到证实.

这是结束吗?现在我们可以说RCBS具有构造效度,它确实可以衡量害羞吗?

总之,不.确认一个预测只是支持RCBS构建有效性的一小部分证据.没有害羞理论说,害羞只不过是在竞争活动中经历肌肉紧张,发抖和出汗.害羞远不止于此,强大的害羞理论可以产生足够的可预测性预测,以使研究人员终生忙碌.每当确认新的预测时,羞怯测度的构造效度以及生成我们检验的假设的理论的效度就会同时证明这一点.

但是,可以说我们的预测没有得到证实.假设RCBS得分高的人在两种情况下都表现出更多的肌肉紧张,颤抖和出汗-观看视频并参加比赛.这是否意味着RCBS的构造效度为零,应该废弃以获取新的害羞程度?不必要.如果没有确认预测,则可能意味着该措施缺乏构建效度.但这也可能意味着基础理论存在缺陷.害羞的人实际上在任何小组环境中都会出现的身体症状,而不仅仅是担心担心被评估的竞争情况.也许存在方法上的问题.也许为研究选择的视频描绘了使害羞的参与者变得自觉的社交环境.也许有关动物的视频会产生预期的结果.

就像一个已确认的预测并不能使我们对一种理论和测试的构造有效性具有绝对的信心一样,一个失败的预测并不意味着一定要放弃该理论或测试.仔细检查结果可能会导致放弃理论和/或措施.但是研究人员很有可能会对理论,方法或测量方法进行细微修改,然后再试一次.正如我之前指出的,构造验证和理论测试是永无止境的过程,使研究人员忙于整个职业.

自然,学术心理学家和其他任何人一样,都希望拥有成功的职业,而在心理学测量中一项成功职业的主张就是提出一种被研究界认为可靠且有效的新措施.不幸的是,渴望证明自己成功的愿望有时会导致研究人员过早地宣称其措施的有效性.我不知道我已经审阅过多少次提交出版的手稿,甚至看过一篇发表的文章,在那组作者声称在一组研究中“确立"了新方法的结构效度.有时,索赔是基于数据集的一项因素分析而作出的! Cronbach和Meehl(1955)提到因素分析是一种用于研究结构效度的统计方法.似乎有些研究人员着急发展自己的事业,将力集中在Cronbach和Meehl专着的那一部分上,而忽略了他们所说的关于构造验证是一个永无止境的过程的说法.

因此,不要相信心理学家说他们已经在一篇论文中证明了一种措施的结构正确性.失败的预测也不能说服您理论是错误的或量表是无效的.科学知识不像一座砖塔,在那里敲掉一块砖会毁坏塔.科学知识更像一个网络,Cronbach和Meehl称之为“标称网络".如果您剪掉一幅蜘蛛网,则整个网都不会失效.有效的科学知识不能立足于一项研究.如果我们的网络或相互联系的想法的网络庞大且建立良好,那么即使一项研究失败,它也仍然有效.

我最近听说阿尔·戈尔(Al Gore)在气候公约上表达了这一观点.气候变化否认者错误地指出了几项未能找到证据证明气候变化主要是由人类活动引起的研究,而科学发现的网络绝大多数都支持人为引起的气候变化理论.考虑一下:您是否曾经在高中物理或化学课程中进行过实验,但未获得预期的结果?尽管这在世界各地的高中中经常发生,但这并不意味着需要修改物理和化学定律.

最终,建立构想有效性的尝试是对真理的追求.寻找真相一直很困难.自文明诞生以来,哲学家一直在问:“我们知道什么,我们怎么知道我们知道?"即使是完全没有偏见的人也很难回答这个问题.科学作为建立知识的整体活动,在建立知识方面拥有良好的记录,其所有成就都证明了这一点.但是个别科学家可能会有偏见.可悲的是,科学家有时会设计他们的研究来产生结果,从而使资助他们的公司满意.科学家有时对理论如此执迷,以至于他们像律师一样单方面而不是公正地为他们辩护.

我在构造验证中看到的一种偏见形式包括一些项目,这些项目不描述构造的定义特征,而是预测研究人员希望与构造关联的结果.实际上,促使我写此关于有效性的博客文章的动机是我读到的一个有关尝试衡量灵性和证明生活的结果的故事.让我解释一下.

在看到害羞构造的定义可能有多么复杂之后,您可能会想象到定义灵性的复杂性和歧义.我在阅读有关衡量灵性尝试的文章时指出,尽管在心理学文献中可以找到超过三打的灵性度量,但很难对灵性进行清晰的定义.

CC0 license
来源:CC0许可证

一些研究声称灵性与积极的社会关系和良好的健康结果有关.然而,对灵性的度量有时包含与积极的社会关系有关的项目,例如“我具有普遍的归属感"和“我感觉与他人有亲戚关系". David Speed(2017)指出,由于其他研究已经表明,良好的健康结局与积极的社会关系有关,因此声称灵性通过此类措施可以带来良好的健康,就像在灵性量表中包括有关“禁止吸烟"的项目,然后声称灵性可以保护人们免受癌症侵害.

这里给研究人员的教训是,他们需要仔细定义要测量的结构,并避免包括代表预测结果的项目而不是定义结构的项目.给消费者的教训是,当您阅读人格特质X可以预测人生结局Y时,您可能需要检查一下人格特质X的量度是否包含有关Y的项.即使是一个Y项,也会使它看起来像X可以预测Y,实际上,它是预测Y.警告免提的一个Y项目.

参考

心理公告 52 ,第281-302页. DOI:10.1037/h0040957

美国心理学家 43 ,621-626. DOI:10.1037/0003-066X.43.8.621

速度,D.(2017年10月11日).灵性到底是什么? eSkeptic .取自https://www.skeptic.com/reading_room/is-spirituality-so-broadly-defined-that-testing-is-有意义-/

                                               

大众心理健康网(www.dzxl120.com)
本文链接:https://www.dzxl120.com/post/44067.html

0
订阅评论
提醒
0 评论
内联反馈
查看所有评论