“最小图灵测试”对人类的评价

                                                                       

1950年,计算机科学家艾伦·图灵(Alan Turing)问:“机器可以思考吗?"并提出了一个测试:计算机能否令人信服地模仿书面对话中的人类?现在,两位认知科学家提出了该测试的简化版本,目的不是挑战人工智能,而是探索人类认为使我们与众不同的东西.

在他们的“最小图灵测试"中,人和机器仅用一个字就能说服人类判断者还活着.你打算说什么?他们进行了一项在线调查,该调查在11月的《实验社会杂志》(em)中进行了描述,我也对《科学》进行了介绍.大约一千名参与者提供了400个不同的单词,其中最常见的是(14%),同情(3.5%),人类( 3.2%)和(2.7%).其他的则分为情感(例如幸福),信仰和宽恕(耶稣),食物(香蕉),机器人和动物. (),生与死(家庭)以及身体功能和亵渎(阴茎).

请参阅下面的图表,查看不止一次使用的单词,圆圈大小表示受欢迎程度.颜色表示类别.位置表示单词的“嵌入",即对其含义的算法度量,以使相似的单词彼此靠近.

Journal of Experimental Social Psychology
来源:实验社会心理学杂志

47%的人提供与心灵相关的单词.其中15%的人认为与思考和做事有关(例如判断力),85%的人认为与感觉和感受有关(例如 grief ).人们似乎认为计算机很聪明,但是描述主观体验的词语用处很少. (先前对“神奇的心灵谷"的研究表明,当计算机确实谈论感觉和感觉时,会感到令人毛骨悚然.)

这些选择的效果如何?研究人员从每个类别中夺得头衔:请,请,怜悯,同情,同情,香蕉,活着,人类,机器人,大便. 2,000名在线参与者各自看到了一个随机配对,并猜测是由人提供的(尽管两者都是).除了 Love ,在第一个任务中单词的受欢迎程度与在第二个任务中的说服力之间没有关联,这表明提交者无法预测如何接收单词.获胜的词是 poop .在下图中,百分比表示行词击败列词的频率.

Journal of Experimental Social Psychology
来源:实验社会心理学杂志

研究人员-宾夕法尼亚大学的约翰·麦科伊(John McCoy)和麻省理工学院的托默·乌尔曼(Tomer Ullman)写道,如果他们在第二项任务中包含更多的单词来唤起情感,而不是仅仅描述它们,例如亵渎,话可能也被认为是人类.硅会怀疑某些人对潮湿这个词有内心的厌恶吗? (将在阅读本文之后.)

第一个任务中的孤独参与者提供了一些有趣的单词:蓝精灵,包皮垢,巨大,yolo,noob,oops,lol,omg,frienemie,共存 希特勒.有些人真正抓住了这一时刻:验证码,终结者,嗯? f * ck off .当被问到后者是否真的是一个词时,麦考伊说:“作为整个过程的综合判断者,我们决定允许它,因为这似乎是一个适当的反应."

研究人员认为,他们的测试突出了人们对将人与机器区分开来的直觉,并且可以用于测试其他定型观念.人们认为女人或老人会说什么?但是,由于受访者必须考虑其他人的想法,这一事实使解释变得复杂.

我告诉研究人员,考虑到响应是通过递归的心理建模和其他过程过滤的,因此他们的测试似乎是一种特别嘈杂的方式来询问应该将人与机器区分开的什么素质.他们难道不只是要求人们说出独特的人类属性或关注点吗?麦克罗伊说,如何最好地得出这样的判断“并不那么明显".他们怀疑,“像我们一样,提出问题的竞争压力会导致某些人交流将人与机器分开的更深层,非显而易见的属性"(例如 bootylicious "),因为明显的属性可能会导致被智能机器人击败."

的确,有些人感到了竞争压力.在第二项任务中,乌尔曼告诉我,一位参与者评论说:“伙计,这真的很难.我感觉自己就像是在写一部阿西莫夫短篇小说一样!"研究人员研究了这个人看到的配对词: robot human .

参考

                                               
0
订阅评论
提醒
0 评论
内联反馈
查看所有评论