“是他临时决定的。他怀疑或许测试里有什么不为人知的bug,被测试员无意中观察到了,所以这次想尽量排除这个可能性。”
谢睿寒面色稍缓。他之前就推测过,测试一直失败或许和自己的算法没有必然关系,而是测试过程中出现了bug,因为为了测试超级人工智能天枢,他们特意采用了一套前无古人的方法。
图灵测试的原理就是让测试者与电脑对话,看电脑能否骗过测试者,使其以为自己是个人类。研究所对测试进行了修改和升级,不仅仅让测试员与天枢交流,更让他们面对面的交流。
时至今日,全息拟真技术已经发展成熟,只要在脑后植入微小的神经接驳器,就可以与电脑对接,体验栩栩如生的虚拟景象。各类全息拟真游戏大行其道,以至于传统的键盘类游戏几乎有了退出历史舞台的趋势。
研究所正是采用了拟真情境方式对天枢进行测试。
他们招募了一批志愿者作为测试员,将其放入各种各样的拟真情境之中。测试员身边的人物有些是真人,有些则是天枢扮演的。每当情境结束后,所有的测试员必须凭借观察、经验和直觉,指认哪些人物是真人,哪些是AI。有时还会加入对照组,如整个情境中都是真人,或除了单一的测试者之外都是AI。
超过一定比例指认成功,则意味着天枢未能通过此次测试。
谢睿寒对测试信心满满,认为自己的团队一定能创造出完美的人工智能,然而测试结果却让他大跌眼镜。二十七次测试,全数失败,那一页页测试员的指认报告简直就是在嘲笑他所付出的心血。
最初的四次测试,参与人员中有专业的围棋和国际象棋选手,所以大家决定举行比赛,天枢扮演的年轻棋手将其他人杀得片甲不留,被一致指认为AI,原因是“人类不可能有这样的计算能力”。
接下来的五次测试,谢睿寒要求天枢降低自己的计算力,扮演普通人,并且增加了竞技项目。天枢于是学会了输给人类。然而输掉比赛的方法非常拙劣,一看就知道是故意为之,结果又被指认了出来。
或许天枢就是个好胜心格外强烈的人工智能吧。之后的七次测试将测试员们放入极端的虚拟环境,比如即将沉没的轮船或被暴风雨包围的孤岛,可是在这六次测试中,天枢的表现都不尽如人意,不是太过聪明,就是太过愚蠢,好像它根本不懂得怎么低调生活。
最后的十次测试,谢睿寒修改了天枢的学习模式,并要求将情境改为普通日常生活,让测试员和天枢进行日常交流,并抛出一些争议性话题,要求众人讨论。可就连这样的测试,天枢都无法骗过人类的眼睛。它不是过于标新立异,就是机械地重复他人的观点。
二十六次失败后,谢睿寒甚至生出了将天枢整个删除的想法。天枢倒十分谦逊,恭敬地请求谢睿寒为它修改算法。但说起来容易,谢睿寒连问题出在哪里都不知道,又从何谈起修改呢!
但如果是拟真情境本身出了问题,那他就好受多了。情境是由测试组的人员制作的,会不会有什么地方粗制滥造,被人一眼就识破了?谢睿寒虽然自认为拥有一丝不苟的科学Jing神,但到了这种危急存亡的关头,难免会抱有些许甩锅心理。
“这次的测试员是谁?”他随口问道,“那个指认正确率100%的俞少清?”
助手点点头:“就是他。这次测试只有他一个人进入情境。”
“是对照组测试?”
“这我就不清楚了。这次测试的情境是秦康博士亲自设计的,详情他没告诉过任何人。”
谢睿寒陷入长久的沉默中。
测试员俞少清是研究所测试小组的一个神话,对于开发小组来说则是噩梦的代名词。
他原本在加州理工大学就读,研究的正是人工智能领域,但没有取得学位便回了国,在秦康博士的介绍下进入研究所,作为测试员参与了天枢项目。
起初谢睿寒对这个俞少清不以为然:连博士都没读完就灰溜溜跑回国的家伙能有什么本事?还不是靠着秦康的关系走后门进组的么?
然而一次次测试下来,谢睿寒的态度逐渐从不屑变成惊讶,最后变成了惶恐。每当新一次测试开始,谢睿寒就会不由自主地想起被俞少清支配的那种恐怖。
迄今为止俞少清参与的每次图灵测试,都成功地指认出了AI,正确率100%,比测试员中观察力一流的资深刑警还高。他的存在就是在狠狠打开发小组的脸,每打一次都会在他们心里烙下一句话:你们的设计还远远不够完美!
关于俞少清的正确率为何如此之高,他自己是这么说的:“我其实没看出什么破绽,只是一旦和AI扮演的角色相处,就浑身不舒服。和真人相处就没这种感觉。”
秦康博士对此的解释是恐怖谷效应使然。机器的外表越似人类,越容易引起人类的好感,然而一旦相似到某个程度,反而会引起人的厌恶。比起外表夸张的怪物,人类更害怕“似人而非人”的那些东西。譬如一个圆滚滚的小机器人,人们