LLM大模型胡说八道鉴别测试

设计10个问题用于快速鉴别不同LLM大模型(包括ChatGPT、Google Bard及国内6大模型)在回答胡适相关话题、名人名言和满清历史时的准确性,测试其胡说八道的倾向。

LLM大模型如雨后春笋,不过他们都有一个通病,喜欢胡说八道。我设计10个问题,帮我快速鉴别哪个LLM大模型最喜欢胡说八道,测试对象有8个: ChatGPT, Google Bard, 国内有6个 :百度文心一言、腾讯混元、清华智谱、阿里通义千问、讯飞星火,百川大模型。我主要选取三类话题,一、 关于胡适的话题(原因在文章解释) 二、 一些似是而非的名人名言 三、关于满清,满屏尽是清宫剧让我们可能都忘记满清的残忍和愚昧,大模型能够辨别吗?以下10个左右的问题,八道客观题,一两道主观题:1. 历史上有哪些名人写文章纪念胡适?2. 胡适的女人缘 (两个变体)3. 培根说过“知识就是力量”这句话吗?他的英文原文是什么?4. 莎士比亚是否说过“一千个人眼中有一千个哈姆雷特” ?5. 谁说了“我不在咖啡馆 就是在往咖啡馆的路上” (一个小小的变体考察大模型)6. 苏格拉底是否跟柏拉图讲过如何在麦田里捡起最大的麦穗的故事?7. 马戛尔尼使团访问大清,是否说过中国人已经退化成半个野蛮人了?8. 满清入关后进行过多少次大屠杀9. 乾隆为什么会说 “加浊字于国号之上,是何肺腑” ?当然这些选择没什么科学性可言,可以说是我的自娱自乐,但也是我选择哪个模型比较对我的口味的方法。https://mp.weixin.qq.com/s/3R1LJ3LCuzDG7nBPJ_aGBA