AI能否解答历史难题？最新研究测试了GPT-4、Llama和Gemini，结果发现…

A^-

A⁺

虽然AI在很多方面表现都不错（比如编程），但根据一项研究，它还是很难准确回答出高级的历史问题。研究人员使用一种名为Hist-LLM的基准测试了OpenAI的GPT-4、Meta的Llama和谷歌的Gemini。

该基准依赖于Seshat全球历史数据库，这是一个非常全面的历史知识数据库。结果显示，GPT-4 Turbo表现最好，但准确率仅为46%，跟随机猜测的结果差不多。

“虽然大规模语言模型令人印象深刻，但它们仍然缺乏高级历史研究所需的深度。对于一些基本的事实，它们确实很好用，但在解答细致的高级历史问题时就不太行了”。

就比如，GPT-4错误地表示古埃及在某一特定时期有鳞甲，而实际上这一技术直到1500年后才出现。同样的，GPT-4声称古埃及在某个时期有常备军，这可能是由于其他古代帝国（比如波斯）关于常备军的数据较为普遍。此外，GPT-4和Llama模型在回答撒哈拉以南非洲等地区的问题时表现也都较差。

对此，专家们表示，虽然随着人工智能在不断发展，但在解释复杂的历史问题上，人类历史学家仍然是无法替代的。