虽然AI在很多方面表现都不错(比如编程),但根据一项研究,它还是很难准确回答出高级的历史问题。研究人员使用一种名为Hist-LLM的基准测试了OpenAI的GPT-4、Meta的Llama和谷歌的Gemini。
该基准依赖于Seshat全球历史数据库,这是一个非常全面的历史知识数据库。结果显示,GPT-4 Turbo表现最好,但准确率仅为46%,跟随机猜测的结果差不多。
“虽然大规模语言模型令人印象深刻,但它们仍然缺乏高级历史研究所需的深度。对于一些基本的事实,它们确实很好用,但在解答细致的高级历史问题时就不太行了”。
就比如,GPT-4错误地表示古埃及在某一特定时期有鳞甲,而实际上这一技术直到1500年后才出现。同样的,GPT-4声称古埃及在某个时期有常备军,这可能是由于其他古代帝国(比如波斯)关于常备军的数据较为普遍。此外,GPT-4和Llama模型在回答撒哈拉以南非洲等地区的问题时表现也都较差。
对此,专家们表示,虽然随着人工智能在不断发展,但在解释复杂的历史问题上,人类历史学家仍然是无法替代的。
来源: NY Post
有0条评论
登录 后参与评论