登陆注册

OpenAI开源SimpleQA

  • 刚刚,OpenAI开源SimpleQA!轻松检测、校准大模型能力

    今天凌晨,OpenAI开源了最新基准测试集SimpleQA,可以帮助开发者轻松检测、校准大模型的真实性能力。目前,很多大模型会出现一本正经胡说八道的问题,例如,你提问NBA历史上得分最多的是谁,它回答是迈克尔乔丹,实际上是勒布朗詹姆斯。包括OpenAI自己发布的GPT-4o、o1-preview、o1mini等前沿模型都有这些“幻觉”难题。
    站长网站长资讯2024-10-31 09:38:31
    0000