← 返回首页

用AI出题测模型语义逻辑

发布时间: 2026-06-01 22:14(北京时间)

摘要: 作者分享了一个用AI生成语义逻辑题的项目,旨在测试不同规模语言模型的理解能力。题目受德国哲学风格影响而晦涩,0.5B模型平均正确率仅21.98%,而27B模型可全对。整体语气冷静且带有实验探索性质。

标签: 语义逻辑, 模型评测, AI出题, 哲学风格, 实验, 冷静

字数: 294

原文链接: /7402396589/R29gmeqmJ

今日新玩具
b.closeai.moe

看了tk老师这个idea( https://weibo.com/1401527553/R25K7xRZO ),试着做了个Demo。

出“阅读理解”的题目我自认功力不足,只好用AI来生成一些语义逻辑的题目。但因为题目全是语义逻辑,而且提示词中加了“参考德国哲学家的著作”等引导,所以题目晦涩难懂,建议大家做个10题感受一下即可。

全对就是“相当于”27b模型,因为题目用27b模型都能做对。另外,这套题用0.5b模型做,平均正确率只有21.98%。

题目是Gemini出的,我没一道道自己做过,说不定有些题目还是有歧义或者无解。

image