Evaluating GPT-3.5 and GPT-4 Models on Brazilian University Admission Exams
本研究旨在探索语言模型(LM)在应对高重要性多选考试中的能力,这里的考试代表巴西大学广泛采用的综合性入学考试—— ENSM 考试。这个考试给语言模型带来了挑战性的任务,因为它的问题可能跨越多个知识领域,需要从多个领域获取信息的理解。例如,一个问题可能需要理解统计学和生物学的信息。本研究对 GPT-3.5 和 GPT-4 模型生成的回答进行了分析,对 2009-2017 年考试中的问题以及在训练模型完成后发布的 202...