Privacy-Aware Visual Language Models

本文旨在增进我们对视觉语言模型(VLMs)如何处理敏感信息的理解,这些技术已经成为日常生活中不可或缺的一部分。为此,我们引入了一个新的基准PrivBench,包含8个敏感类别的图像,如护照或指纹。我们在这个基准上评估了10个最先进的VLMs,并观察到对隐私的理解普遍有限,模型改进的领域仍然很大。基于这一观察结果,我们引入了PrivTune,一个新的指令调整数据集,旨在为VLMs提供关于视觉隐私的知识。通过...

read more..

THREAD: Thinking Deeper with Recursive Spawning

大语言模型(LLMs)在各种设置中表现出令人印象深刻的能力,但在上下文长度和复杂性增加时仍然遇到困难。为解决这一挑战,我们提出了思考递归和动态生成(ThReaD)框架。将THREAD模型生成视为一个执行线程,根据上下文,可以运行到完成或动态地创建新的线程。通过创建新线程,可以将工作(例如,思考、获取信息)卸载到子线程,而子线程仅返回父线程执行工作所需的标记。实际上,这使得模型能够根据需要适...

read more..

BehaviorGPT: Smart Agent Simulation for Autonomous Driving with Next-Patch Prediction

模拟真实交通代理之间的互动对验证自动驾驶系统的安全性至关重要。现有的领导模拟器主要使用编码器-解码器结构来编码未来模拟的历史轨迹。然而,这种范式会复杂化模型架构,而手动分离历史和未来轨迹会导致数据利用率低下。为了应对这些挑战,我们提出了Behavior Generative Pre-trained Transformers(BehaviorGPT),一种仅使用解码器的自回归架构,旨在模拟多个代理的序列运动。至关重要的是,我们的方...

read more..

Cost-efficient Knowledge-based Question Answering with Large Language Models

知识基础问题回答(KBQA)在需要领域知识的场景中得到了广泛应用。大型语言模型(LLMs)为KBQA带来了机会,但它们的成本更高,并且在预训练过程中缺乏领域特定知识。我们被激励将LLMs与知识图(KGM)上的小模型相结合,以提高推理准确性和降低成本。然而,由于准确性和成本不是直接相加的,优化仍然具有挑战性。此外,模型选择也是具有挑战性的,因为不同的模型在各种知识上表现出色。因此,我们提出了Coke...

read more..

Assessing LLMs Suitability for Knowledge Graph Completion

近年来,大型语言模型(LLMs)在知识图谱相关任务上的表现引起了人们的关注,例如知识图谱的完成,即使在零或零散货的场景中也是如此。然而,它们被证明会歪曲答案,或者以非确定性的方式输出结果,从而导致错误的推理回答,即使它们满足用户的需求。为了突出知识图谱相关任务的机会和挑战,我们使用两个有影响力的LLM,分别是Mixtral-8x7B-Instruct-v0.1和gpt-3.5-turbo-0125,在知识图谱完成静态知识图谱...

read more..

RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness

通过反馈学习减少多模态大型语言模型(MLLMs)的幻觉,将它们与人类偏好对齐。与传统方法依赖人工标注且耗时且费力的手动标注不同,最近采用模型作为自动标签器的方法在无人工干预的情况下显示出良好的效果。然而,这些方法高度依赖昂贵的专有模型,如GPT-4V,导致可扩展性问题。此外,这一范式本质上是对专有模型的压缩,为迅速弥合性能差距提供了一个暂时的解决方案。随着这一差距继续缩小,社区很快将面...

read more..

Autoformalizing Euclidean Geometry

自动形式化涉及将非正式的数学用形式化的理论证明和定理来翻译。欧氏几何为研究自动形式化提供了一个有趣且可控制的数据集。在本文中,我们引入了一个神经符号框架来自动形式化欧氏几何,结合领域知识、SMT求解器和大型语言模型(LLMs)。欧氏几何的一个挑战是,非正式证明依赖于图,导致难以形式化的文本中的缺口。为了解决这个问题,我们使用定理证明器来填充这种图例信息,使得LLM只需要自动形式化明确...

read more..

Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization

大语言模型(LLMs)在语言理解和生成方面表现出显著的能力。然而,我们还观察到,LLMs往往会对特定查询产生不准确的响应。这一缺陷可以追溯到LLMs必须经历的分词步骤,这是所有LLM固有的局限性。事实上,错误的分词是导致LLMs理解输入不准确的关键点,从而导致不满意的输出。为了证明LLMs的这一缺陷,我们构建了一个名为$\textbf{ADT(用于挑战LLM分词的 adversarial 数据集)》$的对抗性数据集,它利用了...

read more..

ReflectionCoder: Learning from Reflection Sequence for Enhanced One-off Code Generation

代码生成在各种任务中扮演着关键角色,例如代码自动完成和数学推理。之前的工作已经提出了许多方法来提高代码生成性能,包括将编译器的反馈集成到生成反馈中。受到这个启发,我们提出了ReflectionCoder,一种新方法,它有效利用了通过整合编译器反馈构建的反思序列来提高一次性代码生成性能。此外,我们还提出了反射自蒸馏和动态遮罩蒸馏,以有效地利用这些反射序列。在三个基准测试(HumanEval (+)、MBPP ...

read more..

Generation and human-expert evaluation of interesting research ideas using knowledge graphs and large language models

先进的AI系统能够访问数百万篇研究论文,可能会激发出供人类单独构思之外的新研究想法。然而,这些AI生成的想法有多有趣,以及我们如何提高它们的质量呢?在这里,我们介绍了SciMuse,一种通过一个基于超过5800万篇科学论文的不断演变的知识图谱生成个性化研究想法的系统,该接口连接了GPT-4。我们与德国马克斯·普朗克学会的100多个研究小组负责人进行了大规模的人评估,他们根据想法的可信度对4000多个个...

read more..