标签： QA

05 27,2024arXiv_CV

Privacy-Aware Visual Language Models

本文旨在增进我们对视觉语言模型（VLMs）如何处理敏感信息的理解，这些技术已经成为日常生活中不可或缺的一部分。为此，我们引入了一个新的基准PrivBench，包含8个敏感类别的图像，如护照或指纹。我们在这个基准上评估了10个最先进的VLMs，并观察到对隐私的理解普遍有限，模型改进的领域仍然很大。基于这一观察结果，我们引入了PrivTune，一个新的指令调整数据集，旨在为VLMs提供关于视觉隐私的知识。通过...

05 27,2024arXiv_CL

THREAD: Thinking Deeper with Recursive Spawning

大语言模型（LLMs）在各种设置中表现出令人印象深刻的能力，但在上下文长度和复杂性增加时仍然遇到困难。为解决这一挑战，我们提出了思考递归和动态生成（ThReaD）框架。将THREAD模型生成视为一个执行线程，根据上下文，可以运行到完成或动态地创建新的线程。通过创建新线程，可以将工作（例如，思考、获取信息）卸载到子线程，而子线程仅返回父线程执行工作所需的标记。实际上，这使得模型能够根据需要适...

05 27,2024arXiv_AI

Cost-efficient Knowledge-based Question Answering with Large Language Models

知识基础问题回答（KBQA）在需要领域知识的场景中得到了广泛应用。大型语言模型（LLMs）为KBQA带来了机会，但它们的成本更高，并且在预训练过程中缺乏领域特定知识。我们被激励将LLMs与知识图（KGM）上的小模型相结合，以提高推理准确性和降低成本。然而，由于准确性和成本不是直接相加的，优化仍然具有挑战性。此外，模型选择也是具有挑战性的，因为不同的模型在各种知识上表现出色。因此，我们提出了Coke...

05 27,2024arXiv_CL

Can We Trust LLMs? Mitigate Overconfidence Bias in LLMs through Knowledge Transfer

这项研究探讨了如何通过降低过自信偏见来提高LLM的可靠性。我们引入了一种知识传递（KT）方法，该方法利用思维链，其中“大”LLM通过详细、顺序推理路径将知识传递给“小”LLM。这种方法利用大型模型的先进推理来微调小型模型，使它们能够通过校准的置信度产生更准确的预测。在多样数据集上使用多项选择问题和情感分析进行实验评估，证明了KT方法的优越性超过原生的和问题-答案对（QA）微调方法。在三个关键指...

05 26,2024arXiv_AI

Crafting Interpretable Embeddings by Asking LLMs Questions

大型语言模型（LLMs）在自然语言处理任务中迅速提高了文本嵌入。然而，它们的不透明性和在神经科学等科学领域的广泛传播产生了对可解释性的不断增长的需求。在这里，我们询问我们是否可以通过LLM提示获得可解释的嵌入。我们引入了问题回答嵌入（QA-Emb），其中每个特征表示LLM针对一个“是/否”问题的答案。训练QA-Emb将减少为选择一组潜在问题而不是学习模型权重。我们使用QA-Emb灵活生成可解释的模型，预测...

05 26,2024arXiv_CL

Accurate and Nuanced Open-QA Evaluation Through Textual Entailment

开放域问题回答（Open-QA）是评估大型语言模型（LLMs）的常见任务。然而，当前的Open-QA评估存在问题，即问题不明确，评估者缺乏语义理解。复杂的评估者，其由基础模型或LLM驱动，并关注语义等价，仍与人类判断之间存在很大的差距。我们提出研究答案的蕴含关系，以识别更具有信息性和更通用的系统答案，在学习过程中免费提供对自然问题和知识问答的更接近人类判断的评估。我们提出的基于蕴含的评估允许通过...

05 26,2024arXiv_CL

Compressing Lengthy Context With UltraGist

压缩长篇上下文是一个关键但技术上具有挑战性的问题。在本文中，我们提出了一个新的方法UltraGist，其特点在于由于压缩和学习算法的创新设计，它对长篇上下文的压缩质量非常高。UltraGist带来了以下重要优势。首先，它显著地提高了压缩的灵活性，因为它可以有效地学习以支持各种上下文长度和压缩比率。其次，它有助于为长篇上下文产生细粒度的压缩，其中每个上下文的较小片段都是在自适应注意力机制上逐步...

05 26,2024arXiv_CV

Map-based Modular Approach for Zero-shot Embodied Question Answering

在机器人领域通过自然语言与人类进行交互，构建能够理解人类指令并根据其构建全新环境以回答问题的机器人具有重大意义。为了克服这一挑战，Embodied Question Answering（EQA）被提出作为一个衡量指标，以评估在人类姿态问题中识别物体并根据 previously unseen 环境作出回答的能力。尽管已经提出了一些方法，但它们的评估仅限于仿真，而没有在现实场景中进行实验。此外，所有这些方法都受到有限词汇表的限...

05 26,2024arXiv_CL

DarijaBanking: A New Resource for Overcoming Language Barriers in Banking Intent Detection for Moroccan Arabic Speakers

处理语言多样性的复杂性是发展健壮的自然语言处理系统的一个关键挑战，尤其是在像银行这样的专业领域。摩洛哥方言（Darija）作为共同语言，融合了文化复杂性、历史影响和区域差异。Darija的复杂性对语言模型来说是一组特别的挑战，因为它与受到法语、西班牙语和塔马齐特强烈影响的现代标准阿拉伯语有很大的不同，需要特定的方法来进行有效的沟通。为解决这些挑战，本文引入了 Darijabanking，一个旨在增强...

05 26,2024arXiv_AI

SpinQuant — LLM quantization with learned rotations

翻译：应用于权重、激活和KV缓存的Post-训练量化（PTQ）技术大大减少了大型语言模型（LLMs）的内存使用、延迟和功耗，但对于存在异常值的情况，可能会导致量化误差较大。最近的研究表明，旋转激活或权重矩阵有助于消除异常值并提高量化。在这项工作中，我们识别了一组适用于全精度Transformer架构的应用程序旋转参数化，并在一些随机旋转下发现了更好的量化效果，下游零散推理性能甚至可以达到13个点的差异...