标签： Detection

05 27,2024arXiv_CV

Benchmarking and Improving Bird’s Eye View Perception Robustness in Autonomous Driving

近年来，从鸟瞰视图（BEV）表示的进步已经展示了在车辆3D感知方面非常出色的前景。然而，虽然这些方法在标准基准测试中都取得了令人印象深刻的结果，但它们在各种条件下的稳健性仍然缺乏充分评估。在这项研究中，我们提出了RoboBEV，一个广泛的基准集，旨在评估BEV算法的稳健性。该集包括一个多样化的相机污染类型，每个类型都分别研究了3种严重程度。我们的基准还考虑了在使用多模态模型时发生的完整传感...

05 27,2024arXiv_AI

Hardness-Aware Scene Synthesis for Semi-Supervised 3D Object Detection

3D物体检测的目标是恢复有关物体的3D信息，并作为自动驾驶感知的基本任务。其性能在很大程度上取决于标注训练数据的规模，然而为点云数据获得高质量注释的成本很高。虽然传统方法将伪标签作为未标注样本的补充用于训练，但3D点云数据的结构使物体和背景的组合变得容易，从而合成真实场景。为了提高检测模型的泛化能力，我们提出了一个基于难度的场景生成（HASS）方法，用于生成自适应的合成场景。我们为未...

05 27,2024arXiv_AI

MultiOOD: Scaling Out-of-Distribution Detection for Multiple Modalities

检测异常（OOO）样本对于在关键应用领域（如自动驾驶和机器人辅助手术）部署机器学习模型非常重要。现有的研究主要集中在图像数据的单模态场景。然而，现实世界应用是多模态的，因此从多个模态的信息来增强 OOO 检测的有效性至关重要。为了建立更真实的多模态 OOO 检测的基础，我们引入了世界上第一个 benchmark，MultiOOD，它具有多样化的数据集大小和不同的模态组合。我们首先评估现有的单模态 OOO 检测...

05 27,2024arXiv_CL

ReMoDetect: Reward Models Recognize Aligned LLM’s Generations

大语言模型（LLMs）的非凡能力和易用性显著增加了社会风险（例如虚假新闻生成），因此有必要开发LLM生成的文本（LGT）检测方法来实现安全使用。然而，由于LLMs数量众多，检测LGTs非常具有挑战性，使得分别考虑每个LLM变得不切实际。因此，确定这些模型的共同特征至关重要。在本文中，我们关注到最近强大的LLM的一个共同特征，即对齐训练，即训练LLM以生成人类偏好的文本。我们的关键发现是，这些对齐的LLM...

05 27,2024arXiv_RO

Physics-Informed Real NVP for Satellite Power System Fault Detection

空间环境所提出的独特挑战，其特点为极端条件和有限的可用性，导致需要开发出健壮和可靠的故障检测技术来识别和预防卫星故障。空间 sector 中的故障检测方法需要确保任务成功并保护有价值资产。在本文中，我们提出了一个基于人工智能 (AI) 的故障检测方法，并评估了其在 ADAPT(高级诊断和预测测试台) 数据集上的性能。我们的研究重点是应用物理引导 (PI) 实值非体积保留 (Real NVP) 模型在空间系统中的故障...

05 27,2024arXiv_CV

Tracking Small Birds by Detection Candidate Region Filtering and Detection History-aware Association

本论文重点关注在全景视频中出现的小鸟的跟踪。当跟踪对象的尺寸在图像中很小（小对象跟踪）且移动迅速时，目标检测和关联会受到损害。为解决这些问题，我们提出了自适应切片辅助高强度交互（Adaptive SAHI）和检测历史感知相似度标准（DHSC）来减少检测应用的候选区域数量，并准确地将对象在连续帧中关联起来。在NUBird2022数据集上的实验证实了所提出方法的有效性，通过提高准确性和速度来证明了其有效性...

05 27,2024arXiv_AI

Efficient Ensembles Improve Training Data Attribution

训练数据归因（TDA）方法旨在量化单个训练数据点对模型预测的影响，并在数据集中具有广泛的应用，如标签检测、数据选择和版权补偿。然而，该领域现有方法，可以分为基于重新训练和基于梯度的方法，在计算效率和归因效果之间存在权衡。基于重新训练的方法可以准确地归因复杂非凸模型，但计算成本高昂，而基于梯度的方法效率高，但往往无法处理非凸模型。最近的研究表明，通过为基于梯度的方法添加多个独立训...

05 27,2024arXiv_AI

TEII: Think, Explain, Interact and Iterate with Large Language Models to Solve Cross-lingual Emotion Detection

跨语言情感检测允许我们在大规模上分析全球趋势、公众观点和社会现象。我们参与了跨语言情感检测（EXALT）共享任务，在情感检测子任务评估集中，F1得分达到了0.6046。我们的系统在基线之上超过了0.16 F1-score绝对，排名第二。我们还对基于大型语言模型（LLM）的模型以及基于嵌入的生物循环神经网络（BiLSTM）和非LLM技术进行了实验。此外，我们还引入了两种新颖的方法：多迭代代理工作流程和多二进制分类...

05 27,2024arXiv_AI

LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding

视觉 grounded 是一种将用户提供的文本查询与图像中特定区域的查询相关联的基本工具。尽管在视觉 grounded 模型方面取得了进步，但它们理解和处理复杂查询的能力仍然有限。为了克服这一限制，我们引入了 LLM-Optic，一种创新的方法，它利用大型语言模型（LLMs）作为光透镜来增强现有的视觉 grounded 模型，以更好地理解涉及复杂文本结构和多个对象或对象空间关系等复杂查询的视觉 grounded 模型。LLM-Optic...

05 27,2024arXiv_AI

Phase Transitions in the Output Distribution of Large Language Models

在物理系统中，诸如温度等参数的改变可能会引发相变：从一种物质状态到另一种状态的突然转变。最近，大型语言模型中观察到了类似的现象。通常，确定相变需要人类分析和对其系统的一些了解，以缩小要监测和分析的低维度性质。在物理学界，最近提出了用统计方法自动检测相变的建议。这些方法对系统是无关的，并且像这里所示，可以适应研究大型语言模型的行为。特别地，我们通过统计距离量化生成输出的分布变...