标签： Enhancement

05 27,2024arXiv_CV

Benchmarking and Improving Bird’s Eye View Perception Robustness in Autonomous Driving

近年来，从鸟瞰视图（BEV）表示的进步已经展示了在车辆3D感知方面非常出色的前景。然而，虽然这些方法在标准基准测试中都取得了令人印象深刻的结果，但它们在各种条件下的稳健性仍然缺乏充分评估。在这项研究中，我们提出了RoboBEV，一个广泛的基准集，旨在评估BEV算法的稳健性。该集包括一个多样化的相机污染类型，每个类型都分别研究了3种严重程度。我们的基准还考虑了在使用多模态模型时发生的完整传感...

05 27,2024arXiv_CV

Occlusion Handling in 3D Human Pose Estimation with Perturbed Positional Encoding

理解人类行为的基本依赖于准确的三维人体姿态估计。近年来，图卷积网络（GCNs）取得了显著进展，具有轻量级的架构，在图状数据集上实现了最先进的性能。在图结构数据背景下，利用图Laplacian矩阵的行列向量进行位置编码是有效的。然而，该方法没有指定如何处理输入图中边缘缺失的情况。为此，我们提出了名为PerturbPE的新位置编码技术，它从行向量中提取一致和规则的分量。我们的方法包括应用多个扰动并取...

05 27,2024arXiv_AI

LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding

视觉 grounded 是一种将用户提供的文本查询与图像中特定区域的查询相关联的基本工具。尽管在视觉 grounded 模型方面取得了进步，但它们理解和处理复杂查询的能力仍然有限。为了克服这一限制，我们引入了 LLM-Optic，一种创新的方法，它利用大型语言模型（LLMs）作为光透镜来增强现有的视觉 grounded 模型，以更好地理解涉及复杂文本结构和多个对象或对象空间关系等复杂查询的视觉 grounded 模型。LLM-Optic...

05 27,2024arXiv_RO

A Two-Level Stochastic Model for the Lateral Movement of Vehicles Within Their Lane Under Homogeneous Traffic Conditions

车辆在车道内的横向位置是对车辆传感器视野范围的关键因素。而这种视野范围对于车辆感知周围环境并获取高情境意识至关重要。当追求提高车辆自主时，这种情境意识变得越来越重要。因此，在验证自动驾驶功能时，需要确保子微观行为的代表性，如横向偏移。由于仿真在验证自动驾驶功能中至关重要，因此需要描述这些现象的模型。可能的应用包括增强微缩交通仿真和基于场景的测试方法。本文采用双层随机方法研究...

05 26,2024arXiv_CV

Detail-Enhanced Intra- and Inter-modal Interaction for Audio-Visual Emotion Recognition

捕捉视频和音频模态之间的复杂时间关系对音频-视频情感识别（AVER）至关重要。然而，现有的方法缺乏对局部细节的关注，例如视频帧之间面部状态的变化，这会降低特征的可鉴别性，从而降低识别准确性。在本文中，我们提出了一种用于AVER的详细增强内模态和跨模态交互网络（DE-III），包括几个新颖的方面。我们引入了光学流信息来丰富视频表示，更好地捕捉面部状态变化。融合模块将光学流估计与相应视频帧相结...

05 26,2024arXiv_CV

Pruning for Robust Concept Erasing in Diffusion Models

尽管生成图像的能力非常出色，但文本到图像扩散模型容易产生不希望的结果，例如 NSFW 内容和国家版权的艺术作品。为解决这个问题，近年来研究的重点是微调模型参数以消除问题概念。然而，现有的方法存在一个重大缺陷，即在面临巧妙构思的提示时，微调的模型往往会产生不希望的结果。这揭示了当前方法的一个基本局限，可能会对将扩散模型部署到开放世界造成风险。为了填补这个空白，我们定位了相关概念的神...

05 26,2024arXiv_CV

3D View Optimization for Improving Image Aesthetics

实现美观的摄影需要关注多个因素，包括构图和捕捉条件，这对初学者来说是一个挑战。先前的研究已经探讨了通过2D处理技术增强摄影的美感；然而，这些方法对于美感的搜索空间有限。我们介绍了一种领先的方法，该方法使用3D操作来模拟捕捉条件的回顾。我们的方法扩展了输入图像，然后从扩展图像中重构3D场景，然后进行优化，以确定产生最佳3D观感的相机参数和图像比例。比较质量和数量的评估显示，我们的方法...

05 25,2024arXiv_CL

STRIDE: A Tool-Assisted LLM Agent Framework for Strategic and Interactive Decision-Making

大语言模型（LLMs）如GPT-4已经颠覆了自然语言处理，展示了出色的语言运用和推理能力。然而，在战略多智能体决策环境中，它们的应用受到了显著的限制，包括糟糕的数学推理、难以遵循指示以及生成错误信息等。这些缺陷阻碍了它们在战略和交互式任务中的表现，这些任务要求遵守微妙的游戏规则、长期规划、探索未知环境以及预测对手的战术。为了克服这些障碍，本文提出了一种新LLM代理框架，配备了记忆和专用...

05 25,2024arXiv_AI

AI-Assisted Detector Design for the EIC E)

人工智能（AI）正处在变革未来大型复杂核探测器（如ePIC）设计的边缘。这款探测器在远前方和远后方都配备了中央探测器，并融入了大量的设计参数和目标，包括性能、物理可达到的精度和成本，受到机械和几何限制。本项目旨在开发一个可扩展的分发式AI辅助探测器设计，用于 Electron Ion Collider（EIC）（AID(2)E），采用最先进的 multiobjective 优化来解决复杂的设计。得到了 ePIC 软件栈的支持，并使用 Ge...

05 25,2024arXiv_CV

A better approach to diagnose retinal diseases: Combining our Segmentation-based Vascular Enhancement with deep learning features

眼视网膜 fundus 图像的异常表明可能存在某些疾病，如糖尿病视网膜病变、高血压、中风、青光眼、眼视网膜下腔出血、静脉闭塞和动脉粥样硬化等，这使得研究眼视网膜图像的分析和诊断具有重要价值。在传统医学中，诊断与视网膜相关的疾病取决于医生对视网膜 fundus 图像的主观评估，这需要花费较长的时间，而且准确性高度依赖于医生的主观经验。因此，本文提出了一个快速、客观、准确的方法来诊断与视网膜 fu...