标签： Pose - 第 3615 页

03 29,2023arXiv_AI

Evaluating GPT-3.5 and GPT-4 Models on Brazilian University Admission Exams

本研究旨在探索语言模型(LM)在应对高重要性多选考试中的能力，这里的考试代表巴西大学广泛采用的综合性入学考试—— ENSM 考试。这个考试给语言模型带来了挑战性的任务，因为它的问题可能跨越多个知识领域，需要从多个领域获取信息的理解。例如，一个问题可能需要理解统计学和生物学的信息。本研究对 GPT-3.5 和 GPT-4 模型生成的回答进行了分析，对 2009-2017 年考试中的问题以及在训练模型完成后发布的 202...

03 29,2023arXiv_SD

NELS — Never-Ending Learner of Sounds

声音是人类感知和与世界互动的关键，被录制并在每分钟都通过互联网分享。这些录音，主要是视频，组成了我们所知的最大的声音数据库。然而，大多数这些录音都没有描述的内容，使得自动声音分析、索引和检索必要。这些方法必须应对多个挑战，例如声音和语言之间的关系、众多且不同的声音类别以及大规模的评估。我们提出了一个系统，可以从声音和语言之间的网络上不断学习，随着时间的推移改善声音识别模型，...

03 29,2023arXiv_SD

Transformer-based Self-supervised Multimodal Representation Learning for Wearable Emotion Recognition

最近，基于周围生理信号的可穿戴情感识别受到了广泛关注，因为它具有更少侵入性的特点，并且在现实生活中具有广泛的应用。然而，如何有效地融合多模态数据仍然是一个挑战性的问题。此外，传统的完全监督学习方法在缺乏标注数据的情况下容易过拟合。为了解决上述问题，我们提出了一种 novel 的自我监督学习(SSL)框架，用于可穿戴情感识别，其中利用时间卷积式的特定模态编码器和基于Transformer的共同编码器...

03 29,2023arXiv_CV

What, when, and where? — Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions

空间和时间定位描述的任务是根据仅使用口头描述的视频数据中的事件进行空间和时间定位。对于该任务的训练模型通常使用人类标注的句子和边界框监督。这项工作从多模态监督的角度解决了该任务，提出了一种基于松散视频和字幕监督的训练框架，仅使用人类标注。为此，我们结合了局部表示学习，该注意力焦点在于利用精细的空间信息，并使用全局表示编码，捕捉高级表示并将它们一起纳入一个共同的方法中。为了在...

03 29,2023arXiv_CV

MaLP: Manipulation Localization Using a Proactive Scheme

各种生成模型(GM)的生成质量的提高使得不仅需要进行二进制操纵检测，还需要在图像中定位修改的像素。然而，之前被称为操纵定位的 passive 工作在未见过的 GM 和属性修改方面表现出较差的泛化性能。为了解决这个问题，我们提出了一种主动的操纵定位方案，称为 MaLP。我们使用学习模板来加密真实的图像。如果图像是由任何 GM 操纵的，这个模板附加的保护不仅有助于二进制检测，还有助于识别由 GM 修改的像素...

03 29,2023arXiv_CV

EgoTV: Egocentric Task Verification from Natural Language Task Descriptions

为了实现能够理解自然语言中指定的日常任务的主观代理，我们提出了一个基准和一个合成数据集，名为主观任务验证(Egocentric Task Verification, EgoTV)。EgoTV包含了多个子任务分解的多个步骤任务、状态变化、对象交互和子任务排序约束，此外它还抽象了任务描述，其中仅包含完成任务的一些 partial 细节。我们还提出了一种独特的神经符号grounding(NSG)方法，以启用这种任务的因果、时间和组成性推理。我们...

03 29,2023arXiv_AI

Heuristic Search For Physics-Based Problems: Angry Birds in PDDL+

本论文研究了如何使用跨域规划器和组合搜索来玩著名的人工智能挑战问题——Angry Birds。为了建模游戏，我们使用了PDDL+，这是一种适用于离散和连续 domains的混合规划语言，支持定期过程和外部事件。论文描述了模型并确定了减少问题复杂度的关键设计决策。此外，我们提出了几个域特定的增强措施，包括启发式和类似于偏好操作的一种搜索技术。它们一起可以减轻组合搜索的复杂性。我们通过在Angry Birds级别上...

03 29,2023arXiv_RO

PartManip: Learning Cross-Category Generalizable Part Manipulation Policy from Point Cloud Observations

学习可移植的对象操作策略对于具有身体实体的角色在复杂真实场景下工作是至关重要的。部件作为不同物体类别中的共享组件，有潜力增加操作策略的泛化能力并实现跨类别的对象操作。在本研究中，我们建立了第一个基于部件的大型跨类别对象操作基准，PartManip，由11个物体类别、494个物体和6个任务类别组成。与之前的工作相比，我们的基准更加多样化和现实，即有更多的物体和使用稀疏视角点云作为输入，而不需...