分类： arXiv_CV - 第 2113 页

03 29,2023arXiv_CV

A Tensor-based Convolutional Neural Network for Small Dataset Classification

受到具有结构隐表示的卷积神经网络启发，我们提出了一种基于 Tensor 的神经网络，即 TCNN。与传统的卷积神经网络不同，TCNN 由结构神经元而不是 scalar 神经元组成，并且其主要操作是神经元 Tensor 转换。与其他具有结构的卷积神经网络不同，其部分-整体关系是 explicitly 建模的，而 TCNN 则通过隐含学习来建模这些关系。此外，TCNN 的结构神经元是高阶 Tensor，而不是向量或矩阵。我们在 CIFAR10、CIFAR1...

03 29,2023arXiv_CV

Audio-Visual Grouping Network for Sound Localization from Mixtures

声音源定位是一个普通的且具有挑战性的任务，旨在预测视频中声音源的位置。以前的单源方法主要使用音频和视觉联合的线索来定位每个图像中的发音对象。由于原始空间中多个声音源的混合性质，存在罕见的多源定位方法，除了最近的一种方法，该方法使用图中的对比度随机漫步，以在图中形成图像和分离的声音作为节点。尽管它们表现出良好的性能，但它们只能处理固定数量的声音源，并且无法为每个声音源学习紧凑...

03 29,2023arXiv_CV

Transductive few-shot adapters for medical image segmentation

随着计算机视觉和自然语言处理框架模型的最近崛起，预训练和适应策略变得越来越受欢迎。这种策略是在后续任务上对大型模型进行微调的传统方法。然而，当目标任务的标签数据很少时，传统的微调方法可能仍然需要大量资源和产生劣化结果。这种情况在临床实践中尤其如此。为了解决这个挑战，我们正式化了少量多次高效微调(FSEFT)，这是一个医疗图像分割 novel 和现实的情境。此外，我们介绍了一种针对医疗图像...

03 29,2023arXiv_CV

HyperDiffusion: Generating Implicit Neural Fields with Weight-Space Diffusion

隐式神经网络场通常由多层感知器(MLP)编码，该MLP将坐标(例如xyz)映射到信号(例如 signed distances)，表现出惊人的高保真性和紧凑表示潜力。然而，缺乏一个 regular 且显式的网格结构也使其难以直接应用生成模型直接在隐式神经网络场中合成新数据。为此，我们提出HyperDiffusion，一种无条件生成模型隐式神经网络场的新方法。HyperDiffusion直接操作MLP权重并生成由合成的MLP参数编码的新神经网络隐式场。...

03 29,2023arXiv_CV

A comparative evaluation of image-to-image translation methods for stain transfer in histopathology

图像到图像翻译(I2I)方法允许生成与原始图像内容相似的人工图像，但具有不同的风格。随着基于生成对抗网络(GAN)的方法的不断发展，I2I方法使能够生成与天然图像无差异的人工图像。最近，I2I方法还被用于病理诊断，用于从一种不同类型的染色中提取人工图像，我们称之为染色转移。我们将这个过程称为染色转移。I2I的变异形式数量不断增加，这使得对于最适当的I2I方法进行染色转移的选择具有挑战性。在我们的...

03 29,2023arXiv_CV

What, when, and where? — Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions

空间和时间定位描述的任务是根据仅使用口头描述的视频数据中的事件进行空间和时间定位。对于该任务的训练模型通常使用人类标注的句子和边界框监督。这项工作从多模态监督的角度解决了该任务，提出了一种基于松散视频和字幕监督的训练框架，仅使用人类标注。为此，我们结合了局部表示学习，该注意力焦点在于利用精细的空间信息，并使用全局表示编码，捕捉高级表示并将它们一起纳入一个共同的方法中。为了在...

03 29,2023arXiv_CV

MaLP: Manipulation Localization Using a Proactive Scheme

各种生成模型(GM)的生成质量的提高使得不仅需要进行二进制操纵检测，还需要在图像中定位修改的像素。然而，之前被称为操纵定位的 passive 工作在未见过的 GM 和属性修改方面表现出较差的泛化性能。为了解决这个问题，我们提出了一种主动的操纵定位方案，称为 MaLP。我们使用学习模板来加密真实的图像。如果图像是由任何 GM 操纵的，这个模板附加的保护不仅有助于二进制检测，还有助于识别由 GM 修改的像素...

03 29,2023arXiv_CV

EgoTV: Egocentric Task Verification from Natural Language Task Descriptions

为了实现能够理解自然语言中指定的日常任务的主观代理，我们提出了一个基准和一个合成数据集，名为主观任务验证(Egocentric Task Verification, EgoTV)。EgoTV包含了多个子任务分解的多个步骤任务、状态变化、对象交互和子任务排序约束，此外它还抽象了任务描述，其中仅包含完成任务的一些 partial 细节。我们还提出了一种独特的神经符号grounding(NSG)方法，以启用这种任务的因果、时间和组成性推理。我们...