Yes but.. Can ChatGPT Identify Entities in Historical Documents?

大型语言模型(LLMs)已经利用多年,在从现代文档中识别实体方面取得了最先进的性能。在过去几个月中,对话代理ChatGPT引起了科学界和公众的极大兴趣,因为它能够生成听起来合理回答。在本文中,我们尝试通过零样本测试在主要来源(例如历史报纸和古典评论)中尝试识别命名实体并分类(NERC任务),并与之最先进的LM-based系统进行比较。我们的发现表明,在历史文本中识别实体存在一些缺陷,这些问题从实体标注指...

read more..

TLAG: An Informative Trigger and Label-Aware Knowledge Guided Model for Dialogue-based Relation Extraction

对话基于关系提取(DRE)的目标是预测对话中提及的论点对之间的关系类型。最新的触发增强方法提出了触发预测任务以促进DRE。然而,这些方法无法充分利用触发信息,甚至会导致关系提取中的噪声。为了解决这些问题,我们提出了基于模板的关系提取器(TLAG),它充分利用触发信息和标签aware知识,指导关系提取。首先,我们设计了一个自适应触发融合模块,充分利用触发信息。然后,我们引入了标签aware知识,进一...

read more..

oBERTa: Improving Sparse Transfer Learning via improved initialization, distillation, and pruning regimes

在本文中,我们介绍了oBERTa语言模型的范围,这是一个易于使用的语言模型集合,它允许自然语言处理(NLP)从业者在没有模型压缩专业知识的情况下获得比BERT模型快3.8至24.3倍的语言模型。具体来说,oBERTa扩展了现有的修剪、知识蒸馏和量化工作,并利用冻结嵌入来提高知识蒸馏,改进了模型初始化方法,以在广泛的转移任务中提供更高的准确性。在生成oBERTa时,我们探索了高度优化的RoBERTa在预训练和微调期间...

read more..

How do decoding algorithms distribute information in dialogue responses?

人类通常会通过在言语中均匀分布信息来实现UID(uniform information density)原则。我们研究是否解码算法 implicit UID principle,以及在什么条件下遵循UID可能对于对话生成是理想的。我们使用Persona-Chat数据集上的GPT-2解码算法生成响应,并通过Amazon Mechanical Turk使用人类评估其质量。我们发现(i)出人意料的是,模型生成的响应比人类响应更遵循UID原则,(ii)促进UID的解码算法并没有生成更高质量...

read more..

ContraSim — A Similarity Measure Based on Contrastive Learning

最近的研究表明,通过相似性分析比较神经网络表示,揭示了不同方面(架构、训练数据等)如何影响模型的内部表示。通常,相似性度量的质量是通过它对期望匹配的表示得分的成功分配来评估的。然而,现有的相似性度量在标准基准测试中表现一般。在本文中,我们基于比较学习开发了一种新的相似性度量,称为ContraSim。与常见的闭式相似性度量不同,ContraSim通过使用类似和不同的示例来学习一个参数化度量。我们...

read more..

BEVERS: A General, Simple, and Performant Framework for Automatic Fact Verification

自动事实验证近年来变得越来越受欢迎,在数据集方面,事实提取和验证(FEVER)数据集是最受欢迎的之一。在本工作中,我们介绍了BEVERS,一个针对FEVER数据集的优化基准系统。我们的管道使用标准的方法来检索文档、选择句子以及最终声明分类,但是我们需要投入相当大的努力确保每个组件的最佳表现。结果是,BEvers在所有系统中公开或私有情况下获得FEVER得分和标签准确性最高的结果。我们还将此管道应用于另一...

read more..