论文作者:朱珈徵,2020级硕士生。研究方向:自然语言理解 论文信息:(Findings of ACL-23)Causal Intervention for Mitigating Name Bias in Machine Reading Comprehension. 开源代码: 论文简介:
机器阅读理解(Machine Reading Comprehension,MRC)是根据给定的文章回答问题,基于预训练语言模型(Language Model,LM)已经取得了很大的成功。一个普遍的常识是,预训练模型越强则下游任务就越好,然而在MRC中不总是如此。我们研究了MRC模型对名字的鲁棒性,基于LM的MRC模型可能会过度使用名字信息进行预测,从而导致名字表示的不可互换,称为名字偏差。我们提出了一种新的MRC因果干预范式(Causal Interventional paradigm for MRC)来减轻名字偏差。具体而言,通过结构因果模型(Structural Causal Model,SCM)的理论分析指导开发了基于神经元感知和词元感知的后门调整的算法实现来约束预训练知识这一混杂因素。在两类偏差机器阅读理解评估集上,实验验证了我们提出方法的有效性。
论文作者:田家琛,2016级博士生。研究方向:文本分类 论文信息:(AAAI-23, CCF A)Reducing Sentiment Bias in Pre-trained Sentiment Classification via Adaptive Gumbel Attack. 开源代码:tianjiachen/Gater@Github 论文简介:
情感分类旨在从文本中分析人们对实体及其属性表达的情感。然而,当训练数据分布不均,或者模型存在捷径学习行为时,某一特定情感常被内化到命名实体的词嵌入中,干扰模型的决策过程。本文针对上述命名实体情感偏差问题,提出了基于自适应Gumbel攻击的情感分类器。实验结果表明,该分类器在不降低分类准确率的前提下,可以有效缓解命名实体情感偏差问题。
论文作者:Sofonias Yitagesu Techan,2017级博士生。研究方向:基于知识图谱的网络安全漏洞 论文信息:(TOSEM,CCF A)Extraction of Phrase-based Concepts in Vulnerability Descriptions through Unsupervised Labeling. 开源代码: 论文简介:
软件漏洞对推进漏洞分析和安全研究具有巨大的潜力,人们往往使用自然语言来描述软件漏洞的关键特征,并在其中混合了特定领域的名称或概念,这使得自动分析文本中嵌入的漏洞知识成为一个重大的挑战,现有的方法需要花费大量精力进行手动数据标注以进行模型训练。因此,本文提出了一种无监督的方法来标记和提取文本漏洞描述(TVD)中重要的漏洞概念,通过提出一个源-目标神经网络模型来进行词性标注,实验显示此标注器优于(4.45%-5.98%)基于自然语言概念设计的标注器,使用Categorical Variational Autoencoders (CaVAE)将离散路径投影到一个低维的潜在空间中并通过聚类生成相同类型概念的集群,实验显示聚类结果中漏洞概念的准确率为83%-89%。在本文中,通过概念分类和序列标记模型来证明无监督标注概念的有效性,实验显示,使用我们的无监督标记的漏洞概念训练的模型表现优于(3.9%-5.14%)先前工作中使用手动标注数据集训练的模型。
论文作者:Rafiul Haq,2017级博士生。研究方向: 命名实体识别 论文信息:(The Computer Journal-22, CCF B)Urdu named entity recognition system using deep learning approaches. 开源代码: 论文简介:
命名实体识别(NER)是其他自然语言处理任务的一个基本部分,如信息检索、问题回答系统和机器翻译。在英语NER系统的研究中已经取得了进展和成功。然而,由于乌尔都语的复杂性和丰富的形态,乌尔都语的NER系统仍处于起步阶段。现有的乌尔都语NER系统高度依赖人工特征工程和单词嵌入来捕捉相似性。如果单词是以前未知的或不经常出现的,它们的性能就会落后。基于特征的模型受到复杂的特征工程的影响,并且通常高度依赖外部资源。在这项研究中,为了克服这些限制,我们提出了几种深度神经方法,从数据中自动学习特征,并消除人工特征工程。我们的扩展涉及卷积神经网络,以提取字符级的特征,并将其与单词嵌入相结合,以处理词汇外的单词。该研究还提出了一个乌尔都语的推文数据集,为五个命名的实体类进行了人工注释。深度学习方法的有效性在四个基准数据集上得到了证明。所提出的方法比目前最先进的乌尔都语NER方法有明显的进步。结果显示,F1得分提高了6.26%。
论文作者:Sofonias Yitagesu Techan,2017级博士生。研究方向:无监督文本分类 论文信息:(ASE-21, CCF A)Unsupervised labeling and extraction of phrase-based concepts in vulnerability descriptions. 开源代码: Materakemia/concept_labeling@Bitbucket 论文简介:
人们通常用自然语言描述软件漏洞的关键特征,其中夹杂着特定领域的名称和概念。这种文本性质给漏洞的自动分析带来了巨大的挑战。自动提取漏洞的关键方面是非常可取的,但需要花费大量精力为模型训练手动标注数据。在本文中,我们提出了一种无监督的方法来标记和提取文本脆弱性描述(TVDs)中的重要脆弱性概念。我们专注于三种基于短语的漏洞概念(根本原因、攻击媒介和影响),因为它们比基于名字或数字的实体(即供应商、产品和版本)更难标注和提取。我们的方法是基于一个关键的观察,即同类型的短语,无论它们在句子结构和短语表达上有多大的差异,通常在句子解析树上都有相似的语法路径。因此,我们提出了两种路径表示(绝对路径和相对路径),并使用自动编码器来编码这种句法相似性。为了解决我们的路径的离散性,我们用Gumble-Max技巧加强了传统的变异自动编码器(VAE),用于分类数据的分布,从而创建了分类自动编码器(CaVAE)。在绝对路径和相对路径的潜在空间中,我们进一步使用FIt-TSNE和聚类技术来生成同类型概念的聚类。我们的评估证实了我们的CaVAE在编码路径表征方面的有效性以及由此产生的聚类中的脆弱性概念的准确性。在概念分类任务中,我们的无监督标记的脆弱性概念优于以前工作中的两个手动标记的数据集。
论文作者:秦笑宇,2018级硕士生。研究方向:本体推理@知识图谱 论文信息:(DSE-21, CCF B)SUMA: A partial materialization-based approach for scalable query answering in OWL 2 DL. 开源代码: SUMA@Github 论文简介:
本体推理问答是一个公认的难问题,因为推理时间开销巨大,在实际应用中完全做到线上实时推理问答是非常困难的。本体物化通过扩展本体到一个近似的本体模型,将本体推理问答中的推理任务放在线下来预处理,从而减少线上问答的时间代价。近年来,本体物化已成为本体推理问答的一种重要的优化方法,因其线上高效的查询性能,使其具有广泛的实际应用前景。然而,现有的本体问答推理机不能解决无穷物化问题(本体的模型是无穷,这种情况是经常发生的),或者物化算法时间复杂度过高,只能处理中小型数据,或者需要额外的线上查询改写的时间消耗。为此,我们向大家推出查询回答系统SUMA,提供较高完备性的大规模数据的实时推理。该系统具有以下特点:
高性能:SUMA采用低复杂度的物化算法并且为了加快事实和规则的匹配时间,为数据和规则构建三种类型的索引。
大规模:SUMA支持单机亿级数据的实时推理。在24核180G内存的测试环境下,SUMA物化LUBM(1000)(1亿条元组)需要202s,物化UOBM(500)(1亿条元组)需要515s。预处理LUBM(1000)的时间总计为627s,是PAGOdA预处理时间的二分之一。预处理UOBM(500)的时间总计为966s,是PAGOdA预处理时间的六分之一。
适应性:SUMA采用纯物化的方法进行查询回答,SUMA物化与查询独立,从无需对查询进行改写,也适合所有数据。
完备性:SUMA通过添加额外的推理规则和数据结构来保留近似处理可能会丢失的部分OWL 2 DL语义。在所有测试查询中,以Pellet的查询结果为评估标准,PAGOdA在8个测试查询上得到的答案是不完备的,SUMA在所有测试查询上都是可靠完备的。
简便性:SUMA提供推理接口,可以为任何系统提供推理服务,同时也可以整合任意ARQL查询引擎执行查询任务。
论文作者:田家琛,2016级博士生。研究方向:文本分类 论文信息:(EMNLP-21, CCF B)Re-embedding difficult samples via mutual information constrained semantically oversampling for imbalanced text classification. 开源代码: 论文简介:
在不平衡文本分类中,少数类的困难样本通常很难被分类,因为它们被嵌入到与多数类重叠的语义区域中。在本文中,我们提出了一个相互信息约束的语义过采样框架(MISO),可以生成锚定实例,帮助骨干网络确定每个困难样本的非重叠表示的重新嵌入位置。MISO包括:(1)一个语义融合模块,通过自适应多头关注机制学习困难样本和多数样本之间的纠缠语义;(2)一个相互信息损失,迫使我们的模型在少数类的非重叠区域学习纠缠语义的新表示。(3) 一个耦合的对抗性编码器-解码器,它对纠缠在一起的语义表征进行微调,以保持其与少数人类别的相关性,然后使用这些纠缠在一起的语义表征来为每个困难的样本生成锚定实例。在各种不平衡文本分类任务上的实验表明,锚定实例有助于分类器取得比强基线更显著的改进。
论文作者:田家琛,2016级博士生。研究方向:文本分类 论文信息:(ECAI-20, CCF B)A graph-based measurement for text imbalance classification. 开源代码: 论文简介:
不平衡文本分类,作为实用和必要的文本分类,是为不平衡文本数据学习标签或类别的任务。现有的不平衡文本分类方法大多是基于不平衡率(即类别之间的大小比例)。最近,一些研究者验证了当数据的内在特征,如类别重叠和小的不连贯性发生时,不平衡比率严重影响了分类器的性能。然而,由于现实世界数据的分布是未知的,因此很难直接描述上述内在特征。在本文中,我们将数据的未知分布转化为图模型,并提出了一个名为GIR的基于图的不平衡指数来预测不平衡文本数据对分类性能的影响。首先,我们引入了一个环境因素,使不平衡指数对数据的内在特征敏感。其次,我们提出了一种基于图形的方法来计算这个环境因素。最后,我们使用不平衡指数来分析不平衡学习方法的性能和不平衡数据对文本分类器的影响。在合成数据集和真实世界数据集上评估的实验结果证明了我们方法的有效性。
论文作者:高强,2017级研究生。研究方向:图谱推荐@知识图谱 论文信息:(IJCAI-19, CCF A)Unsupervised labeling and extraction of phrase-based concepts in vulnerability descriptions. 开源代码: 论文简介:
我们展示了一个用于稀疏预测分析的交互神经网络(InteractionNN),它能够通过多级特征交互学习稀疏数据的隐藏特征。InteractionNN由三个子模块组成,即nonlinear interaction pooling、layer-loss和嵌入层。nonlinear interaction pooling(NIpooling)是一种层次结构。它是低阶特征交互的捷径连接。其次,layer-loss是一个前馈神经网络。它通过所有层与目标的关联,可以从低阶的特征交互中学习高阶的特征交互。第三,利用嵌入从原始数据的稀疏特征中提取基本的密集特征,这有助于降低我们提出的模型的计算复杂度。最后,我们在两个著名的基准数据集上评估了我们的方法。实验结果表明,InteractionNN的性能超过了大多数稀疏回归的最新模型。