bfs
-
文本相似度度量方法
文本相似度度量是自然语言处理中的一个基础问题,是许多下游任务的基础,如文本分类、信息检索、对话系统、句义标注等。相似度匹配的过程包括了构造特征与度量特征两个基本步骤,其中构造特征是核心任务。报告的两篇论文讲述了构造特征的一些可供借鉴的方法。第一篇文章从逻辑表达与推理中构造特征来度量句子的相似度,第二篇从表征学习的角度来度量不同长度文本的相似度。
-
基于深度学习的文本分类方法
在自然语言处理任务中,文本分类旨在将文本文档分类为给定的类别,是一项基础而重要的任务。近年来,深度神经模型由于其表现力和对特征工程的最低要求而在文本分类中越来越受欢迎。然而,将深度神经网络应用于文本分类仍然具有挑战性,因为它们严重依赖于大量训练数据,并且未能有效利用文本的全局特征信息。本学术报告重点介绍了基于图神经网络的文本分类以及结合注意力机制有效提取文本…
-
基于图结构处理的文本生成
文本生成技术是自然语言处理中一个重要的研究领域,具有广阔的应用前景。传统文本生成的Seq2Seq框架不能有效地利用原始语料中的语义信息,而Graph2Seq模型可以丰富文本的语义知识表达,产生更加高质量的文本。本文报告重点介绍了与文本生成与注意力机制的基础知识,并介绍了两种经典的利用到了注意力机制的Graph2Seq模型,借此引发对图结构处理的思考。
-
基于NLP的软件漏洞检测方法
随着官方发布的漏洞数量呈现指数的增长趋势,针对漏洞检测技术的研究应运而生。漏洞种类的多样性以及检测方法的单一性导致漏洞检测结果呈现一定的局限性,随着自然语言处理技术的兴起和专家知识的不断扩展,人们开始使用自然语言处理技术辅助进行漏洞检测研究。本报告重点讲述了基于自然语言处理的漏洞检测技术目前的状况,以及介绍了两种用于漏洞检测的自然语言处理方法。
-
弱监督技术方法
当前监督学习技术已经取得了巨大的成功,但是值得注意的是,由于数据标注过程的成本太高,很多任务很难获得如全部真值标签这样的强监督信息。而无监督学习由于学习过程太过困难,它的发展缓慢。因此,希望机器学习技术能够在弱监督状态下工作。本报告介绍了弱监督学习中的三个问题及解决方法,以及半监督技术的前提假设和具体的三种算法,包括自训练,先聚类后标注和基于图的算法。
-
Dropout随机失活
具有大量参数的深度神经网络是非常强大的机器学习系统。然而,在这样复杂的网络中,过拟合的问题难以解决。复杂的网络结构和缓慢的运行速度导致我们很难在测试时通过组合许多不同大型神经网络的预测来处理过度拟合。本报告重点讲述了一种深度网络的正则化思想——Dropout方法的原理,并介绍了Dropout思想下相关算法的发展与应用。
-
深度生成模型
近年,机器学习已经在计算机视觉、语音识别、语音合成以及自然语言处理(NLP)领域取得了突破性成果,在机器翻译和情感计算中展现的能力也颇令人期待。 其中机器学习方法可以分为生成方法(generative approach)和判别方法(discriminative approach),所学到的模型分别称为生成式模型(generative model)和判别式模型…
-
神经网络模型的覆盖测试
人工智能系统在近年来取得丰硕的成果,其中神经网络在自动驾驶领域等图像处理方向应用较为广泛。但是神经网络存在安全隐患,容易受到攻击导致决策错误,比如对抗样本攻击和后门攻击。如何测试神经网络模型,提前发现模型潜在的缺陷成为亟待解决的问题。本报告重点讲述了人工智能系统的测试框架和测试指标,并介绍了应用覆盖测试思想对神经网络模型进行测试的方法。