面向新闻领域的中文文本命名实体识别方法研究开题报告

 2023-02-25 12:02

1. 研究目的与意义

随着互联网遍布全球,人们的生活方式早已与过去不同,发生了巨大的变化。以往的写信,读书,看报,购物等大部分事,现在都可以通过互联网来达成目的。互联网为人类的日常生活带来了方便。伴随着网络科技的进步,各行各业也都随其一同发展,以适应新的时代。曾经的新闻媒体也随着互联网的发展,转向了网络市场。无数的新闻信息涌向互联网,其中也会包含大量的无用冗杂信息。并且对人们的阅读也会造成困扰,因为想要看完所有的新闻是不现实的。但是,新闻信息中可能会包含很多重要的信息,对阅读和研究都有一定意义。因此在信息如此庞大冗杂的现在,从互联网上的信息中提取出关键的信息成为了目前研究的热点。

为了能够从无数的新闻中提取出想要的信息,达成阅读和研究的目的,使用命名实体识别技术是必要的。命名实体识别技术能够从新闻文本中提取出重要的信息,包括人物,机构,地理位置等实体信息,是自然语言处理的最基础同时也是最关键的一步。同时,新闻信息涉及各个领域,同时还会有网络流行词和新词汇入新闻,这对命名实体识别任务也是一个考验。鉴于命名实体识别技术的重要性,这也是必须克服的难点。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

命名实体是指具有特定意义或者指代性强的实体名,其所涉及的实体一般可以划分为三大类和七小类,其中三大类包括:实体类、时间类、数字类;七小类包括:人名、地名、机构名、时间、日期、货币、百分比[1]。命名实体识别,是在自然语言处理中使用最普遍且关键的方法,是对文章内容理解的重要基石,可以帮助我们更快速更精确的理解文章的关键信息和中心思想,在大数据时代到来,人们在海量的数据中迷茫的今天,这项技术足以让人们的阅读方式发生变化,它能够让人们更加舒适,方便地获取信息。同时,命名实体识别技术也是信息图谱、辅助推理、智慧问答、搜索技术、语音识别等技术的重要基础,命名实体识别技术的发展能够为后续技术的研究提供支持和便利,让后续的研究更加顺利,一定程度上能促进后续其他技术的开发与应用。

互联网的发展导致了数据量的不断增多,单纯的让人们自己去观察和解读已经难以实现,而且,一些传统的技术也越来越难以应对不断增加的数据信息,命名实体识别的研究需要新的技术。互联网发展的同时,也带动着技术的进步,伴随深度学习技术在命名实体识别领域中的应用,相关技术的研究获得了巨大的进步。在深度学习的领域之中,文本往往以词序列的形态出现,其中的每一个句子也可以认为是遵循着一种语言规律的单词的序列。这些语言规则都具有非常复杂的句法与语义之间的配合关系,人们难以显式地去构造这种规律,但却能够利用神经网络模型在已有的序列分布中学习和得到新的序列样本,这是命名实体识别领域的重大突破。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状

命名实体识别技术是中国自然语言处理领域的基本任务之一,自20世纪90年代初被提出以后,已受到中国国内研究者的普遍重视,并使命名实体识别技术发展成为科研热门。传统的实体识别的方式,大致上可分成两类:一类是基于规则的命名实体识别,另一类则是基于统计的命名实体识别。但基于规则的命名实体识别方式的付出代价高昂,且严格依靠由行业领域专家学者所建立的规范办法,因此不易运用到不同的应用领域。但随着深度学习技术的蓬勃发展,基于深度学习的命名实体技术也引起人们的普遍重视。而目前中国国内研究者关于命名实体识别技术的研究成果,大多聚焦在统计方法和深入学习上[2]。国外的命名实体识别技术相关研究相比于国内更加的成熟。

在英文实体识别领域,thenmalar等[3]不仅在英文语料中使用半监督的自举方法,还增加了泰米尔文语料进一步验证该方法的可行性。collobert等[4]提出了一种基于cnn的自然语言处理模型,能处理包含命名实体识别等多种任务。yao等[5]将cnn应用到生物医学命名实体识别上,模型具有多层结构,每层根据底层生成的特征提取特征。huang等[6]提出了多种基于lstm的序列标注模型,包括lstm、bi-lstm和bi-lstm-crf等。souza1等[7]在命名实体识别任务上提出一种bert-crf模型,将bert的传输能力与crf的结构化预测相结合。

在中文命名实体识别领域,也有相关技术实现。黄诗琳等[8]提出一种半监督学习方法,提取不同产品实体的结构特征和相互关系,构建一种三层半监督学习框架。王路路等[9]以crf为基本框架,通过引入词法特征、词典特征、以及基于词向量的无监督学习特征,对比不同特征对识别结果的影响,进而得到最优模型。wu等[10]利用卷积层生成由多个全局隐藏节点表示的全局特征,然后利用局部特征和全局特征以识别临床文本中的命名实体。jun等[11]提出一种融合多层次cnn和注意力机制的中文临床命名实体识别方法。该方法既能捕捉短距离和长距离的上下文信息,且注意力机制还能获取全局上下文信息,进一步解决了lstm在句子较长时无法捕捉全局信息的问题。tang等[12]进一步研究了如何将词汇信息整合到基于字符的方法中,提出一种基于单词-字符图卷积网络(wc-gcn),通过使用交叉gcn块同时处理两个有向无环图,并引入全局gcn块来学习全局上下文的节点表示。边俐菁等[13]基于深度学习和远程监督的方法针对产品进行实体识别,利用爬虫整理得到的词典进行高质量的标注数据,按照词典完全匹配、完全匹配 规则、核心词汇 词性扩展 规则这3种方式进行实体识别,该方法能大大减少手工标注语料库的工作量。李妮等[14]提出了基于bert-idcnn-crf的中文命名实体识别模型,该模型通过bert预训练模型得到字的上下文表示,再将字向量序列输入idcnn-crf模型中进行训练。li等[15]为解决大规模标记的临床数据匮乏问题,在未标记的中国临床电子病历文本上利用bert模型进行预训练,从而利用未标记的领域特定知识,同时将词典特征整合到模型中,利用汉字字根特征进一步提高模型的性能。wu等[16]提出一个基于roberta和字根特征的模型,使用roberta学习医学特征,同时利用bi-lstm提取偏旁部首特征和roberta学习到医学特征向量做拼接,解码层使用crf进行标签解码。yao等人[17]针对制造文本进行细粒度实体识别,提出一种基于albert-attbilstm-crf和迁移学习的模型,使用更轻量级的预训练模型albert对原始数据进行词嵌入,bi-lstm提取词嵌入的特征并获取上下文的信息,解码层使用crf进行标签解码。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 计划与进度安排

本文主要研究的是四种模型在中文命名实体识别领域的抽取效果对比。本文首先介绍了相关的研究背景,研究意义和国内外研究现状;接着简单介绍了命名实体识别的相关技术基础;然后重点讲述了hmm模型,crf模型,bilstm模型和bilstm crf模型的各自的特点和理论基础,让读者能够更好的了解每个模型的特点;最后,通过实验分析验证了四种模型中bilstm crf模型具有更高的抽取效果。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 参考文献

[1]曹晖.基于深度学习的中文命名实体识别研究[d].贵州:贵州大学,2021.

[2]张露露.基于深度学习的中文命名实体识别研究[d].太原:太原科技大学,2021.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。