基于Neo4j的某领域知识图谱构建及查询方法研究开题报告

 2023-02-25 12:02

1. 研究目的与意义

21世纪以来,我国民航业实现了快速发展[1]。据2019年民航行业发展统计公报显示,全行业完成运输总周转量已由2000年的122.50亿吨公里增长至2019年的1293.25亿吨公里;全行业完成旅客周转量由970.50亿人公里增长至11705.30亿人公里;全行业完成旅客运输量由6721.66万人次增长至65993.42万人次[2]。2020年受新冠肺炎疫情影响,全球民航业都遭受巨大打击。虽然我国2020年民航业的各项数据同全球趋势一样较2019年都有不同程度的较大幅度下降,但由于我国精准有力的抗疫防疫对策举措,国内的航空运输市场成为了全球恢复最快、运行最好的航空市场[3]

2021年12月14日,中国民用航空局、国家发改委、交通运输部联合印发了《“十四五”民用航空发展规划》[4],将“十四五”期间我国民航运输业的发展分为恢复期和积蓄期(2021~2022)、增长期和释放期(2023~2035)两个阶段。从发展规模看,预计到2025年,民用运输机场数量达到270个以上,保障起降架次1700万架次,运输总周转量达到1750亿吨公里,旅客运输量9.3亿人次,货邮运输量950万吨。从发展空间看,预计到2025年,通航国家数量超过70个,其中通航共建“一带一路”国家数量超过50个;中国航空企业占我国国际货运市场份额超过40%[5]。另外,《规划》还要求明强化航系统安全的概念,正确处理安全和发展的关系,加强系统性的理论创新,防范和控制风险,保证基于法律监督、安全保证和科学支持的技术,以防空、适航和信息等民航安全链条为重点,并不断提高整体安全水平。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

1绪论

1.1研究背景及意义

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状

刘俊杰[9]等基于美国航空安全报告系统(asrs)发布的飞行机组疲劳报告,采用语义网络分析的方法,建立飞行疲劳事件语义网络图,按照向前追溯疲劳原因和向后推演疲劳后果步骤,可快速分析得出事故中飞行员疲劳发生时间特征、诱发因素、直接原因、人为因素、贡献因素和可能引发的后果。刘俊杰[10]等以2011—2015年民航安全信息网收集的390起重着陆事件为样本,结合事件链因果关系分析,运用知识地图分析法,按照事件发展演化过程建立重着陆事件知识地图,获取重着陆事件在时间、地点、机型、运行阶段、原因、后果及可能的预防及管控重点,实现一起或多起重着陆事件信息的知识分析,发现可能存在的安全风险,预判引发严重后果事件的可能性。王红[11]等提出一种基于语义相似度和rdfs规则的重写方法,采用基于词向量的语义相似度计算方法将用户rdf三元组转换为领域本体rdf三元组,然后依据rdfs规则对领域本体rdf三元组进行关系扩展重写,并将该方法应用于航空安全事件因果关系的查询,改善了因果关系查询中低匹配和无匹配的问题。王杰[12]等采用自顶向下的方法从航空安全事故调查报告中抽取模式数据并构建知识图谱的模式图,采用自底向上的方法实现知识图谱数据图的构建,利用neo4j图数据库实现了图数据的存储与管理,采用可视化方式实现了航空安全事件知识图谱的展示与信息统计。王红[13]等采用pawlak属性重要度约简算法对航空安全事件属性进行约简,结合航空安全领域本体中事件属性的概念层次结构对属性编码;通过引入跨层次频繁项和修补项改进fp-growth算法,每层设置不同的支持度自底向上对编码后的多层次属性进行挖掘,最后得到事件原因、事件结果、运行阶段、事件类型等多种事件属性之间的多层关联规则,实现航空安全事件多层关联规则挖掘。王红[14]等提出了一种改进的知识图谱补全方法iitere(improved-iteratively learning embeddings and rules),在itere模型的表示学习层与规则学习层之间增加了特征层,采用add方法将表示学习层学到的关系特征进行增强,并生成新关系特征;然后,在规则学习层将新的关系特征与改进的评分机制相结合进行公理的分数计算,该分数用于判断公理的可信度;最后,利用高分公理进行演绎推理从而获得与稀疏实体相关的新三元组,该方法在mrr、 hits@n和规则评估指标上均取得较好的提升。王红[15]等提出一种航空安全事件图文关联方法(hg-rrf),针对文本与图像两种不同模态的数据分别采用混合高斯拉普拉斯模型 高斯模型(hglmm gmm)与全卷积网络(fully convolutional network,fcn)进行特征提取,并将提取的特征分别输入到一个部署了循环残差融合模块(recurrent residual fusion,rrf)的网络中,通过双向损失函数计算相似度,从而获得双向的跨模态关联结果。该方法在公共数据集前k个检索结果的召回率上有所提升,有效实现了图文信息的关联,为航空安全事件多模态数据的融合提供了方法支撑。任博[16]等提出一种基于bow-tie模型组合的随机森林算法用于航空安全因果预测,与神经网络、相关向量机做性能对比,该模型在预测性能和稳健性方面均占优,能有效预测航空安全关键因素及航空安全态势的变化趋势。

vijay manikandan janakiraman[17]提出了一种结合多实例学习(mil)和深度回归神经网络(drnn)的方法,将深度时间多实例学习(dt-mil)模型与基线模型进行分析比较,应用于时间序列数据的弱监督学习问题,解释航空安全事件。s. koteeswaran[18]等提出“改进的振荡相关特征选择( iocfs ) ”新想法,利用基于振荡搜索技术的相关性特征选择( cfs ),对选定的特征进行准确性、运行时间和可靠性测试,并与传统分类器如naive bayes,支持向量机(svm),人工神经网络(ann), k-最近邻(k-nn),多类分类器和决策树等进行比较,用于预测事故主要原因,结果表明k - nn分类器的结果最好。yang chuyang[19]等以美国国家运输安全委员会( ntsb )事故数据库里的通用航空( ga )报告为数据,应用hfacs - bn模型( hfacs:human factor analysis and classification system,bn:bayesian network ),进行了与条件概率表( cpt )相关联的参数估计,以确定贡献因素的先验概率,并进行了敏感性试验,以确定最显著因素,分析航空事故的根本原因。tianxi dong[20]采用了一个训练有素的开放源码的自然语句模型,使用大量wikipedia文本语料库,建立并训练一个基于注意的长短期记忆(lstm)模型,即提出基于深度递归神经网络的asrs事件报告因果因素自动识别模型以识别航空安全事故报告中的主要因素和促成因素,较传统机器学习方法更准确、适应性更强。

国外对于知识图谱的研究相对较早。在2000年的xml大会上,tim berners lee 提出了语义web的理念,目标是为web网页添加语义,支持机器自动处理,以提供诸如信息代理、搜索代理、信息过滤等语义服务。此后,互联网逐步从仅包含网页与网页之间超链接的文档万维网转变为包含大量描述各种实体和实体之间丰富关系的数据万维网。基于关键词的传统搜索引擎技术也逐渐开始添加语义搜索功能。2005年,美国metaweb公司成立,致力于开发用于web语义服务的开放共享的世界知识库。metaweb基于诸如维基百科、美国证券交易委员会等的公开数据集,提取现实世界中的实体(人或事物)及其之间的关系,然后以图结构存储在计算机中。2010年谷歌收购了metaweb,获得其语义搜索技术,并于2012年提出知识图谱的概念。目前已经涌现出一大批知识图谱,其中具有代表性的有freebase、wordnet、yago、dbpedia、nell、wikidata等。这些知识图谱遵循rdf数据模型,包含数以千万级或者亿级规模的实体,并且这些实体被组织到各种客观世界的概念中。国外关于知识库的研究更侧重实践方面,并且主要针对网络知识组织系统进行相关的研发工作,例如对在线图书馆的研究等。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 计划与进度安排

2022年12月—2022年1月:论文选题、收集查阅文献资料和撰写开题报告;

2022年2月:填写开题报告等材料,确定最终论文研究思路、研究方法和论文结构;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 参考文献

[1] 赵奉鲁.中国民航安全趋势分析及国内外对比研究[d].中国民航大学,2018

[2] 中国民用航空局.2019年民航行业统计公报[r].2019

[3] 中国民用航空局.2020年民航行业统计公报[r].2020

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。