知识抽取主要是面向开放的链接数据,通常典型的输入是自然语言文本或者多媒体内容文档(图像或者视频)等。然后通过自动化或者半自动化的技术抽取出可用的知识单元,知识单元主要包括实体(概念的外延)、关系以及属性3个知识要素,并以此为基础,形成一系列高质量的事实表达,为上层模式层的构建奠定基础。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的KGB知识图谱引擎,KGB知识图谱引擎(Knowledge Graph Builder)是基于自然语言理解、汉语词法分析,采用KGB语法从结构化数据与非结构化文档中抽取各类知识,大数据语义智能分析与知识推理,深度挖掘知识关联,实时高效构建知识图谱。
KGB知识图谱引擎功能介绍
一、文档提取
1、轻松解析多种格式文档
KGB知识图谱引擎,可轻松解析多种格式、多种版本文档:TXT、DOC、EXCEL、PPT、PDF、XML等。对于图片信息,OCR可自动识别并抽取图片中的文字信息。
2、结构化表格数据知识抽取
KGB能够自适应解读并抽取结构化表格数据,实现知识的快速生成。
3、非结构化文档知识抽取
KGB知识规则引擎,快速定位非结构化文档中的关键信息(主体、时间、金额等),高效抽取知识。
二、知识关联
KGB知识图谱引擎深入挖掘知识关联,将知识实体链接为有意义的知识事实。并具有强大的知识推理能力,推理暗含的知识与结论,丰富知识图谱。
三、知识推理
KGB具有强大的知识推理能力,推理出暗含的知识,获取更多知识与结论,丰富知识图谱。1、演绎归纳推理(一般—特殊)
KGB能够完成由一般特征到特殊个案的演绎知识推理和由特殊个案到一般特征的归纳知识推理,扩充大量暗含的知识,丰富知识图谱。
2、知识计算(数值知识的加减乘除计算)
对于数值型知识,KGB能够识别并对数值型知识进行加减乘除的知识计算推理,并可对知识计算的准确性进行核查。
3、知识库检查
KGB能够实时检查知识库,纠正知识错误与冲突,保证知识图谱正确性与一致性。
随着信息技术在我国社会生活各个领域应用的深入,中文信息处理正在成为人们工作和生活中不可或缺的手段,中文信息处理将具有更加广阔的市场。这将促使中文信息处理方面的高效中文搜索引擎、实时机器翻译、大规模中文文本处理、跨平台中西文自动识别转换、泛中文语义理解、中文电子商务等技术实现重大突破。中文信息处理已成为我国信息技术研究、发展、应用和产业的基础,在互联网日益成长的今天,中文信息处理技术将会更加成熟并创新。