|
|
當今社會是一個信息化社會的時代,同時又是一個大數(shù)據(jù)時代。隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算和人工智能等信息技術和計算機產(chǎn)業(yè)的不斷發(fā)展和進步,使得數(shù)據(jù)的處理成為一個亟待解決的問題。因此在大數(shù)據(jù)的背景下,如何高效地從大量包含有用數(shù)據(jù)的庫獲得有用信息已成為企業(yè)和科研工作重點關注的點,而這一工作涉及的關鍵技術就是數(shù)據(jù)挖掘技術。總得說,數(shù)據(jù)處理的需要既給數(shù)據(jù)挖掘技術帶來了機遇,于此同時帶來了一系列的挑戰(zhàn)。
其中,知識圖譜(Knowledge Graph)作為一種新的知識表示方法和數(shù)據(jù)管理模式,在自然語言處理、問題回答、信息檢索等領域有著重要的應用。知識圖譜是結(jié)構(gòu)化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關系;其基本組成單位是“實體-關系-實體”三元組,以及實體及其相關屬性-值對,實體間通過關系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識結(jié)構(gòu)。
知識圖譜構(gòu)建是知識圖譜得以應用發(fā)展的前提,涉及實體抽取和實體及實體之間關系的建立,同時還需要很好地組織和存儲抽取的實體與關系信息,使其能夠被迅速的訪問和操作。知識圖譜構(gòu)建過程通常可以分成兩步:知識圖譜本體層構(gòu)建和實體層的學習。本體層構(gòu)建通常包含術語抽取、同義詞抽取、概念抽取、分類關系抽取、公理和規(guī)則學習;實體層學習則包含實體學習、實體數(shù)據(jù)填充、實體對齊和實體鏈接等。
北京理工大學大數(shù)據(jù)搜索與挖掘?qū)嶒炇覐埲A平主任研發(fā)的KGB知識圖譜引擎,KGB知識圖譜引擎(Knowledge Graph Builder)是基于自然語言理解、漢語詞法分析,采用KGB語法從結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化文檔中抽取各類知識,大數(shù)據(jù)語義智能分析與知識推理,深度挖掘知識關聯(lián),實時高效構(gòu)建知識圖譜。
KGB知識圖譜引擎功能介紹
一、文檔提取
1、輕松解析多種格式文檔:KGB知識圖譜引擎,可輕松解析多種格式、多種版本文檔:TXT、DOC、EXCEL、PPT、PDF、XML等。對于圖片信息,OCR可自動識別并抽取圖片中的文字信息。
2、結(jié)構(gòu)化表格數(shù)據(jù)知識抽取:KGB能夠自適應解讀并抽取結(jié)構(gòu)化表格數(shù)據(jù),實現(xiàn)知識的快速生成。
3、非結(jié)構(gòu)化文檔知識抽取:KGB知識規(guī)則引擎,快速定位非結(jié)構(gòu)化文檔中的關鍵信息(主體、時間、金額等),高效抽取知識。
二、知識關聯(lián)
KGB知識圖譜引擎深入挖掘知識關聯(lián),將知識實體鏈接為有意義的知識事實。并具有強大的知識推理能力,推理暗含的知識與結(jié)論,豐富知識圖譜。
三、知識推理
KGB具有強大的知識推理能力,推理出暗含的知識,獲取更多知識與結(jié)論,豐富知識圖譜。
1、演繹歸納推理(一般—特殊):KGB能夠完成由一般特征到特殊個案的演繹知識推理和由特殊個案到一般特征的歸納知識推理,擴充大量暗含的知識,豐富知識圖譜。
2、知識計算(數(shù)值知識的加減乘除計算):對于數(shù)值型知識,KGB能夠識別并對數(shù)值型知識進行加減乘除的知識計算推理,并可對知識計算的準確性進行核查。
3、知識庫檢查:KGB能夠?qū)崟r檢查知識庫,糾正知識錯誤與沖突,**知識圖譜正確性與性。
隨著信息技術在我國社會生活各個領域應用的深入,中文信息處理正在成為人們工作和生活中不可或缺的手段,中文信息處理將具有更加廣闊的市場。這將促使中文信息處理方面的高效中文搜索引擎、實時機器翻譯、大規(guī)模中文文本處理、跨平臺中西文自動識別轉(zhuǎn)換、泛中文語義理解、中文電子商務等技術實現(xiàn)重大突破。中文信息處理已成為我國信息技術研究、發(fā)展、應用和產(chǎn)業(yè)的基礎,在互聯(lián)網(wǎng)日益成長的今天,中文信息處理技術將會更加成熟并創(chuàng)新。
|