010-82092128 English

集團概況

加入我們

聯系我們
【AI之美】系列四:知識圖譜概述

1. 知識圖譜 VS 話題模型

在上一篇文章中,我們詳細分析了話題模型的優勢與局限性,即匹配的擴展與精度的平衡,雖然很多信息服務商使用話題模型取得了一定的效果,但它也限制了用戶體驗提升的潛力。

針對這種情況,合享基于多年的技術沉淀與鉆研,開創性的構建了“全球專利知識圖譜”,已經將全球1.2億件專利數據完全結構化,從中抽取技術方案、技術點、技術關系,建立起包含10億個節點、100億個關系的知識網絡,為提升用戶體驗打下了堅實的基礎。

“知識圖譜”的概念是很樸素的,就是把抽象的知識變成具體的形式展現出來。例如,如圖1所示。

1.png


圖1  合享“全球專利知識圖譜”舉例

圖中包含“燃燒器”、“電暖氣”等數個知識點,有些知識點是實體,有些知識點是屬性。知識點之間是有關系的,“燃燒器”具有“火蓋”,“火蓋”是“灶具”。

這樣把知識點都寫下來,然后連起來,就構成了“知識圖譜”。不斷的將新的知識加入其中,就是“知識挖掘”。把不同來源、不同形式的知識統一表示,就是“知識融合”。從“蓄熱式”出發可以找到“灶具”的一些屬性,就是“知識推理”。

我們回想一下自己是怎么思考問題的,比如我該買什么顏色的車。最可能是路線是:首先“愛人”喜歡“白色”,而且“白色”顯得“干凈”,方便“擦洗”,“自己”非常尊重“愛人”,所以選了白色的車。

到這里我們就能發現,知識圖譜更貼近人的思維模式,它把物體內在的與外在的方方面面,都明確的表示出來,形成知識網絡,然后游走在這個網絡里?;疤餑P褪前衙扛鑫鍰灞涑梢桓魷蛄?,但誰的腦子里會始終想著一個數學向量呢?

所以知識圖譜是基礎設施,其表征能力、計算能力相對于話題模型是質的變化。

2. 知識圖譜的挑戰

圖2列舉了知識圖譜的一些主要技術點,大體上由三部分組成:知識的獲取、融合、應用。每一項技術都是一個專門的話題。人類社會積累下來的知識浩如煙海,如何獲取知識,從非結構化數據中抽取結構化數據是第一個挑戰。數據的來源多種多樣,行業不一樣,格式不統一,如何融合在一起是第二個挑戰。在海量的知識體中遍歷、檢索、分析,與應用系統結合找到用戶痛點,同時滿足服務的性能與效果是第三個挑戰。

2.png


圖2  知識圖譜的主要技術點

我們以“實體識別”為例,介紹下技術原理。舉例:小明住在希爾頓酒店?!笆堤迨侗稹鋇娜撾袷譴誘舛撾謀局諧槿〕鍪堤?,“小明”和“希爾頓酒店”。

主流的技術手段包括規則匹配、HMM、CRF、LSTM等。規則匹配的方式最直接,由人事先定義好規則,由計算機執行規則,其問題是規則繁雜不易窮舉、不易維護。其余方法大多屬于機器學習的思路,由人事先標注語料,哪些詞屬于實體,哪些詞不屬于實體,哪些詞屬于實體邊界,然后訓練模型,利用概率手段得到實體識別的結果。

以LSTM模型為例:LSTM(Long Short Term Memory Network)屬于神經網絡模型之一。最初級的神經元由輸入、激活函數、輸出組成,數學表達是Y(t) = f(W*x(t))。如果輸出Y不僅和輸入X有關,還和前一個時間點的計算結果有關,則數學表達就變成:H(t)=f(W1*H(t-1)+W2*x(t)), Y(t) = f(W*H(t)),Y是計算結果,H用戶傳遞中間結果。再進一步,如果輸出Y的同時,傳遞2個狀態H和C,一個改變的快,一個改變的慢,就可以實現對以前的計算結果不同等看待,做到有的加強,有的減弱。但其內部過程比較繁瑣,訓練的復雜度也相應的提高了。

在LSTM之后再加上一步CRF計算,也是一個不錯的選擇。但每一種實體的表現形式不一樣,所以在數據的結構化問題中,往往要多種方法配合使用,或者為每種數據訓練不同的模型。

知識圖譜的建立與應用,就是以自然語言處理、圖像處理、深度學習等技術作為基礎,其價值巨大,同時對技術的深度與廣度的要求也比較高。

3. 合享的知識圖譜實踐

合享作為一家知識產權領域的人工智能公司,專注于為廣大用戶提供可信、好用的智能服務。合享的知識圖譜系統,包含全球1.2億件專利、10億個知識節點、100億個關系。知識節點類型包括技術方案、技術點、組件、組件團等。關系類型比較多,有數千種類型。

圖3.png

圖3  專利內容節選

在圖3 的專利中描述了一種前端附件驅動器系統,是一個完整的技術方案,里邊包含很多組件,若干個組件形成組件團,組件之間有各種關系。我們將這篇專利處理成如下形式:

圖片4.png

當我們把1.2億篇專利都處理成結構化模型之后,就會形成一張大網,這張大網將各領域的技術知識融會貫通。

incoPat研發的超級附圖功能,就是典型的基于知識圖譜的技術應用。專利的原始文本描述的是技術方案,是非結構化的,形式如下:

圖片3.png

專利的附圖形式如圖4所示。

圖片4.png

圖4  專利附圖舉例

圖中有一輛平衡車和部件的標號。專利的附圖是技術方案的圖形畫展示,但是比較簡單,信息量不算豐富。專利數據的圖文是分開的,圖是圖,文是文。用戶在閱讀的時候,想知道標號“1”是什么組件,要去文章中找,問題是標號會很多,文章很長,需要花很多時間來回對應,是一件費眼睛費時間的事。

合享第一步從知識圖譜中獲取“平衡車”,“車體”,“前輪”等組件以及他們之間的關系,第二步利用OCR算法從圖形中抽取出1、2、3等標號,第三步將兩者融合到一起,就形成圖5的形式,在圖中把標號框出來,在旁邊寫上他的組件名稱,節省用戶的閱讀時間,?;び沒У難劬?。

 圖片2.png

圖5  超級附圖舉例

知識圖譜技術已經深入合享系統的方方面面,未來合享會推出更多的智能化應用,在功能層面與場景層面,幫助用戶節省時間、提升效率。


 

微信掃一掃 關注我們