0 引言
TRIZ理論是前蘇聯(lián)的G.S.Altshuler在分析研究世界各國250萬件專利的基礎(chǔ)上,提出來的解決發(fā)明問題的系統(tǒng)化方法學,它是一種建立在技術(shù)系統(tǒng)演變規(guī)律基礎(chǔ)上的問題解決系統(tǒng)。之所以TRIZ理論在實際工程問題中往往可以找到較為理想的解決方案,是由于TRIZ為使用者提供了盡可能接近理想解的方向,且不受設(shè)計人員慣性思維所限制。TRIZ理論來源于大量的專利,所以在指導工程問題時,也可以用專利來給予工程人員啟發(fā)式的指導。
專利是人類的知識成果,有效的利用專利知識可以為人們節(jié)省大量的時間、成本。這種基于專利的知識復用可以在已有知識的基礎(chǔ)上更加專注于特定領(lǐng)域的知識構(gòu)建,并且新系統(tǒng)可以利用所復用的知識與現(xiàn)存的其他系統(tǒng)進行交互。這樣,描述性的知識、問題解決方法以及推理服務(wù)都可在系統(tǒng)間實現(xiàn)共享,從而可以方便地構(gòu)建出更大、更好的知識庫來為工程人員提供解決思路,而不是一味的浪費時間。
因此以TRIZ理論為基礎(chǔ),采用數(shù)據(jù)挖掘技術(shù)為手段,利用中文專利文獻資源,找到大量專利數(shù)據(jù)背后隱藏的重要技術(shù)規(guī)律,獲得發(fā)明創(chuàng)造過程中的一般技術(shù)策略,方法和手段等深度知識來解決機械產(chǎn)品的創(chuàng)新設(shè)計問題,可能會為機械產(chǎn)品高層次的創(chuàng)新開辟新的途徑。以此為工程人員提供指導性強、具有啟發(fā)性的知識,完成對創(chuàng)新系統(tǒng)實例的動態(tài)更新和擴充。
1 相關(guān)工作
專利一般分為三種類型:發(fā)明專利、實用新型專利以及產(chǎn)品外觀設(shè)計專利。在2007年12月召開的創(chuàng)新型國家建設(shè)與知識產(chǎn)權(quán)保護大會上,證實我國的實用新型專利90010對于產(chǎn)品創(chuàng)新是基本無用的,因此基于TRIZ的專利挖掘主要是在發(fā)明專利上的深度知識的挖掘和信息抽取上。專利數(shù)據(jù)庫是以常規(guī)技術(shù)分類,分散在各專業(yè)領(lǐng)域中,傳統(tǒng)的專利庫對專利的分類是基于學科的,對于跨學科、跨領(lǐng)域的綜合創(chuàng)新是無益的,無法直接用于產(chǎn)品創(chuàng)新設(shè)計理論。
對于專利研究的相關(guān)技術(shù)國外已有較大的發(fā)展,并且集中在專利的信息抽取技術(shù)、聚類技術(shù)、以及專利的自動分類方面。主要的研究單位有美國Invention Machine Corporation公司、億維訊公司等,他們都對TRIZ理論本身和專利方面進行了深入的研究,并且開發(fā)了主流的計算機創(chuàng)新輔助軟件(CAl)為廣大的用戶服務(wù)。
Soo等給出了專利的結(jié)構(gòu)本體模型的抽取方法。Young等提出了一種基于出現(xiàn)時間和技術(shù)特征的專利分析方案,但抽取目標語義模型相對簡單。Cascini等根據(jù)TRIZ中的專利被劃分為5個創(chuàng)新級別理論,應用文本挖掘技術(shù)計算機輔助從專利文本中抽取詞匯,提出了主語-謂語-賓語(簡稱SAO)三元模型。Cong和Tong等開發(fā)了面向TRIZ用戶的專利自動分類專家系統(tǒng)。
國內(nèi)對于中文專利的研究滯后于國外,這與漢語的語言特點也不無關(guān)系,國內(nèi)的研究單位有浙江大學、哈工大、中科院計算所等。
郭煒強等在構(gòu)建專利自動分類時,采用了改進詞語權(quán)重的計算方法并從專利類別IPC的定義中抽取概念向量,作為專利分類領(lǐng)域知識。馮培恩教授通過對生物基因工程與產(chǎn)品原理方案設(shè)計的類比,建立了基于產(chǎn)品基因遺傳和重組的概念設(shè)計框架,該框架有助于產(chǎn)品概念設(shè)計階段的原理創(chuàng)新。王克奇等針對目前的專利檢索系統(tǒng)無法給用戶提供有效的創(chuàng)新理論支持,把TRIZ理論中的一些先進原理和方法應用于現(xiàn)有的專利檢索系統(tǒng)當中,并在此基礎(chǔ)上提出面向TRIZ的專利庫建模模型,任工呂教授分析了TRIZ理論是以深度技術(shù)知識為基礎(chǔ),建立了從專利中獲取啟發(fā)式原理和技術(shù)效應的方法,以此支撐設(shè)計模型從事產(chǎn)品創(chuàng)新設(shè)計,并提出了點問題及其解決途徑。并基于TRIZ理論技術(shù)進化為一些產(chǎn)品指出了開發(fā)方向、或在特定階段應采取的決策。
目前,國內(nèi)外的研究還處在起步階段,研究還不夠深入。利用文本挖掘技術(shù)面向TRIZ理論進行專利深度知識的發(fā)現(xiàn)和提取內(nèi)容的研究更是一個新興和熱門的研究課題。專利數(shù)據(jù)庫中集結(jié)了人類智慧的結(jié)晶,但它分散在各專業(yè)領(lǐng)域,不利于產(chǎn)品的創(chuàng)新設(shè)計。所以基于TRIZ理論的中文專利的知識挖掘?qū)Υ龠M產(chǎn)品創(chuàng)新設(shè)計,甚至是我國的各行各業(yè)以及經(jīng)濟發(fā)展具有非常重要的意義。
本文在前人研究的基礎(chǔ)上,進一步探索了專利與TRIZ理論結(jié)合以進行深度知識挖掘,從而為工程技術(shù)人員提供有用知識,其中文本挖掘的相關(guān)技術(shù)是關(guān)鍵。本文先構(gòu)建了中文專利的知識獲取的模型,然后針對專利這種特殊的文本應用深度知識庫,介紹了知識獲取的一般過程。
2 中文專利深度知識獲取模型構(gòu)建
基于TRIZ理論中文專利深度知識獲取系統(tǒng)的模型框架如圖1所示。該模型包括以下幾個部分:預處理模塊、語言知識庫模塊和文本分類器模塊。
圖1 中文專利深度知識獲取系統(tǒng)
中文專利深度知識獲取模型中主要包含兩個數(shù)據(jù)庫,一個是傳統(tǒng)的專利庫,這是直接從國家知識產(chǎn)權(quán)局批量下載的專利:另一個是深度知識庫,它是從傳統(tǒng)數(shù)據(jù)庫經(jīng)過一系列的過程儲存深度知識的專利數(shù)據(jù)庫。所提取的深度知識就是能夠在各個技術(shù)領(lǐng)域相互使用的啟發(fā)式原理、技術(shù)效應等知識。這是為了將一部分專利以TRIZ理論的概念、術(shù)語的形式存放于數(shù)據(jù)庫中,便于后續(xù)訓練文本集的查詢和規(guī)律研究。這不同于傳統(tǒng)專利庫按照學科分類的組織形式。這兩個數(shù)據(jù)庫的組織形式是不相同的,后者按照TRIZ理論的指導,更能給人以啟發(fā),促使人們產(chǎn)生設(shè)計靈感,從而進行創(chuàng)新。
2.1 預處理模塊
從中文專利庫中下載專利,然后對這些專利進行預處理,包括格式化處理,結(jié)構(gòu)化信息提取和文本預處理,建立有利于后續(xù)知識發(fā)現(xiàn)及挖掘的統(tǒng)一專利方案表示模式。格式化處理應該先下載包含專利信息頁面的HTML文檔到本地機器中。這是整個抽取工作的前提,只有獲取到編碼格式正確的HTML文檔,才能確保抽取信息的正確性。然后過濾掉無用的網(wǎng)頁標記和鏈接,并找到某篇專利的下載路徑。結(jié)構(gòu)化信息提取主要有兩方面,一方面是提取專利的基本信息,例如發(fā)明人、題目、IPC、專利類型等內(nèi)容,另一方面通過OCR技術(shù)或者人工輔助提取專利的基本內(nèi)容,如摘要、發(fā)明內(nèi)容、附圖說明等內(nèi)容。經(jīng)過結(jié)構(gòu)化信息提取過程后,就可以對這些基本內(nèi)容進行文本預處理,包括文本分詞、去停用詞、文本特征提取、詞頻統(tǒng)計等操作。
2.2 語言知識庫模塊
對TRIZ理論體系解決問題工程參數(shù)、發(fā)明原理、效應理論等內(nèi)容進行深刻研究,建立語言知識庫。
a.關(guān)鍵詞匹配機制。采用分類挖掘技術(shù)和人工對專利仔細分析相結(jié)合的方式,重點從網(wǎng)上公布的專利中提取對各個學科均有指導意義的啟發(fā)式原理(包括原理的應用形式、應用實例說明和實例圖)和沖突解耦規(guī)則等,作為產(chǎn)品設(shè)計系統(tǒng)的基礎(chǔ),將TRIZ理論的技術(shù)沖突和效應解決工具具體化。對應于專利的知識提取最簡單的就是建立關(guān)鍵詞匹配機制。也就是說,針對40條發(fā)明原理,39個工程參數(shù)或效應原理建立發(fā)明原理詞典,工程參數(shù)參數(shù)詞典等。例如,發(fā)明原理詞典收錄了對應每條發(fā)明原理的盡可能多的詞匯,所以對于未知分類的某個專利而言,可以初步通過該詞典找到某個專利對應關(guān)鍵詞匹配率最高的原理進行下一步的分析。運用T程參數(shù)詞典也可以輔助找到可能運用的發(fā)明原理。該過程是一對多的映射關(guān)系,需要大量的知識支持。
b.構(gòu)建語義模板。對于中文這種復雜的自然語言,在語言的表達上及其豐富,僅僅依靠關(guān)鍵詞的匹配機制是不夠的,為此要建立語義關(guān)系的模板。一般來說,語義關(guān)系主要有上下位關(guān)系、因果關(guān)系、推論關(guān)系、整體部分關(guān)系等;語義模板就是找到句子背后蘊含的復雜關(guān)系,構(gòu)建描述周圍世界的知識模型。語義模板的建立,不僅基于邏輯和知識的方法建立規(guī)則,還可以結(jié)合概率信息來描述各種語言現(xiàn)象。這些概率信息的獲取,主要是通過收集大量的真實語言材料并對此進行定量分析而得到。傳統(tǒng)的基于邏輯和知識的方法涉及許多的領(lǐng)域知識和經(jīng)驗,其語法規(guī)則有很多例外和不合邏輯之處:而且自然語言中還存在許多歧義現(xiàn)象,這些都是很難通過規(guī)則來加以形式化的。
2.3 文本分類器模塊
文本的白動分類是基于有效的統(tǒng)計或一定規(guī)則的語言模型,包括基本短語的自動識別、動詞搭配知識的獲取和淺層句法分析的研究。為此要對TRIZ理論在各個學科應用的泛化問題及語義基礎(chǔ)進行深刻的研究。
對專利文本進行分類并對結(jié)果進行對比分析,選出分類結(jié)果最為準確的分類算法,并進行改進。同時根據(jù)專利文本特點將詞典詞匯賦予一定的權(quán)重系數(shù)。提取了專利中的標準參數(shù),就可以推知它可能應用的發(fā)明原理,從發(fā)明原理的詞庫或者推理規(guī)則驗證此專利是否用到了矛盾矩陣中的發(fā)明原理所映射的詞匯或規(guī)則,同時根據(jù)專利文本特點詞典詞匯的權(quán)重系數(shù)進行改進,這里有一個評判標準就是如何判斷專利中應用的原理是否屬于TRIZ中的發(fā)明原理,也就是一個閾值的確定。該閾值可以由專家由經(jīng)驗給出一個初始的范圍,若在此范圍內(nèi),則認為該專利的解決方案屬于已知的知識,可以后期將其加入到創(chuàng)新系統(tǒng)的案例庫中,若不在此范圍,則認為該專利的解決方案可能為創(chuàng)新解,需要進一步的判斷。
3 深度知識獲取的過程及方法
專利包括專利名稱,摘要,權(quán)利要求書和說明書等,這些是存儲在中文專利庫中的,對這些內(nèi)容進行重點研究。以TRIZ理論為背景,結(jié)合文本挖掘的相關(guān)技術(shù),對專利文本的深度知識獲取的一般過程總結(jié)如圖2所示。
圖2 應用深度知識庫挖掘?qū)@谋镜囊话氵^程
深度知識庫可以從中文專利庫中提取輔助于文本挖掘的內(nèi)容和結(jié)構(gòu),專利說明書包括技術(shù)領(lǐng)域,背景知識,發(fā)明內(nèi)容,附圖說明以及具體實施方式。深度知識庫對于實例的儲存形式包含標題,初始T況,解決過程以及應用結(jié)果。如圖2所示,標題主要從專利名稱獲取,初始工況通常存在于專利摘要和背景技術(shù)中,問題的解決過程在權(quán)利要求書和發(fā)明內(nèi)容部分有詳細的說明,而應用結(jié)果通常在具體實施方式和說明書附圖中表現(xiàn)出來。標題是該篇專利的研究對象,而這已經(jīng)結(jié)構(gòu)化的存儲在數(shù)據(jù)庫中:對于初始工況,主要提取的就是惡化的參數(shù)以及提出了問題的描述:解決過程是應用創(chuàng)新原理的過程,是研究的重點,應用結(jié)果主要提取的是改善的參數(shù)以及解決問題的描述。后三者主要由領(lǐng)域詞典作為支撐,領(lǐng)域詞典包含工程參數(shù)詞典、發(fā)明原理詞典、效應詞典等。知識發(fā)現(xiàn)語義模板用于對語言知識和實體關(guān)系進行描述,作為對專利文本深刻理解的之用。它降低了單一關(guān)鍵詞的匹配造成的匹配不準確的弊端,對于用戶的檢索、領(lǐng)域詞典的組織以及專利文本的分類是十分必要的。最后,用戶可以進行瀏覽,結(jié)果顯示以及檢索查詢的相關(guān)功能了。
下面針對該過程所提到的部分功能模塊進行說明:
3.1 專利文獻的結(jié)構(gòu)化形式
現(xiàn)有技術(shù)資源多數(shù)存儲在以互聯(lián)網(wǎng)為基礎(chǔ)的計算機中,專利數(shù)據(jù)庫也是如此,且以常規(guī)技術(shù)分類,分散在各專業(yè)領(lǐng)域中,無法直接用于產(chǎn)品創(chuàng)新設(shè)計理論。其中文本的自然語言處理方法和知識挖掘算法是研究的前提和解決的關(guān)鍵問題。
專利文本格式化存儲形式關(guān)系到后續(xù)的知識發(fā)現(xiàn),并且對專利文本的中文處理技術(shù)也十分關(guān)鍵。專利文本是自然語言,對專利全部內(nèi)容的提取是不可行的:且處理的對象是中文,較英文文本的預處理更為復雜,因為中文的基元是字而不是詞,字的信息量比較低,句子中各詞語間沒有固有的分隔符(如空格)。
提取的格式化內(nèi)容為:專利基本信息(Patln);深度知識信息(Dpatln);專利的TRIZ編號(PT)。其中專利基本信息對應圖2中的第一行的功能模塊信息:深度知識信息對應于圖2中第二行的內(nèi)容。
因此專利的結(jié)構(gòu)化形式:PAT={Patln,Dpatln,PT}
3.2 領(lǐng)域詞典的建立
該領(lǐng)域詞典包含發(fā)明原理詞典,工程參數(shù)領(lǐng)域詞典。這就是圖2中所提到的領(lǐng)域詞典模塊。
例如,發(fā)明原理詞典中:No.14曲面化原理的相關(guān)關(guān)鍵詞有:圓角、滾筒、球體、球狀、螺旋狀、螺旋、離心力、離心、甩、回轉(zhuǎn)等等。
工程參數(shù)詞典中:No.1運動物體的重量的相關(guān)關(guān)鍵詞有:力、動、可動、可移動、場、引力、物理、移動、質(zhì)量、運動、重力、重量等等。
利用這些領(lǐng)域詞典就可以對某些專利按照TRIZ的理論背景進行初步分析。而工程參數(shù)詞典是輔助發(fā)明原理詞典按關(guān)鍵詞匹配出來的結(jié)果進行篩選,以得到盡可能接近某條發(fā)明原理的專利分類。
3.3 知識發(fā)現(xiàn)語義模板的構(gòu)建
利用智能算法,并結(jié)合文字處理技術(shù),分析大量的專利文本文本,抽取或標記關(guān)鍵字概念、文字間的關(guān)系,并按照內(nèi)容對文檔進行分類和知識發(fā)現(xiàn),獲取有用的知識和信息。利用自然語言理解技術(shù)中的詞法、句法和語義分析技術(shù)將文本進行切分,通過句法分析將詞匯組合成短語。將提取的短語、關(guān)鍵字與語義模板中已有知識建立映射關(guān)系網(wǎng)絡(luò),利用關(guān)聯(lián)規(guī)則挖掘算法、模式匹配算法進行知識挖掘算法設(shè)計提取包含特定知識的專利以及所包含的知識。同時在抽取專利文本特征時,記錄詞語出現(xiàn)的順序,這在很大程度上會輔助發(fā)現(xiàn)文本中詞匯的語法和語義角色。
隨著知識表示研究的深入,比較常用的知識表示方法:語義網(wǎng)、產(chǎn)生式規(guī)則、框架、面向?qū)ο笾R表示等。本系統(tǒng)的語義模板主要是對基于TRIZ知識的組織,找到各個實體背后蘊含的復雜關(guān)系,構(gòu)建描述周圍世界的知識模型。這里主要提取隱性知識,彌補單一關(guān)鍵詞匹配的不足。語義模板收集的是經(jīng)過概括和歸納,具有系統(tǒng)性的語言知識,并且用結(jié)構(gòu)化的形式(譬如數(shù)據(jù)庫)組織起來的。描述常用詞語的基本詞匯屬性和基本語法屬性,詞語所代表的概念之間的關(guān)系、概念所具有的屬性之間的關(guān)系,以及言語過程中的基本常識等。基于TRIZ的知識獲取、知識表示與知識運用是研究的重點。只有建立了知識發(fā)現(xiàn)的語義模板,才能在專利中進行深度理論的挖掘。
專利的檢索功能建立在語義模板的基礎(chǔ)上,依據(jù)各個實體間的關(guān)系,可以對檢索詞進行動態(tài)擴展,找到相同、相似、近似、相關(guān)等不同程度的關(guān)鍵詞檢索的擴展,以擴大專利檢索的范圍,為用戶提供更具啟發(fā)意義的相關(guān)專利:而分類功能依據(jù)相關(guān)算法,實現(xiàn)語義相似度的計算,從而對專利文本進行分類。
4 結(jié)束語
從豐富的專利庫中提取綜合各學科的知識來解決機械產(chǎn)品的創(chuàng)新設(shè)計問題,可能會為機械產(chǎn)品高層次的創(chuàng)新開辟新的途徑。重點從專利中獲取深度知識,建立分析專利的統(tǒng)一模式和綜合挖掘算法,力求解決基于知識設(shè)計中的“瓶頸”問題。這有利于TRIZ理論的實際應用和自身完善,更好地為工程技術(shù)人員提供開闊的思維,得到創(chuàng)新解的啟示:以中文專利庫為研究對象,有效地組織結(jié)構(gòu)化專利,采用TRIZ理論為分類背景,應用文本挖掘技術(shù)從專利庫中抽取信息從而實現(xiàn)知識發(fā)現(xiàn):初步探索專利信息的內(nèi)容向TRIZ理論映射的問題,利用自然語言處理技術(shù)、文本挖掘、人工智能、專家系統(tǒng)等理論和先進的技術(shù)手段,發(fā)現(xiàn)面向TRIZ的專利文本潛在的語義關(guān)系,有效地促進專利方案庫的建設(shè)到用戶的使用的過程。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.guhuozai8.cn/
本文標題:面向TRIZ理論的深度知識獲取及應用研究
本文網(wǎng)址:http://www.guhuozai8.cn/html/solutions/14019311732.html