1. 首頁
  2. 圖書情報與檔案管理

淺析知識組織視野下檔案知識庫的構建思路

淺析知識組織視野下檔案知識庫的構建思路

摘要:檔案知識庫是實現檔案資源知識化、知識資源有序化及知識資源服務化的重要手段。文章從知識組織的角度入手,對檔案知識庫中檔案知識點、檔案知識單元、檔案知識簇、再生的檔案知識以及檔案知識服務平臺等構成要素的構建思路詳細分析,包括檔案知識點的分類標引,檔案知識點的關聯與聚類,檔案知識單元的挖掘推理與語意關聯,檔案知識的再生與利用,以及檔案知識服務平臺的構建。

關鍵詞:知識組織;檔案知識庫;構建;思路

當今社會檔案資訊資源資料量大,資訊冗餘混亂,多元資訊並存且新的資料時時刻刻都在產生,檔案使用者在獲取所需的檔案資訊時經常迷茫於其中而無所適從。這正反映當前檔案資訊服務平臺的資訊組織方式與人們日益增長的知識服務需求之間不相匹配的矛盾。大資料時代的檔案資訊服務業發生了很大的變化,服務核心已由實體文字服務轉向數字化資源服務,最終轉向知識化資源服務。這就需要檔案資訊服務部門採用知識組織方法,構建資訊豐富的檔案知識庫,使雜亂的檔案資訊有序化,有序的檔案資訊知識化,最終有效地服務於使用者。

檔案知識庫脫胎於海量的檔案資訊資源,是對其整理加工的成果。其不僅包含檔案資源本身所記載與反映的知識內容,還包括不同檔案知識之間的關聯,檔案產生、辦理中形成的背景、結構等方面的知識,檔案資源客觀載體上呈現的顯性知識,甚至其後的知識關聯,檔案組織者、檔案人員等儲存於其腦中的經驗、閱歷等主觀的隱性知識。檔案知識庫有效地融入了使用者的需求,可以支撐並服務於使用者問題的解決。因許多潛在知識並未直接記錄在檔案載體上,所以需要採取知識組織方法深度挖掘,才能構建出可利用的檔案知識庫,並有效地服務於使用者。

1分析檔案資訊資源,分類與標引檔案知識點

檔案知識點的分類及標引是在分析檔案知識點內容屬性(特徵)及相關外表屬性的基礎上,按照定義好的類別將其分門別類,並用特定語言表達分析出的屬性或特徵。檔案知識點的分類及標引針對的是使用者所需的直接檔案資訊、知識,是對檔案資訊資源中知識點的發掘和形式上的組織,如可以從數字檔案、檔案全文資料庫、檔案目錄資料庫等檔案客體提取使用者所需的檔案知識,經分類標引後直接服務於使用者。對檔案知識點進行分類與標引首先要對檔案知識點(資料)進行採集,並進一步分析與檢測其是否可用、重複及是否完整等。可用性檢測主要側重於分析資料本身是否有誤或是否對使用者問題的解決有用;重複資料主要是指基本相同的資料,可能由於格式或拼寫上的差異,導致檔案資訊管理系統無法區分;不完整資料主要指資訊的缺失,如檔案責任者、所屬機構、度量單位等資訊的缺失等。然後要對採集到的檔案資訊資源進行資料清洗,要選擇合適的策略,篩選無用資料,合併同類資訊,補充完善缺失資訊,最終形成使用者所需的待分類與標引的知識點集合。在對檔案知識點進行分類和標引時,可以參照《中國檔案分類法》、《中國檔案主題詞表》、網路資訊資源分類法等分類標引語言詞典進行設計,建立成套的檔案知識分類體系,形成分類明確、層次明晰、次序井然的分類標準。大資料時代檔案知識點的標引可有效藉助於計算機的自動標引,可採用關鍵詞標引、概念標引、語義標引、本體標引等方法來標示檔案知識點,使其具備一定的主題和屬性特徵。經過檔案知識點的分類與標引,使用者所直接需要的、知識服務密度低的檔案知識集合已經形成,可以作為檔案知識庫的基礎部分,用以滿足使用者基本的檔案資訊與知識需求,但許多潛在的知識尚需進一步開發,進行更深層次的知識組織。

       2關聯檔案知識點,聚類檔案知識資源

檔案知識點的關聯組織“是將檔案知識及其相互聯絡等關係資訊也有效地儲存於資料庫中。這就使得原本無序的檔案知識變得易於控制且有序,讓原本孤立的資料呈現出有機的聯絡”。

       例如使用者在查閱數字檔案資訊資源時,遇到不了解的人物、事件等時就會產生直接查閱相關檔案的需要,透過檔案知識關聯,就可以將資料庫中的相應人物與事件等知識點與之關聯,為使用者提供更高效的服務。而檔案知識資源的聚類組織則“是根據一定的規則將資訊或知識按類聚集起來,分別給予相同的類別標記,並將類號賦予相關資訊,儲存於資料庫中的過程、技術和方法”。這就將原本分散的檔案知識點按照一定的主題特徵聚合在一起,使聚合在一起的檔案知識點具備相同的關聯或特徵。經過檔案知識點的分類與標引,檔案知識點已經具備一定的主題與屬性特徵,這一層次的檔案知識分別涵蓋各種事件、基本概念、情景、方法、使用者知識需求等知識點,可以滿足使用者低知識層面的需求,解決使用者的一些較單一問題,可將其直接歸入檔案知識庫中,用以解決使用者單一、低知識密度的問題。而透過檔案知識點的關聯組織和聚類組織,形成知識密度較高且橫向關聯的檔案知識單元,如檔案文摘、索引、題錄等形式的檔案知識產品,實現檔案知識點的最佳化組合,檔案知識密度大為提升,可以解決使用者較複雜的問題,滿足使用者較高層次的檔案知識需求。

3挖掘推理檔案知識單元,組織關聯檔案知識語義

透過對檔案知識單元進行挖掘、推理、語意關聯等形式的知識組織,可以進一步增強檔案知識單元的知識密度,滿足使用者更高層次的檔案知識服務需求。檔案知識單元的.語意組織“是將資訊及資訊間的語義關係儲存起來,構成具有語義關係的資料庫。在檢索和分析時,透過建立的語義關係,進行語義推理實現知識服務”。檔案知識單元的語義組織與關聯將資料庫中檔案知識的原有記錄、欄位的關係上升到知識間的語義關係,保證了檔案知識間的關聯與再生及隱性知識的呈現。這種語義關係非常豐富,例如檔案中事件與事件間語義關係、人與人之間的親屬關係及隸屬關係、不同主題間的語義關係等。透過檔案知識單元的挖掘、推理、語意關聯等知識組織,改變了原有檔案知識單元間的顯性聯絡,產生了新的關聯與知識,形成檔案綜述、檔案百科全書、檔案年鑑、檔案主題庫等更高知識密度的檔案知識資源,即檔案知識簇,真正實現檔案資源有序化,有序檔案資源知識化,最終實現檔案知識資源服務化。

4再分析各層檔案知識,再生並利用檔案新知識

經過檔案知識點的關聯與聚類、檔案知識單元的挖掘推理與語意關聯而形成的檔案知識簇已經具備很高的知識密度,可以存入檔案知識庫中,服務於使用者高層次的檔案知識需求。然而檔案知識簇層面的檔案知識仍不是最高層次的知識實現,還可以透過知識挖掘與推理等實現檔案知識的進一步昇華,即檔案知識的再生,這也是藉助檔案知識單元、知識關聯、檔案資訊資源等,透過挖掘、推理、演繹、歸納等方法形成新的檔案知識的過程。這一過程需要融合使用者的需求及知識組織的背景,對使用者需求及檔案知識資源進行不同層次的細分、關聯、挖掘與推理,運用統計分析、機器學習、神經網路等方法,分析出新穎、有效、潛在有用的規律等新知識。比如對使用者查檔新規律的歸納進而為使用者提供智慧化推薦服務,這裡歸納出的新規律就是再生的檔案知識。檔案知識的再生過程也可以是從檔案知識簇到檔案知識點的逆向細化的過程,而在這一逆化過程的推理中也可能產生檔案新知識。檔案“再生知識產生過程中遵循有效性、新穎性、潛在有用性以及最終可理解性原則”,以保證新生的檔案知識、規律、模型等對於新的資料仍有一定的適用性,對於使用者問題的解決以及社會實踐的發展仍然具有實際效用。透過知識分析、推理、挖掘等再生的新知識在形式、內容等方面可能存在一定的問題,需要對其進行檢查修正,結合檔案使用者實際使用狀況及反饋等情況適當調整新知識,按照標準的規則修正再生的檔案新知識,然後直接放入檔案知識庫中服務於使用者。

5呈現檔案知識庫,打造檔案知識服務平臺

經過知識組織形成檔案知識庫,接下來就是將其呈現並服務於使用者,即構建檔案知識服務層,這一層表現為檔案知識服務平臺。檔案知識服務平臺是連線使用者與檔案知識資源的門戶,是檔案資訊資源知識組織結果的呈現形式,包括使用者資料採集分析系統、多功能檢索系統和視覺化呈現系統三個主要模組。

首先是構建使用者資料採集分析系統,該系統一方面用於採集分析使用者的檢索請求、反饋意見等,將其分析、推理為標準詳細的知識檢索語言,並將分析結果進行標記與儲存;另一方面,該系統可以採集使用者檔案知識需求資訊與使用行為資訊,並將其傳遞於檔案知識組織層,用於構建使用者行為分析資料庫。

       其次是構建多功能檢索系統,包括知識點檢索系統、知識單元檢索系統、知識簇檢索系統,分別對應使用者不同知識密度的檢索請求。知識點檢索系統主要針對使用者關於事件、概念、檔案原件等較低知識密度問題的檢索分析,知識單元檢索系統主要適用於使用者關於檔案文摘、檔案題錄、案卷分析等較高知識密度問題的檢索分析,知識簇檢索系統則主要適用於使用者關於檔案年鑑、檔案主題庫、檔案綜述、檔案使用規律等更高知識密度問題的檢索分析。經過資料採集分析系統處理的檢索語言到達多功能檢索系統後,該系統迅速將其推理匹配於相應檢索層次,然後將檢索分析結果傳遞於檔案知識庫,並在其中進行使用者檢索請求與目標資源的匹配,然後將檢索結果以視覺化的方式多元呈現於使用者。

       最後是構建視覺化呈現系統,分為檢索結果的多元呈現、知識導航系統、知識地圖服務等形式。經過檔案知識庫匹配符合使用者需求的目標資源需要經過視覺化呈現系統予以多元化呈現,包括文字、圖片、知識脈絡圖、知識關聯地圖等豐富形式,還可為使用者提供相關檔案知識、相似檔案知識、相似需求查詢等關聯推薦服務,將豐富的檢索內容人性化呈現於使用者。對於檔案知識需求模糊、檔案知識水平不高的使用者,可藉助知識導航系統與知識地圖服務檢索所需的檔案知識。“檔案知識導航系統是引導使用者,使用檢索工具、檔案知識資源庫等獲取所需檔案知識的服務系統。”而知識地圖服務則可以“用視覺化圖形等格式告訴使用者在哪裡或怎麼樣可以找到所需的知識資源”。透過檔案知識服務平臺,檔案知識資源庫中的知識資源得以更好地呈現於使用者,有效地促進了檔案知識資源服務化宗旨的真正實現。

隨著大資料趨勢的日益深入,為解決檔案資訊服務平臺的資訊組織方式與人們日益增長的知識服務需求之間不相匹配的矛盾,需要對檔案資訊資源進行知識組織,構建檔案知識庫。透過檔案知識庫的構建,使得檔案資源知識化,知識資源有序化,這就可以使使用者避免在浩瀚的檔案資訊海洋中搜尋所需的檔案資訊,而是以檔案知識的形式推送並呈現於使用者面前,節省使用者時間,提升服務效率,最終實現知識服務化的宗旨。

參考文獻:

[1]楊力,姚樂也.數字檔案館知識組織層次體系探討[J].檔案學通訊,2009(5):58~60.

[2]黃靜.檔案資訊服務知識導航研究[D].南寧:廣西民族大學,2008.