資料探勘技術在科技期刊網站中的應用論文
隨著網際網路技術的快速發展,學術研究環境較以前更加開放,對傳統的科技出版業提出了開放性、互動性和快速性的要求; 因此,以資訊科技為基礎的現代數字化出版方式對傳統的科技出版業產生著深刻的影響。為了順應這一趨勢,不少科技期刊都進行了數字化建設,構建了符合自身情況、基於網際網路B /S 結構的稿件處理系統。
以中華醫學會雜誌社為代表的部分科技期刊出版集團均開發使用了發行系統、廣告登記系統、線上銷售系統以及站。這些系統雖然積累了大量的原始使用者業務資料; 但從工作系統來看,由於資料本身只屬於編輯部的業務資料,因此一旦相關業務工作進行完畢,將很少再對這些資料進行分析使用。
隨著目前人工智慧和機器學習技術的發展,研究人員發現利用最新的資料探勘方法可以對原始使用者業務資料進行有效分析和學習,找出其中資料背後隱含的內在規律。這些有價值的規律和寶貴的經驗將對後續科技期刊經營等工作提供巨大的幫助。
姚偉欣等指出,從STM 期刊出版平臺的技術發展來看,利用資料存取、資料管理、關聯資料分析、海量資料分析等資料探勘技術將為科技期刊的出版和發行提供有力的幫助。透過使用資料探勘( data mining) 等各種資料處理技術,人們可以很方便地從大量不完全且含有噪聲或相對模糊的實際資料中,提取隱藏在其中有價值的資訊,從而對後續科技期刊出版工作起到重要的知識發現和決策支援的作用。
1 資料探勘在科技期刊中應用的現狀
傳統的資料庫對資料的處理功能包括增、刪、改、查等。這些技術均無法發現數據內在的關聯和規則,更無法根據現有資料對未來發展的趨勢進行預測。現有資料探勘的任務可以分為對資料模型進行分類或預測、資料總結、資料聚類、關聯規則發現、序列模式發現、依賴關係發現、異常或例外點檢測以及趨勢發現等,但目前國內科技期刊行業利用資料探勘方法進行大規模資料處理仍處在起步階段。張品純等對中國科協所屬的科技期刊出版單位的現狀進行分析後發現,中國科協科技期刊出版單位多為單刊獨立經營,單位的規模較小、實力較弱,多數出版單位不具備市場主體地位。這樣就導致國內大部分科技期刊既沒有能力進行資料探勘,也沒有相應的資料資源準備。以資料探勘技術應用於期刊網站為例,為了進行深入的資料分析,期刊經營人員需要找到稿件與讀者之間、讀者群體之間隱藏的內在聯絡。目前,資料探勘的基本步驟為: 1) 明確資料探勘的物件與目標;2) 確定資料來源; 3) 建立資料模型; 4) 建立資料倉庫; 5)資料探勘分析; 6) 物件與目標的資料應用和反饋。
2 期刊資料的資源整合
編輯部從稿件系統、發行系統、廣告系統、站等各個系統中將相關資料進行清洗、轉換和整理,然後載入到資料倉庫中。進一步,根據業務應用的範圍和緊密度,建立相關資料集市。期刊資料資源的整合過程從資料體系上可分為資料採集層、資料儲存處理層和資料展現層。
要獲得能夠適合企業內部多部門均可使用、挖掘和分析的資料,可以從業務的關聯性分析資料的準確性、一致性、有效性和資料的內在關聯性。
3 期刊資料的資訊挖掘
資訊挖掘為了從不同種類和形式的業務進行抽取、變換、整合資料,最後將其儲存到資料倉庫,並要對資料的質量進行維護和管理。資料探勘可以有效地識別讀者的閱讀行為,發現讀者的閱讀模式和趨勢,對網站改進服務質量、取得更好的使用者黏稠度和滿意度、提高科技期刊經營能力有著重要的意義。作為一個分析推薦系統,我們將所分析的統計結果儲存於伺服器中,在使用者或決策者需要查詢時,只需輸入要找尋的使用者資訊,系統將從資料庫中抽取其個人資訊,並處理返回到上網時間分佈、興趣點所在、適配業務及他對於哪些業務是有價值客戶,甚至包括他在什麼時段對哪類資訊更感興趣等。只有這些資訊才是我們的使用物件所看重和需要的。
網站結構挖掘是挖掘網站中潛在的連結結構模式。透過分析一個網頁的連結、連結數量以及連結物件,建立網站自身的連結結構模式。在此過程中,如果發現某一頁面被較多連結所指向,則說明該頁面資訊是有價值的,值得期刊工作人員做更深層次的挖掘。網站結構挖掘在具體應用時採用的結構和技術各不相同; 但主要過程均包括預處理、模式發現和模式分析3 部分。為了反映讀者興趣取向,就需要對資料庫中的資料按使用者進行抽樣分析,得到興趣點的統計結果,而個人的興趣分析也可基於此思路進行。下面以《中華醫學雜誌》為例做一介紹。
預處理預處理是網站結構挖掘最關鍵的一個環節,其處理得到的資料質量直接關係到使用資料探勘和模式分析方法進行分析的結果。預處理步驟包括資料清洗、使用者識別、會話識別、路徑補充和事件識別。以《中華醫學雜誌》網站www. nmjc. net. cn 的日誌分析為例。首先給出一條已有的Log,其內容為“2014-03-04 12: 13: 47 W3SVC80003692 172. 22. 4. 3GET /index. asp-80-123. 185. 247. 49Mozilla /5. 0 +( Windows + NT + 6. 1; + WOW64 ) + AppleWebKit /537. 36 + ( KHTML,+ like + Gecko) + Chrome /28. 0.1500. 95 + Safari /537. 36 + SE + 2. X + MetaSr + 1. 0200 0 0”。從Log 的內容,工作人員可以得到相關資訊,如使用者IP、使用者訪問頁面事件、使用者訪問的頁面、使用者請求的方法、返回HTTP 狀態以及使用者瀏覽的上一頁面等內容。
由於伺服器同時部署了多個編輯部網站,這就要求工作人員必須對得到的訪問www. nmjc. net. cn 日誌,去除由爬蟲軟體產生的記錄。這些記錄一般都會在日誌結尾包含“Spider”的字樣。同時,還需要去除不是由GET 請求產生的日誌以及請求資源不是頁面型別的日誌。最後,工作人員還需要去除訪問錯誤的請求,可以根據日誌中請求的狀態進行判斷。一般認為,請求狀態在( 200, 300) 範圍內是訪問正確的日誌,其他如403、400 和500 等都是訪問錯誤的日誌。使用者識別可以根據使用者的IP 地址和使用者的系統資訊來完成。只有在IP 地址和系統資訊都完全一致的情況下,才識別為一個使用者。會話識別是利用面向時間的探索法,根據超時技術來識別一個使用者的多次會話。如果使用者在一段時間內沒有任何操作,則認為會話結束。使用者在規定時間後重新訪問,則被認為不屬於此次會話,而是下次會話的開始。
利用WebLogExplore 分析日誌、使用者和網頁資訊在獲得了有效的日誌資料後,工作人員可以利用一些有效資料探勘演算法進行模式發現。目前,主要的資料探勘方法有統計分析、關聯規則、分類、聚類以及序列模式等技術。本文主要討論利用Apriori 演算法來發現科技期刊日誌資料中的關聯規則。本質上資料探勘不是用來驗證某個假定的模式的正確性,而是在資料庫中自己尋找模型,本質是一個歸納的過程。支援度( Support) 的公式定義為: Support ( A≥B) = P( A ∪B) 。支援度可以用於度量事件A 與B 同時出現的機率。如果事件A 與B 同時出現的機率較小,說明事件A 與B 的關係不大; 如果事件A 與B 同時出現非常頻繁,則說明事件A 與B 總是相關的。置信度( Confidence) 的公式定義為: Confidence( A≥B) = P( A | B) 。置信度揭示了事件A 出現時,事件B 是否也會出現或有多大機率出現。如果置信度為100%,則事件A 必然會導致事件B 出現。置信度太低,說明事件A 的出現與事件B 是否出現關係不大。
對所有的科技期刊日誌資料進行預處理後,利用WebLogExplore 軟體可得到日誌彙總表。表中儲存了所有使用者訪問網站頁面的詳細資訊,工作人員可將其匯入資料庫中。以檢視到所選擇使用者訪問期刊頁面的詳細資訊。
同樣,在WebLogExplore 軟體中選擇感興趣的頁面,可以檢視所有使用者訪問該頁面的統計資訊,如該頁面的訪問使用者數量等。工作人員可以對使用者訪問排名較高的頁面進行進一步的模式分析。
步驟1: 將圖2 日誌資訊彙總表中的資料匯入資料庫中,建立日誌總表。
步驟2: 在資料庫中建立一個新表命名為tj。
步驟3: 透過查詢程式得到日誌總表中每一個使用者訪問的頁面,同時做distinct 處理。
步驟4: 將查詢得到的使用者訪問頁面記錄進行判斷。如果使用者訪問過排名前20 位的某個頁面,則在資料庫中寫入true,否則寫入false。依次迴圈判斷寫入資料庫中。
步驟5: 統計每個訪問排名靠前頁面的支援度,設定一維專案集的最小閥值( 10%) 。
步驟6: 統計大於一維閥值的頁面,寫入陣列,並對陣列內部頁面進行兩兩組合,統計每個組合2 個頁面值均為true 時的二維專案集的支援度。
步驟7: 設定二維專案集支援度的閥值,依次統計三維專案集支援度和置信度( A≥B) ,即當A 頁面為true 時,統計B 頁面為true 的數量,除以A 為true 的數量。設定相應的.置信度閥值,找到訪問排名靠前頁面之間較強的關聯規則。
4 資料探勘技術應用的意義
1) 對頻繁訪問的使用者,可以使用使用者識別技術分析此使用者的歷史訪問記錄,得到他經常訪問的頁面。當該使用者再次登入系統時,可以對其進行個性化提示或推薦。這樣,既方便使用者使用,也可將系統做得更加友好。很多OA 期刊網站,不具備歷史瀏覽記錄的功能; 但瀏覽記錄對使用者來講其實十分重要,隱含了使用者對文章的篩選過程,所以對使用者經常訪問的頁面需要進行最佳化展示,不能僅僅提供連結地址,需要將文章題名、作者、關鍵詞等資訊以列表的方式予以顯示。
2) 由資料探勘技術而產生的頻繁專案集的分析,可以對網站的結構進行改進。支援度很高的頁面,說明該頁面的使用者訪問量大。為了方便使用者以及吸引更多的讀者,可以將這些頁面放置在更容易被訪問的位置,科技期刊的網站內容一般以年、卷、期的形式展示。使用者如果想檢視某一篇影響因子很高的文章,也必須透過年卷期的方式來檢視,非常不方便而且頁面友好性不高。透過資料探勘的分析,編輯部可以把經常被訪問或者高影響因子的文章放在首頁展示。
3) 對由資料探勘技術產生的頻繁專案集的分析,可以發現使用者的關注熱點。若某些頁面或專案被使用者頻繁訪問,則可以用這些資料對使用者進行分析。一般來說科技期刊的讀者,每個人的專業和研究方向都是不同的,編輯部可以透過資料探勘技術來判斷讀者的研究方向和感興趣的熱點,對每一個使用者進行有針對性的內容推送和訊息傳送。
4) 網站管理者可以根據在不同時間內頻繁專案集的變化情況對科技期刊網站進行有針對性的調整,比如加入更多關於該熱點的主題資源。目前大多數科技期刊網站首頁的內容,均為編輯部工作人員後臺新增、置頂、高亮來吸引使用者的; 透過資料探勘技術,完全可以擯棄這種展示方式。編輯部網站的使用者訪問哪些頁面頻繁,系統便會自動將這些頁面的文章推向首頁,不需要編輯部的人工干預,整個網站實現自動化執行。
5 後記
本文重點討論了資料探勘技術與科技期刊網站頁面之間的關係。其實我們還可以從很多方面進行資料探勘,比如可以對網站的使用者和內容進行資料探勘,透過分析可以為後期的期刊經營做好鋪墊。
有一點很重要,沒有一種資料探勘的分析方法可以應付所有的需求。對於某一種問題,資料本身的特性會影響你的選擇,需要用到許多不同的資料探勘方法以及技術從資料中找到最佳的模型。
在目前深化文化體制改革,推動社會主義文化大發展、大繁榮的政治形勢下,利用資料探勘技術從中進行提取、分析和應用,能有效地幫助企業瞭解客戶、改進系統、制訂合理的市場策略、提高企業的銷售水平和利潤。透過利用資料探勘技術準確定位優質客戶,向客戶提供更精確、更有價值的個性化服務。這將成為未來科技期刊經營十分重要的突破點和增長點。