- 相關推薦
數字圖書館元數據方案設計有關問題探討
【內容提要】在闡述數字圖書館元數據方案設計原則的基礎上,對數字圖書館元數據方案的設計有關問題進行較為深入的思考,并且提出若干建議。【摘 要 題】專題探討
【英文摘要】This article begins with the illustration of&n
1 數字圖書館元數據方案設計原則
元數據方案就是數字圖書館中所使用的信息描述方法。數字圖書館的運作,無論是存取過程還是檢索過程,都是以元數據方案為基礎實現的。換言之,元數據方案為數字圖書館分布式信息資源的發(fā)現和檢索奠定了基礎。因此,元數據方案決定了數字圖書館的功能特征、運行模式和系統(tǒng)運行的總體性能。為了實現這一總體性能,達到共建共享信息資源的目的,數字圖書館元數據方案應遵循下列原則。
1.1 元數據方案的標準化原則
在數字圖書館建設中,標準問題最重要的是元數據的制作,而與元數據的制作緊密相關的問題是元數據方案的設計。
然而,目前在元數據方案的標準化方面存在很多問題。首先,就DC系列元數據而言,在同一元素的著錄內容上存在較大的差異。如,北京大學拓片元數據要求在權限(Rights)元素中著錄館藏地址、允許使用的用戶范圍,而在《數字式中文全文文獻通用格式》規(guī)定著錄有關權限管理的聲明,包括知識產權等。其次,對于同類型信息資源的組織,有的圖書館已經采用DC元數據,有的則仍然采用MARC元數據。這種著錄內容和同類信息資源所用元數據的不一致都會給數據交換的帶來困難。最后,各個元數據所采用的編碼語言也是各不相同,有的采用HTML,有的采用SGML或XML。由于各個編碼語言的標簽設置、內容、可擴展性的不同,則會影響元數據的通用性。
元數據方案的標準化原則具有廣泛的內涵。它包括元素著錄內容的標準化、同類型數字化信息資源的著錄所采用元數據的一致性、元數據方案所采用編碼語言的統(tǒng)一性這幾個方面。
1.2 元數據方案的準確性原則
所謂準確性原則一方面指元數據方案中元素的定義、使用的術語等不能模棱兩可,容易產生歧義,導致不同的理解;另一方面指元數據方案能夠準確地描述信息資源。也就是說,元數據方案不僅要規(guī)定元素的設置、著錄規(guī)則、標記語言的使用,而且要規(guī)定著錄所依據的標準、傳輸交換語言等。
當前困擾各個搜索引擎的問題是如何提高其查準率。搜索引擎的低查準率究其原因是其對信息資源特征的揭示不夠準確、深入。數字圖書館的信息資源類型多樣,既有文字信息,也有音頻、視頻信息,只有準確地揭示它們的特征,提供高質量的元數據,才能保證較高的查準率。
1.3 元數據方案的通用性與專用性原則
元數據方案的通用性與專用性都是相對而言的。所謂通用性是指元數據方案可用于數字圖書館多種信息資源的元數據制作。所謂專用性是指元數據方案只適用于數字圖書館某一特定類型信息資源的元數據制作。具有通用性的元數據適用于組織多種類型的信息資源。通用性元數據有兩種:一種通用性元數據的結構非常龐大、復雜,但是具有很好的描述深度,因為所有的情況都已經定義了,比如MARC元數據。另一種通用性元數據,其結構非常簡單,好學易用,僅僅只有幾個非常普遍的屬性,但對特定類型的信息資源的描述能力不夠。而具有很好專用性的元數據,其對于某一特定類型的信息資源描述能力很強,但無法覆蓋其它類型的信息資源。數字圖書館信息資源類型多樣,過分強調專用性會導致多種元數據各自為政。因此,在設計元數據方案時,設計人員需要在通用性和專用性之間加以協(xié)調、平衡,才能產生更好的效果。
1.4 元素設置的可擴展性原則
所謂元素設置的可擴展性原則是指在元數據方案設計時,為元素、元素的限定詞以及屬性值的擴充留有一定的余地。數字圖書館要處理的數字化信息資源非常廣泛,而且各類數字化信息資源的應用背景更為復雜。如果元數據方案只提供最廣泛意義上的描述,一些針對特定應用背景的內容并不納入,那么,應允許使用者在不破壞已規(guī)定的標準內容(如元素的語義定義)的條件下,擴充一些元素或屬性值。此外,元數據是一個發(fā)展活躍的領域,新的元數據元素會不斷出現,老的元數據元素會不斷修改完善。數字圖書館的生存環(huán)境是一個不斷變化的環(huán)境,新的信息源也會層出不窮。這就要求元數據方案允許將新的元數據元素容納于其中,或者要求修改更新已經注冊的元數據方案。
1.5 元數據方案的互操作性原則
所謂元數據方案的互操作性,是指在由不同的組織制定與管理且技術規(guī)范不盡相同的元數據環(huán)境下,要向用戶提供一個統(tǒng)一的數據檢索界面,確保系統(tǒng)對用戶的一致性服務。在具體應用上,互操作性表現為易轉換性,即在所攜信息損失最小的前提下,可方便地轉換為其它系統(tǒng)常用的元數據。
2 數字圖書館元數據方案設計應注意的問題
2.1 非MARC元數據與數字圖書館信息資源組織的質量問題
在此,根據我國當前引進、研制元數據的狀況,將現存的元數據分為兩類,即MARC元數據和非MARC元數據。MARC元數據包括USMARC、UNIMARC、CNMARC等。非MARC元數據包括DC系列元數據和非DC系列元數據。DC系列元數據是指我國在數字圖書館建設的過程中,對DC元數據加以引進并改造而生成的針對特殊類型信息資源的元數據,也就是說這些新出現的元數據是在DC元數據的基礎上進行了擴充、改進。例如,DC元數據、北京大學拓片元數據、《數字式中文全文文獻通用格式》以及清華大學的建筑元數據。非DC系列元數據包括TEI頭標、EAD、GILS等。目前將非DC系列元數據用于數字圖書館信息資源組織的呼聲很高。美國圖書館協(xié)會(the American Library Association,簡稱ALA)編目:著錄與檢索委員會(Committee on Cataloging: Description and Access,簡稱CC:DA)在《元數據與編目規(guī)則研究報告》(CC:DA Task Force on metadata and Cataloging Rules:Final Report)中以TEI頭標、EAD等元數據為例,就非DC系列元數據作為編目源的情況做出評估,得出三點重要結論。第一,非MARC元數據在專門針對其用途而設計的系統(tǒng)中效率最高,但在圖書館目錄系統(tǒng)中的效率就不是最高的。第二
,不符合AACR的普通元數據進入圖書館目錄的時候,總是需要圖書館編目人員對其進行嚴格審查。第三,絕大多數非MARC元數據方案沒有提供足夠的信息以區(qū)別相似的信息資源或者內容基本相同而不同版本信息資源。[1]也就是說,只有充分地利用各種編目規(guī)則和其它一些質量保證手段,非MARC元數據才能具有較高的質量,才能用于圖書館信息資源組織。
眾所周知,非MARC元數據大多數是一些資源描述機構針對自己的需要而開發(fā)的。在這些元數據方案中,元數據的制作可以由專業(yè)的編目人員完成,也可以由根本沒有任何經驗信息資源的提供者自己完成。非專業(yè)人員制作的元數據具有費用低、元數據的專指性較好的優(yōu)點。但是,這樣做會導致對數字化信息資源的屬性和特征的揭示程度差別很大,進而影響元數據的總體質量。到目前為止,絕大多數元數據仍然由專業(yè)人員提供。例如,TEI頭標是一種復雜的元數據,絕大多數TEI文本都是由人文科學領域非圖書館專業(yè)人員創(chuàng)建,而TEI頭標通常是由圖書館員創(chuàng)建或維護。如果讓非專業(yè)人員參與元數據的制作,那么數字圖書館元數據方案設計就應解決元數據制作質量的檢測與管理問題。
2.2 DC系列元數據與MARC元數據的關系
目前,有些數字圖書館紛紛采用DC元數據作為描述數字化信息資源的格式。例如,清華大學圖書館的建筑數字圖書館項目以DC元數據作為基本框架,結合建筑資料的實際情況對DC元數據進行改造,擴充為THDL——清華大學建筑數字圖書館元數據格式。北京大學依據DC元數據開發(fā)了拓片元數據格式。上海圖書館也使用了DC元數據。自從DC元數據產生以來,圖書館界爭論不休的問題是,圖書館是繼續(xù)使用MARC元數據,還是舍棄MARC元數據,改用DC元數據?具體到我國,在任何一個數字圖書館元數據方案的設計過程中,必然要涉及到MARC元數據與DC系列元數據關系的處理。
DC元數據最初的定位是處于全文索引和復雜格式的元數據之間,提供簡單明了的元數據格式。DC元數據與MARC元數據的最主要的區(qū)別在于DC元數據結構簡單,而MARC元數據復雜。DC元數據經過數次研討會后,對其進行擴展,使用修飾限定詞使得DC元數據不可避免地復雜起來。其擴展的原因有兩個。一是應用領域比較復雜,DC元數據沒有足夠的元素來描述信息資源的各種重要特征;二是人們希望DC元數據應用于多個領域。實際上,無論如何擴展,DC元數據不可能解決所有數字化信息資源的描述問題。筆者建議:由國家標準化權威機構——全國信息與文獻標準化技術委員會來制定適應于各類數字化信息資源的元數據方案。這樣做,可以在全國范圍內,就某一類數字化信息資源采用何種元數據著錄達成共識。目前,在MARC元數據與DC系列元數據并存的情況下,信息資源的存儲與檢索必然涉及MARC元數據與DC系列元數據兩者之間的轉換,是將全部MARC元數據轉換為DC元數據,還是將DC元數據轉換為MARC元數據?筆者認為,MARC元數據與DC元數據之間轉換的目的是實現一條記錄可以以MARC元數據和DC元數據兩種格式來顯示以及數據的交換與共享。但是,如果用戶沒有這種需求或者兩者之間不轉換并不影響數據交換,則沒有必要進行轉換。也就是說,根據實際需要來決定是否需要MARC元數據與DC元數據之間相互轉換。MARC元數據與DC元數據之間的轉換會產生很多問題。由于MARC元數據的描述能力大大豐富于DC元數據,如何盡量解決兩者之間轉換所產生的歧義與不確定性以及信息丟失等難題。
2.3 元數據的編碼語言問題
元數據的編碼語言是指針對元數據元素和結構進行定義和描述的具體語法和語義規(guī)則。目前,各種元數據使用的編碼語言是不同的,包括標準通用標記語言(Standard General Markup Language,簡稱SGML)、超文本標記語言(Hypertext Markup Language,簡稱HTML)、可擴展標記語言(Extensible Markup Language,簡稱XML)三種形式。有些元數據明確規(guī)定使用何種標記語言,如TEI頭標、EAD和美國聯(lián)邦地理數據委員會《數字地理空間元數據內容標準》使用SGML。也有些元數據沒有規(guī)定使用何種編碼語言,如DC元數據,有使用HTML,也有使用XML的。從數據交換和共享的需要出發(fā),元數據的作用是傳遞計算機系統(tǒng)可以理解的描述信息和存儲數據。計算機首先要理解元數據的各個元素或字段序列化的方式,即按怎樣的順序和結構來組織各個元素及其內容。所使用的編碼語言不同,元數據編碼規(guī)則以及記錄格式也存在差異。這樣則不利于數據的交換和信息資源的共享。因此,從長遠利益來看,有必要對元數據的編碼語言進行統(tǒng)一。
3 對我國數字圖書館元數據方案設計的若干建議
3.1 推進元數據標準化進程,提高元數據的互操作能力
目前,國內出現了許多種元數據,例如,拓片元數據、建筑元數據、古籍元數據、中文數字化全文文獻元數據等,由于每種元數據都是由不同圖書館研制而成的,并且針對不同類型的數字化信息資源。因此,就會出現DC系列元數據與MARC元數據并存的局面。這種局面有利于DC系列元數據與MARC元數據形成優(yōu)勢互補,也可以使某些適合用DC系列元數據描述的特定類型信息資源被充分地揭示和利用。同時,這種局面也會帶來一些問題。目前,我國DC系列元數據至少有4種以上,那么對DC系列元數據是否一體化;那些特定類型信息資源以前的機讀記錄該如何處理等。
筆者主張DC系列元數據一體化,反對各自為政。DC系列元數據都是在DC元數據的基礎上根據用戶的需求與信息資源特點進行了修正,所以這些元數據的核心或實質仍然是DC元數據。這一點可以作為DC系列元數據一體化的基礎,但是,這種一體化工作完成就需要各個研制單位之間的協(xié)調與合作,需要以國家標準的形式出現加以強制執(zhí)行,從而結束元數據結構各自為政的局面。對于那些原由MARC元數據著錄的信息資源來說,MARC記錄已為受編信息資源提供了著錄內容詳盡,查全率高的機讀格式,在受編信息資源數字化的過程中沒有必要舍棄原有的元數據,而采用其它元數據方案。
3.2 選擇適用的編碼語言
在數字圖書館元數據方案設計中,編碼語言的選擇也是關鍵步驟之一。目前,在DC系列元數據中通常使用HTML、SGML或XML。有比較才有鑒別和選擇,我們不妨對這三種編碼語言的優(yōu)劣進行分析比較。
XML是SGML語言的一個子集,同HTML一起成為SGML家族的主要成員。SGML是一種元語言,可以用來定義其它更專門的標記語言。HTML是由SGML定義出來的,專門使用在WWW上的標記語言。SGML是很好的資料存儲格式,適用于任何復雜的文件,但不便于網絡傳輸,SGML非常復雜,不易學習掌握。XML與HTML不同,XML是SGML的一個簡化版本,實際上,XML也是一種元語言。與HTML不同的是,XML并沒有語義上的元素定義,也沒有預先定義好的一套標記系統(tǒng)。在實際應用中,可以根據需要定義自己的標記。
XML是可擴展的,具有較強的靈活性和適用能力,同時它很有可能在今后成為應用最為廣泛的標記語言。但是,目前,XML在網絡上的應用不如HTML廣泛。由于HTML文檔本身的結構性不強,擴展能力差,描述內容的能力也較弱,因此不太可能成為今后數字圖書館元數據方案的主要編碼語言。筆者建議,數字圖書館元數據方案的編碼語言采用XML。
3.3 數字圖書館元數據方案的設計應面向專業(yè)編目人員
信息資源編目實際上是信息資源進行分析、判斷和組織的過程。組織過程包括分類、描述、歸并及格式化等過程;分析過程則包括區(qū)分、驗證、評估、比較、解釋及綜合過程。[2]總之,信息資源編目是一個復雜的、信息增值的過程。目前,困擾信息資源編目的主要問題是費用。一是時間的花費,二是金錢的花費。費用問題使得許多元數據方案的設計者希望所研制的元數據可以由非專業(yè)人員制作。毫無疑問,非專業(yè)人員制作元數據的費用低,然而這種低費用是以犧牲元數據的質量為代價的。筆者認為,對于數字圖書館的建設而言,元數據的總體質量是不容忽視的。如果沒有高質量的元數據,數字化信息資源的利用也就成為一句空話,甚至會像搜索引擎一樣,查準率很低。所以,建議數字圖書館元數據方案的設計應面向專業(yè)編目人員。只有專業(yè)編目人員利用編目規(guī)則及書目控制等手段,才能夠提供具有較高質量的元數據。
3.4 數字圖書館元數據方案的設計中應考慮到其它技術運用
在數字圖書館建設的過程中,必然要涉及到許多技術,其中包括數據庫技術、全文檢索技術、開放式網絡詞表/分類技術、地理信息系統(tǒng)(GIS)等。在數字圖書館元數據方案的設計中,我們需要與這些技術進行銜接并加以應用。以聯(lián)合在線資源目錄(Cooperative Online Resource Catalog,簡稱CORC)為例加以說明。CORC是建立在網絡環(huán)境下的為本地或網絡電子資源創(chuàng)建書目元數據的系統(tǒng),是一種為電子資源編目的數據庫和工具包。CORC利用了網上杜威分類法數據庫,實現了編目過程中DDC號碼和主題標目自動分配。同時,CORC數據庫的軟件平臺采用Mantis,這是一種適用于任何元數據定義與界面的網絡資源編目系統(tǒng)工具箱。Mantis用XML存儲記錄,使得記錄的輸出非常容易,且有MARC、DC HTML和DC RDF、XML多種格式可供選擇。CORC的成功在于其能夠充分利用各種技術。因此,我國在數字圖書館元數據方案的設計過程中,也需要考慮其它技術的運用。
【參考文獻】
[1]CC:DA Task Force on metadata and Cataloging Rules:Final Report,August 21,1998[EB/OL].[2001—03—05]. http://www.ala.org/alcts/organization/ccs/ccda.
[2]真溱.矛盾重重的元數據世界[J].中國圖書館學報,2001,(6):56—59
【數字圖書館元數據方案設計問題探討】相關文章:
數字信息資源合理使用問題探討08-05
基于數字圖書館的電子商務模式探討08-05
高校圖書館地方文獻專題數據庫建設探討08-09
數據電文合同若干法律問題的探討08-05
GIS訪問網絡數據庫中若干技術問題的探討08-06
數字圖書館和有關著作權問題的思考08-05
對“債轉股”有關問題的探討08-07
“留置盤問”問題探討08-05
影響農村穩(wěn)定問題的探討08-12