首頁>要論>銳評 銳評
加強人文社科數據資源建設與管理
近年來,全球范圍內掀起一場新的數字革命,人類步入大數據時代。數據正在成為人類社會最重要的資源和資產。大數據給人類社會的各個方面都帶來了巨大變化,特別是在科研領域,大數據及其分析工具正在成為人類認識世界和改造世界的重要手段。然而,與自然科學領域相比,人文社科領域對數據資源的使用相對滯后。此前的社會科學研究雖然使用數據,但多數都是小規模抽樣數據,而非海量或全量數據。隨著社會數字化轉型不斷深入,數據資源在人文社科研究中的地位不斷提升,人文社科研究范式和研究問題發生變革。如何加強人文社科數據資源建設與規范管理,以適應科研數字化轉型這一趨勢,成為當下值得研究并解決的一大問題。
人文社科數據資源建設勃然興起
與文獻信息一樣,數據也是學術研究的基礎性資源。2009年以來,我國人文社科領域數據資源建設開始加速。人文社科類基金資助的數據資源建設類科研項目也開始直線增長。統計顯示,黨的十八大以來,與數據資源建設相關的國家社科基金重點和重大項目數量有了顯著增長。2017年,國家社科基金重大招標項目中,與數據資源建設有關的,數量更是可觀。這些項目主要集中在語言學、歷史學、文學、圖書情報學等學科,從地域看,主要集中于北京、上海、廣東、江蘇、浙江等地區。近兩年,在專題數據資源快速增長的同時,國內實力領先的研究型高校也紛紛開始建設人文社科數據中心或數據平臺,以支撐人文社科研究范式的創新與轉型,如清華大學中國經濟社會數據中心、北京大學開放研究數據平臺、復旦大學社會科學數據平臺等。
蓬勃發展的人文社科數據資源建設,昭示著我國人文社科領域的基礎研究環境和組織架構都在向數字化方向轉型,數據驅動的研究范式正在人文社科領域悄然興起。伴隨此范式的興起,人文社科領域的開放思維、計算思維、量化思維、協同思維也更加受到學者重視,由此推動了文學領域的大尺度宏觀研究、歷史領域的長程量化研究、藝術領域的視覺計算研究、文化領域的時空可視化研究等的出現。這些新興的研究課題都離不開強大的專題數據庫和計算平臺作保障。人文社科領域的可計算數據資源正伴隨數字人文和計算社會科學的發展而發揮著越來越大的學術價值。
諸多不足制約人文社科數據資源建設
數據庫建設過程不規范,系統平臺可用性不強。目前,很多人文社科數據資源建設都由重大科研項目驅動,有一定的項目實施周期。在現有學術評價體系下,傳統的印刷出版物,如專著和論文,是科研成果的首選形式,所以在項目實施過程中,學術研究是核心,這就導致項目團隊以項目結題為目標,不太重視數據庫建設的規范性和長期性。很多數據庫系統選型落后,數據服務平臺功能單一,檢索效率低下,不支持機器讀取和原始下載,系統平臺整體上可用性較差,難以滿足項目之外用戶的實用性需求。
數據資源質量控制不嚴格,內容可信性較弱。與自然科學類數據相比,人文社科類數據的生命周期較長,史料價值突出,后世使用概率高,所以質量要求更高。然而,由于人文社科領域數據來源廣泛,既包括互聯網上的用戶行為數據,又包括結構化行業統計數據,還有從傳統書報刊中抽取的非結構化文本片段,數據模型的差異極大。在數據庫設計過程中,由于懂專業領域又懂數據庫設計的復合型人才稀少,很多專題數據庫的結構設計相當隨意,結構十分不規范,常常不合乎數據庫設計范式要求。在數據庫內容采集過程中,往往也缺少質量控制標準和規范,導致數據內容的可信性與可靠性得不到保障。
數據發布標準不統一,流通共享成本高。數據的自由流通和共建共享是發揮數據資源價值的關鍵。目前,人文社科數據資源主要由各領域的學術機構自主分散建設,缺乏像圖書館聯盟一樣的第三方機構進行技術協調。建成以后的數據庫在互聯網上也是自由發布,標準不一,普遍缺乏便于機器讀取和交互操作的數據接口。用戶無法查看其詳細的數據結構,更無法通過關聯數據的方式相互共享鏈接,由此導致數據難以跨域流通和自動匯聚,語義數據網絡也無法通過自動勾連的方式構建和使用。
關鍵數據資源缺乏界定,數據主權難有保障。隨著大數據、物聯網和數字中國建設的推進,人文社科領域的數據資源將逐漸從調查獲取和人為發布向感知獲取與自動發布轉換,例如社交媒體數據、金融系統數據、用戶隱私數據、商品流通數據等都可以借助網絡媒體系統、電子政務系統、電子商務系統,以及日益強大的智慧城市基礎運營設施自動獲取。這些數據資源中有些屬于“關鍵數據資源”,不僅涉及個人隱私,對于國家數據主權和國家總體安全也有潛在影響,不能隨意流通和跨境傳輸。目前,人文社科領域還沒有針對“關鍵數據資源”的清晰定義,但其潛在安全問題正隨著數據資源的快速增長而浮現,有必要未雨綢繆、厘清概念。
提升人文社科數據資源管理規范性的對策建議
發布數據資源建設規范,指導數據資源建設過程。數據資源建設類似于軟件開發,過程控制是關鍵。有必要研究并發布人文社科數據資源建設規范,包括數據資源分類與格式規范、數據資源建設機構資質要求、數據庫系統選型要求、內容維護規范和網絡發布標準等內容,對人文社科各領域專題數據庫和數據平臺建設進行全流程指導。
建立數據資源評估標準,保障數據內容質量。對不同領域和不同類型的數據資源制定詳細的評估標準,核心是質量評估和價值評估。對不同形式的數據資源進行專家與機器相結合的、傳統科學計量與新興網絡計量相結合的評估。將評估結果作為各類數據資源建設項目資助、實施和驗收的必要條件,保障人文社科數據資源高質量建設與運營。
探索數據資源長效維護機制,實現數據服務可持續發展。鑒于數據資源運營的高成本特征,有必要探索建立學術機構與出版機構、圖書館機構、數據服務公司聯合運營與維護的長效合作機制,通過政府資助、商業銷售、托管服務等多種手段實現人文社科數據資源的可持續發展與運營,避免數據資源因為有建設、無服務而“曇花一現”。
建立數據資源管理聯盟,促進數據資源開放共享。參照中國高等教育文獻保障系統(CALIS),建立數據資源管理聯盟。以“智慧數據”的理念,開展數據模型技術研究、數據模型技術應用宣傳和培訓。鼓勵數據資源建設主體利用開放關聯數據、知識圖譜、簡單知識組織系統等新興語義技術和標準進行數據資源的語義化和關聯化發布,整體上提升人文社科數據資源的智慧層次和開放共享水平。
設立數據資源建設專項基金,加大數據資源資助力度。設立國家級、省部級的人文社科數據資源建設專項基金,通過穩定的項目資金支持,提高人文社科數據資源供給水平。在政府相關部門設立專門的全國高校數據資源管理辦公室,統籌管理人文社科數據資源建設。
建立數據匯交制度,構建全國統一的人文社科數據資源門戶。將公開發布的數據庫視為一種正式出版物,建立數據匯交制度和全國統一的人文社科數據資源門戶,定期采集各數據庫目錄數據或原始數據,并進行評估和長期保存。開展數據資源和數據分析工具的應用培訓和宣傳,推動人文社科領域數據驅動的研究范式發展。
建立“關鍵數據資源”管控機制,提高數據主權意識。參照出版領域的重大選題審批制度,對有重大社會影響的“關鍵數據資源”,如哲學、政治、經濟、歷史、法律等領域的特定主題數據建立分類、公示、審批與審讀制度。對“關鍵數據資源”的流通實施白名單管理,嚴格控制“關鍵數據資源”的跨境流通,保障我國的數據主權安全。
編輯:李敏杰
關鍵詞:數據 資源 社科 人文 建設