簡牘是中國古代重要記錄媒介,因材料脆弱及埋藏環境影響,字符模糊、缺損、布局復雜,人工識別困難。現有文獻數字化技術在甲骨文等領域取得突破,但在簡牘字符識別方面缺乏高質量數據集,限制了深度學習應用。
近日,西北師范大學聯合甘肅簡牘博物館推出國際首個面向深度學習任務的簡牘字符檢測與識別大規模數據集——DeepJiandu數據集,這標志著簡牘智能計算研究取得重要進展,為簡牘文獻的智能研究與保護提供基礎,推動數字人文領域的創新與發展。該工作由西北師范大學簡牘研究院、甘肅省簡牘智能計算與數字人文工程研究中心張強教授團隊具體開展,上海中西書局、甘肅文化出版社提供相關數據資源,西南大學參與數據驗證試驗工作,本研究相關論文發表于國際期刊《科學數據》。
DeepJiandu數據集包含7,416張圖像,標注99,852個字符,涵蓋2,242個類別。團隊結合簡牘專家釋文成果對圖像進行字符標注,數據集充分考慮了簡牘字符的殘損、異形字、多種布局等復雜場景,具備良好的深度學習適應性,可廣泛支持目標檢測與字符識別等模型的訓練和評估。
據了解,數據集整合了紅外掃描圖像,顯著增強墨跡清晰度,提高字符對比度,使殘損文字更清晰。標注工作由簡牘學與計算機專家協作完成,確保專業性和準確性,為推動簡牘文獻的機器可讀性與自動化處理奠定基礎。
為保證科學性,數據集按8:1:1比例分為訓練集、驗證集和測試集。字符類別統計顯示,盡管尺寸差異大,數據集仍為多尺度目標檢測任務提供良好支持。團隊在數據集上測試多種主流字符檢測與識別模型,結果表明數據集能有效支持相關任務。現有模型在字符模糊、殘缺、長尾分布等挑戰下仍有優化空間,DeepJiandu將為簡牘文字智能識別提供有力支撐,推動人工智能在簡牘文獻解析中的深入應用。
DeepJiandu數據集的發布填補了歷史文獻數字化與人工智能結合的空白,提升考古學者對簡牘文獻的解讀效率,為歷史文獻OCR技術突破提供數據資源,推動文博機構數字化轉型,為多模態文化遺產保護提供技術路徑。該數據集不僅是一項數據工程,更是連接傳統古籍與現代智能技術的橋梁。
隨著數據集推廣,預計將吸引更多深度學習和計算機視覺領域研究者加入簡牘OCR研究,推動人工智能在歷史文獻解析、文化遺產保護等多學科交叉領域的應用。未來,團隊將繼續優化數據集,探索前沿技術,為數字人文研究提供技術支持。團隊還在積極推進簡牘圖像融合、殘斷簡綴合、書寫風格識別和簡牘大模型等方向研究,進一步拓展簡牘智能技術研究邊界。
目前,DeepJiandu數據集已開源,研究人員可通過以下鏈接獲取:
數據集下載:https://www.scidb.cn/en/detail?dataSetId=7f627b99d06e4430a5e5d21b20614b46
相關論文信息:https://doi.org/10.1038/s41597-025-04716-3