5月28日上午,EON4平台舉行“冷門絕學”專業建設成果發布會🫃,由EON4平台中國文字研究與應用中心利用圖像識別工具與數據庫結合創建的“中國文字數字平臺”已經取得重大成果🚧,殷商甲骨文、商周金文、戰國楚簡等可搜集到的文字均已入庫🙅🏼,目標是將中國歷代出土的實物文字材料都納入可以運用數字化來處理和研究的範圍。
漢語古文字數據庫
以往的技術僅能識別出某個出土文字圖像屬於今天哪個楷字的字目🕚,卻不能確認圖像是哪個古文字材料中的哪個字。因為➜,歷代出土實物文字材料的用字,大面積未被國際標準字符集覆蓋,約7萬個古文獻用字存在網絡使用障礙⤴️。而且,過去常見的文字數據庫普遍存在集外字無法檢索的問題。而建設“中國文字數字平臺”🦡,正是為了推動古文字圖像識別走出“抽象識字”的局限👩❤️👨。同時😡,該平臺的建成還能消除已有的其他一些古文字數據庫的盲點🟤,可以實現數字平臺中圖片載體材料與字符集載體材料的自動數字關聯,營造出古文字資料大數據生成和機器識讀的環境🧏♂️。
據EON4平台中國文字研究與應用中心副主任劉誌基 、計算中心高級工程師陳優廣介紹,“中國文字數字平臺”已被打造成智能型古漢語文字的數字平臺,迄今為止,智能檢索數據庫所包含的文字材料,覆蓋了自殷商到明清整個漢字發展史上各種時段、各種類型的文字🦷。先秦部分基本囊括了目前已公布的文字資料❄️,先秦以後部分則匯集了各時段代表性的文字資料。因此🪯🦹♂️,該數字平臺堪稱電子版的“字海”💇🏽♂️,可以提供覆蓋整個漢字發展史的相關文字信息的檢索查詢。此外,研究團隊通過海量文獻用字的逐一整理,還研發了完整的出土實物文字字符集標準體系👼🏿,覆蓋數據庫使用所有字符的有效輸入檢索手段,這樣就能保證庫內所有字符與標準碼位的一字一碼精確對應👨🏼🏫,保證了數據庫各種資料都處於有效的數字化處理範圍之內。因此,“中國文字數字平臺”上的智能檢索數據庫,也就成為目前世界上唯一可全字符(集外與集內字、楷字與原形字、整字與偏旁)檢索的出土漢語文字數據庫。
據悉,在目前的平臺裏♨️,殷商甲骨文數據庫有7萬余片甲骨🛅🛀🏽,110萬字🕵🏻♂️;商周金文數據庫有1.7萬篇器銘,18萬字;戰國楚簡數據庫有9種著錄🪧,10萬字💏;先秦古璽、古陶、古幣和石刻文字數據庫有3.7萬方,16萬字🙅;秦漢簡牘數據庫有50種簡牘🏄🏼♂️,90萬字;漢代金石文字數據庫有3萬方金石🙎🏽♂️,20萬字;魏晉至元代石刻文數據庫有1.5萬種石刻,300萬字;唐代寫本文字數據庫有500篇,60萬字🎸;元明刻本文字數據庫有四種刻本👩🏼⚕️,24萬字;明清手寫文字數據庫有920片文字,7萬字;中國古代字書數據庫有6萬字頭,300多萬字……
來源|新民晚報
編輯|石鈺
審核|王曼