『日本語歴史コーパス』のための書籍活字の電子化 : 小学館新全集『今昔物語集』を事例として

  • 須永 哲矢
  • 堤 智昭
  • Tetsuya SUNAGA
  • Tomoaki TSUTSUMI
Open PDF
Publication date
November 2013
Publisher
国立国語研究所
Journal
issn:2186-1358

Abstract

国立国語研究所 コーパス開発センター 非常勤研究員(元)東京農工大学 博士課程[former] Adjunct Researcher, Center for Corpus Development, NINJALDoctoral Student, Tokyo University of Agriculture and Technology国立国語研究所で計画されている『日本語歴史コーパス』の構築にあたっては活字書籍化された古典資料のコーパス化を基本とし,その際には国内規格JIS X0213文字集合を用いて活字を電子化することが予定されている。本稿ではJIS X0213を古典資料の活字書籍に適用した場合の効果を検証するため,小学館新全集『今昔物語集』での漢字活字を調査し,のべ字数にして99.86%の活字がJIS X0213でカバーできることを明らかにし,JIS X0213の有効性を確認した。また,JIS X0213では表現できない活字に関しては,コーパスとしての利便性を鑑み,「〓」表示せずJIS X0213の範囲内の別字で代用しつつ,原資料での字形の情報を保持する方針を考案した。別字代用によりほぼ9割の外字は解消されるが,「〓」表示を完全になくすためには,文字レベルではなく,語の表記というレベルでの代用を考えなければならなくなる。末尾には小学館新全集『今昔物語集』で代用処理の対象となる特殊活字の一覧を付した。Digitizing characters not included in the standard set is an urgent problem for electronic corpora of historical documents. Such non-stand...

Extracted data

We use cookies to provide a better user experience.