IIIF対応文字画像切り出しシステム「切り出しくん」の成果が公開されました

当研究所人文情報学研究部門の永崎主席研究員が開発した、IIIF対応文字画像切り出しシステム「切り出しくん」を用いて作成した切り出し文字データが、漢字字体規範史データセット(http://www.hng-data.org/ )に組み込まれました。

「切り出しくん」は、世界中で公開されているIIIF対応画像を読み込み、Web上で共同で文字画像の切り出しを行うためのシステムです。

 

f:id:dhii:20210114170846p:plain

 

すでに複数の研究プロジェクトにおいて活用されており、総計10万件以上の文字画像の切り出しが行われています。

このたび、国立国語研究所・京都大学人文科学研究所等の研究者により運営されている漢字字体規範史データセット保存会の依頼で、ある時代に規範的とみなし得る字体で構成されている文献として、フランス国立図書館が公開している敦煌写本のIIIF対応画像を対象とし文字の切り出しを行いました。その成果をまとめた上で、漢字字体規範史データセットに公開されました。

漢字字体規範史データセットは、漢字字体の規範についての歴史的変遷を明らかにするための基礎データとして、長年蓄積されてきました。
これは近年、研究の利便性を高めるとともにその関心の裾野を広げるべく、オープンサイエンスの潮流にあわせ、オープンデータとして公開されることになりました。人文情報学の課題としてもこのことは重要であり、当研究所が注力するIIIFを通じて一定の貢献を果たせたことはありがたいことでした。

また、このデータは、京都大学人文科学研究所の守岡知彦先生が開発・運用する文字情報サービス環境CHISE (http://chise.org/ )においても採用され、たとえば以下の「無」の用例を詳細表示すると、今回の切り出し画像そのものが閲覧できるようになっています。
漢字字体規範史データセット活用の一連としてご覧ください。

 

f:id:dhii:20210114170919p:plain

 

f:id:dhii:20210114170950p:plain