ロンゴロンゴのtranscriptについて
コーパスは以下から収集
ロンゴロンゴ文字自体は牛耕式で書かれているが、逆方向で描かれる際は上下も反転するので、 Transliteration Systemに落としているこのコーパスではそのことは考えなくて良い。
絵文字(表意文字?)のようなもので記載されている。それぞれ、Thomas Barthel's Transliteration System
においては、絵文字を下記URLのようにそれぞれ数値と一対一対応している。
ロンゴロンゴ文字は、絵文字で記述されているが、単純に絵文字が並んでいるだけではなく、
絵文字に細かな装飾がついたり、複数の絵文字が結合して一文字となっている物が存在する。
文字につく細かな装飾についての記述。助詞的なもの?
Transliteration Systemでは、数値のsuffixとしてアルファベット文字が複数個付与されて表現される。
prefixを付与して表現する装飾も存在すると書かれているが、今回のコーパスでは見つけられなかった。
http://kohaumotu.org/rongorongo_org/corpus/combine.html
絵文字が横並びに並んでそれぞれがくっついているもの。
Transliteration Systemでは、それぞれ数値+suffixを一文字として、それを'.ピリオド'で結合して表現されている。
絵文字が縦並びにくっついているもの。これは2つの文字が縦に並んだものしか存在していない。
縦並びにくっついた文字が、他の文字と横並びに結合するものもある。
Transliteration Systemでは、それぞれ数値+suffixを一文字として、それを':コロン'で結合して表現されている。
2つの文字を横結合するにあたって、その間に小さな文字を介してつながっているもの。
基本的には左の文字に';セミコロン'を介して小さな文字の数字表現が結合されている。
この4つの装飾のパターンを以下に扱うかで複数のパターンで文字分割を行う。
ファイル | 総文字数 | 文字異なり数 | 一万文字あたりの文字異なり数 | 一万文字分の二次エントロピー |
rongorongo_word_line | 10376 | 3546 | 3456 | 8.297193 |
rongorongo_word_rsuffix | 10376 | 2183 | 2131 | 7.364558 |
rongorongo_word_rmerge | 10376 | 3543 | 3453 | 8.297057 |
rongorongo_word_split | 14009 | 2027 | 1538 | 6.607374 |
rongorongo_word_split_rsuffix | 14009 | 656 | 595 | 6.045674 |
rongorongo_word_split_fjstack | 13846 | 2115 | 1628 | 6.631920 |
rongorongo_word_split_fjmerge | 14003 | 2029 | 1538 | 6.607484 |
rongorongo_word_split_fjstack_fjmerge | 13840 | 2116 | 1629 | 6.631960 |
rongorongo_word_split_rmerge_fjstack | 13840 | 2112 | 1628 | 6.631917 |
rongorongo_word_split_rmerge | 14003 | 2025 | 1537 | 6.607441 |
rongorongo_word_split_rsuffix_fjmerge | 14003 | 662 | 597 | 6.046023 |
rongorongo_word_split_rsuffix_fjstack | 13846 | 755 | 680 | 6.067357 |
rongorongo_word_split_rsuffix_rmerge | 14003 | 656 | 595 | 6.045832 |
rongorongo_word_split_rsuffix_fjstack_fjmerge | 13840 | 761 | 683 | 6.067291 |