ロンゴロンゴのtranscriptについて コーパスは以下から収集 -http://kohaumotu.org/rongorongo_org/corpus/1.html ロンゴロンゴ文字自体は牛耕式で書かれているが、逆方向で描かれる際は上下も反転するので、 Transliteration Systemに落としているこのコーパスではそのことは考えなくて良い。 *絵文字の詳細 [#q843a23b] 絵文字(表意文字?)のようなもので記載されている。それぞれ、Thomas Barthel's Transliteration System~ においては、絵文字を下記URLのようにそれぞれ数値と一対一対応している。 --http://kohaumotu.org/rongorongo_org/corpus/codes.html *絵文字の装飾について [#za1360b0] ロンゴロンゴ文字は、絵文字で記述されているが、単純に絵文字が並んでいるだけではなく、~ 絵文字に細かな装飾がついたり、複数の絵文字が結合して一文字となっている物が存在する。 **装飾(suffix) [#v1406f83] --http://kohaumotu.org/rongorongo_org/corpus/affixes.html 文字につく細かな装飾についての記述。助詞的なもの?~ Transliteration Systemでは、数値のsuffixとしてアルファベット文字が複数個付与されて表現される。 prefixを付与して表現する装飾も存在すると書かれているが、今回のコーパスでは見つけられなかった。 **結合(複数の絵文字の結合) [#z4527205] http://kohaumotu.org/rongorongo_org/corpus/combine.html ***横結合(Linking) [#de631b44] 絵文字が横並びに並んでそれぞれがくっついているもの。~ Transliteration Systemでは、それぞれ数値+suffixを一文字として、それを'.ピリオド'で結合して表現されている。 ***縦結合(Stacking) [#p63195eb] 絵文字が縦並びにくっついているもの。これは2つの文字が縦に並んだものしか存在していない。~ 縦並びにくっついた文字が、他の文字と横並びに結合するものもある。~ Transliteration Systemでは、それぞれ数値+suffixを一文字として、それを':コロン'で結合して表現されている。~ ***部分結合(Merging) [#b2d9730b] 2つの文字を横結合するにあたって、その間に小さな文字を介してつながっているもの。~ 基本的には左の文字に';セミコロン'を介して小さな文字の数字表現が結合されている。 *データの作成 [#i8f04028] この4つの装飾のパターンを以下に扱うかで複数のパターンで文字分割を行う。 +suffixを除去するかどうか +Mergingを削除するかどうか +Linkingを分けるか否か +Linkingを分けた上で、Stackingもわけるか否か +Linkingを分けた上で、Mergingもわけるか否か -分割スクリプト --https://gist.github.com/shunsukeaihara/6448394 ***詳細 [#ndccae60] : rongorongo_word | 装飾や結合をそのまま一文字として扱う : rongorongo_word_split | SuffixをそのままにLink, Stacking, Mergingを分解して別々の文字とする : rongorongo_word_rsuffix | Suffixを取り除くが、結合はそのままにして一文字とする : rongorongo_word_rmerge | SuffixをそのままにMergingの小さな文字を取り除く。結合はそのまま一文字に : rongorongo_word_split_rsuffix | 文字結合を分けるがその際にSuffixを取り除く : rongorongo_word_split_rmerge | 文字結合を分けるがその際にMergingの小さな文字を取り除く : rongorongo_word_split_rsuffix_rmerge | 文字結合を分けるがSuffixとMargingの小さな文字両方を取り除く : rongorongo_word_split_fjstack | 文字結合を分けるが縦結合はそのまま一文字として扱う : rongorongo_word_split_fjmerge | 文字結合を分けるがMergingの小さな文字は結合したまま一文字として扱う : rongorongo_word_split_fjstack_fjmerge | 文字結合を分けるが、縦結合とMergingの小さな文字は結合したまま一文字として扱う : rongorongo_word_split_rmerge_fjstack | 文字列結合を分けるが、Mergingの小さな文字は削除し、縦結合は結合したまま一文字として扱う : rongorongo_word_split_rsuffix_fjstack | 文字列結合を分けるが、Suffixは削除し、縦結合は結合したまま一文字として扱う : rongorongo_word_split_rsuffix_fjmerge | 文字列結合を分けるが、Suffixは削除し、Mergingは結合したまま一文字として扱う : rongorongo_word_split_rsuffix_fjstack_fjmerge | 文字列結合を分けるが、Suffixは削除し、Mergingと縦結合は結合したまま一文字として扱う | ファイル | 総文字数 | 文字異なり数 | 一万文字あたりの文字異なり数 | 一万文字分の二次エントロピー |h | rongorongo_word_line | 10376 | 3546 | 3456 | 8.297193 | | rongorongo_word_rsuffix | 10376 | 2183 | 2131 | 7.364558 | | rongorongo_word_rmerge | 10376 | 3543 | 3453| 8.297057 | | rongorongo_word_split | 14009 | 2027 | 1538 | 6.607374 | | rongorongo_word_split_rsuffix | 14009 | 656 | 595 | 6.045674 | | rongorongo_word_split_fjstack | 13846 | 2115 | 1628 | 6.631920 | | rongorongo_word_split_fjmerge | 14003 | 2029 | 1538 | 6.607484 | | rongorongo_word_split_fjstack_fjmerge | 13840 | 2116 | 1629 | 6.631960 | | rongorongo_word_split_rmerge_fjstack | 13840 | 2112 | 1628 | 6.631917 | | rongorongo_word_split_rmerge | 14003 | 2025 | 1537 | 6.607441 | | rongorongo_word_split_rsuffix_fjmerge | 14003 | 662 | 597 | 6.046023 | | rongorongo_word_split_rsuffix_fjstack | 13846 | 755 | 680 | 6.067357 | | rongorongo_word_split_rsuffix_rmerge | 14003 | 656 | 595 | 6.045832 | | rongorongo_word_split_rsuffix_fjstack_fjmerge | 13840 | 761 | 683 | 6.067291 |