• 追加された行はこの色です。
  • 削除された行はこの色です。
ロンゴロンゴのtranscriptについて

コーパスは以下から収集

-http://kohaumotu.org/rongorongo_org/corpus/1.html

ロンゴロンゴ文字自体は牛耕式で書かれているが、逆方向で描かれる際は上下も反転するので、 Transliteration Systemに落としているこのコーパスではそのことは考えなくて良い。
*絵文字の詳細 [#q843a23b]

絵文字(表意文字?)のようなもので記載されている。それぞれ、Thomas Barthel's Transliteration System
絵文字(表意文字?)のようなもので記載されている。それぞれ、Thomas Barthel's Transliteration System~
においては、絵文字を下記URLのようにそれぞれ数値と一対一対応している。

-http://kohaumotu.org/rongorongo_org/corpus/codes.html
--http://kohaumotu.org/rongorongo_org/corpus/codes.html

*絵文字の装飾について [#za1360b0]

ロンゴロンゴ文字は、絵文字で記述されているが、単純に絵文字が並んでいるだけではなく、
ロンゴロンゴ文字は、絵文字で記述されているが、単純に絵文字が並んでいるだけではなく、~
絵文字に細かな装飾がついたり、複数の絵文字が結合して一文字となっている物が存在する。

**装飾(suffix) [#v1406f83]

--http://kohaumotu.org/rongorongo_org/corpus/affixes.html

文字につく細かな装飾についての記述。助詞的なもの?
文字につく細かな装飾についての記述。助詞的なもの?~
Transliteration Systemでは、数値のsuffixとしてアルファベット文字が複数個付与されて表現される。

prefixを付与して表現する装飾も存在すると書かれているが、今回のコーパスでは見つけられなかった。

**結合(複数の絵文字の結合) [#z4527205]

http://kohaumotu.org/rongorongo_org/corpus/combine.html

***横結合(Linking) [#de631b44]

絵文字が横並びに並んでそれぞれがくっついているもの。
絵文字が横並びに並んでそれぞれがくっついているもの。~
Transliteration Systemでは、それぞれ数値+suffixを一文字として、それを'.ピリオド'で結合して表現されている。

***縦結合(Stacking) [#p63195eb]

絵文字が縦並びにくっついているもの。これは2つの文字が縦に並んだものしか存在していない。
縦並びにくっついた文字が、他の文字と横並びに結合するものもある。
Transliteration Systemでは、それぞれ数値+suffixを一文字として、それを':コロン'で結合して表現されている。
絵文字が縦並びにくっついているもの。これは2つの文字が縦に並んだものしか存在していない。~
縦並びにくっついた文字が、他の文字と横並びに結合するものもある。~
Transliteration Systemでは、それぞれ数値+suffixを一文字として、それを':コロン'で結合して表現されている。~


***部分結合(Merging) [#b2d9730b]

2つの文字を横結合するにあたって、その間に小さな文字を介してつながっているもの。
2つの文字を横結合するにあたって、その間に小さな文字を介してつながっているもの。~
基本的には左の文字に';セミコロン'を介して小さな文字の数字表現が結合されている。


*データの作成 [#i8f04028]
この4つの装飾のパターンを以下に扱うかで複数の実験を行った。
この4つに関して、以下の5つの条件を
この4つの装飾のパターンを以下に扱うかで複数のパターンで文字分割を行う。

+suffixを除去するかどうか
+Mergingを削除するかどうか
+Linkingを分けるか否か
+Linkingを分けた上で、Stackingもわけるか否か
+Linkingを分けた上で、Mergingもわけるか否か

-分割スクリプト
--https://gist.github.com/shunsukeaihara/6448394

***詳細 [#ndccae60]
: rongorongo_word | 装飾や結合をそのまま一文字として扱う
: rongorongo_word_split | SuffixをそのままにLink, Stacking, Mergingを分解して別々の文字とする
: rongorongo_word_rsuffix | Suffixを取り除くが、結合はそのままにして一文字とする
: rongorongo_word_rmerge | SuffixをそのままにMergingの小さな文字を取り除く。結合はそのまま一文字に
: rongorongo_word_split_rsuffix | 文字結合を分けるがその際にSuffixを取り除く
: rongorongo_word_split_rmerge | 文字結合を分けるがその際にMergingの小さな文字を取り除く
: rongorongo_word_split_rsuffix_rmerge | 文字結合を分けるがSuffixとMargingの小さな文字両方を取り除く
: rongorongo_word_split_fjstack | 文字結合を分けるが縦結合はそのまま一文字として扱う
: rongorongo_word_split_fjmerge | 文字結合を分けるがMergingの小さな文字は結合したまま一文字として扱う
: rongorongo_word_split_fjstack_fjmerge |  文字結合を分けるが、縦結合とMergingの小さな文字は結合したまま一文字として扱う
: rongorongo_word_split_rmerge_fjstack |  文字列結合を分けるが、Mergingの小さな文字は削除し、縦結合は結合したまま一文字として扱う
: rongorongo_word_split_rsuffix_fjstack | 文字列結合を分けるが、Suffixは削除し、縦結合は結合したまま一文字として扱う
: rongorongo_word_split_rsuffix_fjmerge | 文字列結合を分けるが、Suffixは削除し、Mergingは結合したまま一文字として扱う
: rongorongo_word_split_rsuffix_fjstack_fjmerge | 文字列結合を分けるが、Suffixは削除し、Mergingと縦結合は結合したまま一文字として扱う


| ファイル | 総文字数 | 文字異なり数 | 一万文字あたりの文字異なり数 | 一万文字分の二次エントロピー |h
| rongorongo_word_line | 10376 | 3546 | 3456 | 8.297193 |
| rongorongo_word_rsuffix | 10376 | 2183 | 2131 | 7.364558 |
| rongorongo_word_rmerge | 10376 | 3543 | 3453| 8.297057 |
| rongorongo_word_split |  14009 | 2027 | 1538 | 6.607374 |
| rongorongo_word_split_rsuffix | 14009 | 656 | 595 | 6.045674 |
| rongorongo_word_split_fjstack | 13846 | 2115 | 1628 | 6.631920 |
| rongorongo_word_split_fjmerge | 14003 | 2029 | 1538 | 6.607484 |
| rongorongo_word_split_fjstack_fjmerge | 13840 | 2116 | 1629 | 6.631960 |
| rongorongo_word_split_rmerge_fjstack | 13840 | 2112 | 1628 | 6.631917 |
| rongorongo_word_split_rmerge | 14003 |  2025 | 1537 | 6.607441 |
| rongorongo_word_split_rsuffix_fjmerge | 14003 | 662 | 597 | 6.046023 |
| rongorongo_word_split_rsuffix_fjstack | 13846 | 755 | 680 | 6.067357 |
| rongorongo_word_split_rsuffix_rmerge | 14003 | 656 | 595 | 6.045832 |
| rongorongo_word_split_rsuffix_fjstack_fjmerge | 13840 | 761 | 683 | 6.067291 |


トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS