ロンゴロンゴのtranscriptについて

コーパスは以下から収集

ロンゴロンゴ文字自体は牛耕式で書かれているが、逆方向で描かれる際は上下も反転するので、 Transliteration Systemに落としているこのコーパスではそのことは考えなくて良い。

絵文字の詳細

絵文字(表意文字?)のようなもので記載されている。それぞれ、Thomas Barthel's Transliteration System
においては、絵文字を下記URLのようにそれぞれ数値と一対一対応している。

絵文字の装飾について

ロンゴロンゴ文字は、絵文字で記述されているが、単純に絵文字が並んでいるだけではなく、
絵文字に細かな装飾がついたり、複数の絵文字が結合して一文字となっている物が存在する。

装飾(suffix)

文字につく細かな装飾についての記述。助詞的なもの?
Transliteration Systemでは、数値のsuffixとしてアルファベット文字が複数個付与されて表現される。

prefixを付与して表現する装飾も存在すると書かれているが、今回のコーパスでは見つけられなかった。

結合(複数の絵文字の結合)

http://kohaumotu.org/rongorongo_org/corpus/combine.html

横結合(Linking)

絵文字が横並びに並んでそれぞれがくっついているもの。
Transliteration Systemでは、それぞれ数値+suffixを一文字として、それを'.ピリオド'で結合して表現されている。

縦結合(Stacking)

絵文字が縦並びにくっついているもの。これは2つの文字が縦に並んだものしか存在していない。
縦並びにくっついた文字が、他の文字と横並びに結合するものもある。
Transliteration Systemでは、それぞれ数値+suffixを一文字として、それを':コロン'で結合して表現されている。

部分結合(Merging)

2つの文字を横結合するにあたって、その間に小さな文字を介してつながっているもの。
基本的には左の文字に';セミコロン'を介して小さな文字の数字表現が結合されている。

データの作成

この4つの装飾のパターンを以下に扱うかで複数のパターンで文字分割を行う。

  1. suffixを除去するかどうか
  2. Mergingを削除するかどうか
  3. Linkingを分けるか否か
  4. Linkingを分けた上で、Stackingもわけるか否か
  5. Linkingを分けた上で、Mergingもわけるか否か

詳細

rongorongo_word
装飾や結合をそのまま一文字として扱う
rongorongo_word_split
SuffixをそのままにLink, Stacking, Mergingを分解して別々の文字とする
rongorongo_word_rsuffix
Suffixを取り除くが、結合はそのままにして一文字とする
rongorongo_word_rmerge
SuffixをそのままにMergingの小さな文字を取り除く。結合はそのまま一文字に
rongorongo_word_split_rsuffix
文字結合を分けるがその際にSuffixを取り除く
rongorongo_word_split_rmerge
文字結合を分けるがその際にMergingの小さな文字を取り除く
rongorongo_word_split_rsuffix_rmerge
文字結合を分けるがSuffixとMargingの小さな文字両方を取り除く
rongorongo_word_split_fjstack
文字結合を分けるが縦結合はそのまま一文字として扱う
rongorongo_word_split_fjmerge
文字結合を分けるがMergingの小さな文字は結合したまま一文字として扱う
rongorongo_word_split_fjstack_fjmerge
文字結合を分けるが、縦結合とMergingの小さな文字は結合したまま一文字として扱う
rongorongo_word_split_rmerge_fjstack
文字列結合を分けるが、Mergingの小さな文字は削除し、縦結合は結合したまま一文字として扱う
rongorongo_word_split_rsuffix_fjstack
文字列結合を分けるが、Suffixは削除し、縦結合は結合したまま一文字として扱う
rongorongo_word_split_rsuffix_fjmerge
文字列結合を分けるが、Suffixは削除し、Mergingは結合したまま一文字として扱う
rongorongo_word_split_rsuffix_fjstack_fjmerge
文字列結合を分けるが、Suffixは削除し、Mergingと縦結合は結合したまま一文字として扱う
ファイル総文字数文字異なり数一万文字あたりの文字異なり数一万文字分の二次エントロピー
rongorongo_word_line10376354634568.297193
rongorongo_word_rsuffix10376218321317.364558
rongorongo_word_rmerge10376354334538.297057
rongorongo_word_split14009202715386.607374
rongorongo_word_split_rsuffix140096565956.045674
rongorongo_word_split_fjstack13846211516286.631920
rongorongo_word_split_fjmerge14003202915386.607484
rongorongo_word_split_fjstack_fjmerge13840211616296.631960
rongorongo_word_split_rmerge_fjstack13840211216286.631917
rongorongo_word_split_rmerge14003202515376.607441
rongorongo_word_split_rsuffix_fjmerge140036625976.046023
rongorongo_word_split_rsuffix_fjstack138467556806.067357
rongorongo_word_split_rsuffix_rmerge140036565956.045832
rongorongo_word_split_rsuffix_fjstack_fjmerge138407616836.067291

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2013-09-05 (木) 19:21:34 (1445d)