ページの先頭です。本文を読み飛ばして、このサイトのメニューなどを読む

ログイン

サイト内検索

お問い合わせ

サイト内の現在位置です:

TOP  >  Wiki  >  ケンブリッジ変換 のバックアップの現在との差分(No.2)
2: 2009-05-16 (土) 14:13:00 taked2 ソース 現: 2009-06-05 (金) 07:36:32 taked2 ソース
Line 1: Line 1:
 +#freeze
* ケンブリッジ変換 [#jc83ae58] * ケンブリッジ変換 [#jc83ae58]
RIGHT:&tag(言語); RIGHT:&tag(言語);
Line 41: Line 42:
http://gimpo.2ch.net/test/read.cgi/news2/1242310992/222 http://gimpo.2ch.net/test/read.cgi/news2/1242310992/222
-** 日本語の場合の変換ルールについて [#hc772837]+** 日本語の変換ルールについて [#hc772837]
-- 英語の場合は単語ごとにスペースで区切られているから文章の区切りが明白である。日本語の場合は、漢字、ひらがな、カタカナ、数字、アルファベットといった文字種の多さに加え、文節の区切りがあいまいであるため、まずきちんとした文節解析を行う必要がある。+- 英語の場合は単語ごとにスペースで区切られているから言葉の区切りが明白である。日本語の場合は、漢字、ひらがな、カタカナ、数字、アルファベットといった文字種の多さに加え、膠着語であるため言葉の区切りがあいまいである。まずきちんとした文節解析を行う必要がある。
- 四字熟語は真ん中の2つを入れ替えるのが一般的。 - 四字熟語は真ん中の2つを入れ替えるのが一般的。
 +- 漢字は表意文字であるため文字というより絵に近い。そのため二字熟語を反転しても意味が通じる場合がある。
 +- 日本語は膠着語なので助詞によって単語が連結されている。そのため、漢字+助詞を一単位にするほうが自然である。
 +- 「」、””など括弧でくくられた単語はその中を一単位にする。
 +- カタカナの単語はそれだけで独立していることが多い。通常は他の文字種と混ぜないほうがよい。
 +- 一度に目で認識しているのは5~6文字(最高でも10文字程度)である。
 +- 漢字直前の「お」「ご」、漢字直後の「が」「の」「は」「で」「に」「を」「も」はターミネーターになる可能性が高い。
 +- ひらがなは表音文字であるため、先頭以外の漢字を適度にひらがなに直すとシャッフル度が上がる。


トップ   差分 バックアップ 複製 名前変更 リロード   ページ新規作成 全ページ一覧 単語検索 最新ページの一覧   ヘルプ   最新ページのRSS 1.0 最新ページのRSS 2.0 最新ページのRSS Atom
Counter: 6504, today: 2, yesterday: 2

ページの終端です。ページの先頭に戻る