Muse の Unicode 対応についての履歴差分(No.2)

履歴一覧
現在との差分を表示
ソースを表示
履歴を表示
Muse の Unicode 対応についてへ行く。
- 1 (2014-03-15 (土) 01:43:01)
- 2 (2014-03-15 (土) 01:43:01)
- 3 (2015-06-19 (金) 08:01:54)
- 4 (2015-12-30 (水) 07:22:00)
- 5 (2016-07-18 (月) 03:12:30)
- 6 (2016-07-18 (月) 15:23:19)
- 7 (2018-09-29 (土) 10:42:36)
- 8 (2018-12-12 (水) 13:40:30)
- 9 (2020-02-06 (木) 10:19:47)
追加された行はこの色です。
削除された行はこの色です。
この記事の記述は、わかりやすさを正確さより優先している。より正確な記述は[[Unicode のウィキペディア記事:http://ja.wikipedia.org/wiki/Unicode]]、[[Unicode コンソーシアムの規格ページ (英語):http://www.unicode.org/versions/Unicode6.3.0/]]、[[ISO/IEC 10646 のウィキペディア記事:http://ja.wikipedia.org/wiki/ISO/IEC_10646]]、[[ISO/IEC 10646 規格書 (英語 PDF; ZIP):http://standards.iso.org/ittf/PubliclyAvailableStandards/c061712_ISO_IEC_10646_2012_Amd_1_2013.zip]] など((規格の URL はバージョン番号を含んでいるため、いずれはリンクが切れる。お気付きの方は更新願いたい。))を参照されたい。

Muse は、V6.60 で &ruby(ユニコード){Unicode}; に対応した。その意義は、テキスト領域に表示できる文字が大幅に増えたことにある。それより前のバージョンは、Muse データの文字コードがシフト JIS であることを前提としていた。シフト JIS の文字数は 1 万文字強であり、日本での使用を前提とした文字コードのため日本語の文字や日本での使用頻度が高い文字に偏っている。一方 Unicode はその約 10 倍 (ただし、それらの文字すべてを表せるシステムはなかなかない) の文字を持ち、世界中の文字を「&ruby(Uni){単一の};」コード体系に収めることを目標に規定されている。

Muse で Unicode を使えば、例として以下のようなテキスト表示ができる。

&ref(chien.png,nolink,画像が表示できません);

ソース: *HEAD "&#9136;&#9685;&#7461;&#9685;&#9137; 子犬のワルツ  ⌒ &#9685;&#7461;&#9696;&#9137;"

&ref(love.png,nolink,画像が表示できません);

ソース: *MARK "愛&#10084;のメモリー&#9825;&#9829;"

&ref(ame.png,nolink,画像が表示できません);

ソース: *TEXT "&#9730; あめ あめ ふれ ふれ かあさん が &#9833;♪"

&ref(skryabin.png,nolink,画像が表示できません);

ソース: *STOP "Skryabin (&#65470;&#3572;&#65470;) Prom&#233;th&#233;e―Le po&#232;me de feu"

なお、これらの表示は、Windows 7 上で「メイリオ」フォント (通常) を指定して得た。Windows の他のバージョンや、他のフォントでは一部の文字が上の通りに表示されないことがある。

また、Muse データに以下のようなコメントを書くこともできる。

&#9666;&#9656;で各楽章の頭出し
&#9666; &#9656; で各楽章の頭出し

&#9398;

;&#169;2014

これらも、フォント、Windows のバージョン、あるいはエディタによって正しく表示されないことがある。

Unicode には、歴史的な経緯から数種類の文字コードがあるが、V6.60 以降の Muse は、そのうち UTF-8 と UTF-16 (UTF-16LE および UTF-16BE) で書かれた Muse データを扱うことができる。シフト JIS のデータもそれまで通り扱える。どの文字コードで書かれているかを Muse が判断するために、Unicode の Muse データには BOM を付ける必要がある。

***Unicode の Muse ファイルを作るには [#j78dfed9]

主要なエディタのあまり古くないバージョンなら、編集するときに BOM 付 Unicode のどれかを指定したり、シフト JIS を読込んで BOM 付 Unicode のどれかで書込むことが可能だろう。→[[手順>ファイルの文字コード確認および Unicode ファイルの作成と変換のしかた]]

Unicode は、シフト JIS に比べて文字が増えた分、同じテキストを表現するデータサイズが一般に大きくなる。大抵の Muse データのように半角英数字が大半を占める場合、Unicode の中では UTF-8 のデータサイズが最も小さくなる。

あなたのパソコンでキーボードから入力できない文字は、[[Unicode 一覧のウィキペディア記事:http://ja.wikipedia.org/wiki/Unicode%E4%B8%80%E8%A6%A7_0000-0FFF]]などから探してコピー & ペーストで入力することができる。このとき、ブラウザ上やエディタ上では正しく表示されない文字でも、目的の文字のコードはファイルに書き込まれるので、適当なフォントを選べば Muse のテキストエリアには正しく表示される場合がある。逆に、同じ名前のフォントで表示しても Windows 7 では正しく表示されるが Windows XP では正しく表示されない場合もある。

***&aname(internal);初期設定ファイル (muse.ini) と履歴ファイル (muse.log) について [#ia46cf22]

Unicode 対応で Muse は内部処理の文字コードを全面的に UTF-16LE に置換えた。これに伴って V6.60 以降の Muse は初期設定ファイル (muse.ini) と履歴ファイル (muse.log) は UTF-16LE で生成するようになった。muse.exe と同一のフォルダにあるそれらのファイルが UTF-16LE 以外の場合、読込みも上書きもせず、別名で生成もしない。従ってこの場合、設定情報や履歴情報は起動時に反映せず、終了時にも保存されない。

***そもそも文字コードとは? [#j8479b21]

文字のコンピュータ内での表現。コンピュータ内ではすべてが数で表現されていて、文字も例外ではない。しかし、漢字や記号などには決まった順序があるわけではなく、文字と数字の間にはいろいろな対応関係がある。この対応関係の決め事のことを文字コードという。

たとえば、シフト JIS という文字コードでは ‘A’ という文字は 65 (10 進、以下同じ) に、‘あ’ は 130 160 に対応すると決められている。UTF-16LE では、‘A’ は 65 0、‘あ’ は 66 48 である。テキストファイルは、0 から 255 までの 256 (= 2^8) の数 (バイト) を並べて作るので、257 個以上の文字をもつ文字コードでは、1 つの文字に 2 バイト以上の数の並びを割当てる必要がある。

言うまでもなく、文字コードを間違えて、たとえばシフト JIS のファイルを UTF-16LE と思って読んだりすれば、大抵まともには読めず、いわゆる文字化けが起きる。

***UTF-8、UTF-16 の違いは? [#te6d5651]

文字の集合は Unicode で決まっているので、UTF-8 でも UTF-16 でも、ほかの Unicode の文字コードでも変わりはない。違いは、UTF-8 が 1 バイトを単位として文字コードを構成しているのに対して、UTF-16 は 2 バイト (2^16) を単位としていることである。UTF-8 は、0 から 127 までの英文文字はシフト JIS とほとんど同じであるが、和文文字は大抵 3 バイトである。シフト JIS は半角カタカナなら 1 バイト、それ以外の和文文字も 2 バイトで表現する。

UTF-16 は、単位としている 2 バイトの並びの順序 (「バイト順序」) を 2 通り取ることができる。たとえば、‘A’ を 65 0 と表すとしてもよいし、0 65 と表すとしてもよいが、後者の場合 ‘あ’ は 66 48 ではなく 48 66 にしなければならない。前者が UTF-16LE、後者が UTF-16BE と呼ばれる。末尾の LE、BE は、それぞれ「リトルエンディアン」、「ビッグエンディアン」((これらの呼び方は、「ガリバー旅行記」に登場する卵を尖った方から食べる主義の人々 (リトルエンディアン) と丸い方から食べる主義の人々 (ビッグエンディアン) に由来する。ここで「エンド」は「端」の意味なので、「リトルエンディアン」は「尖った方を最後 (エンド) に食べる人々」の方ではない。))の略である。

文字コードを間違えればまともに読めないということは、バイト順序についても変わりはない。同じ UTF-16 でも、リトルエンディアンのファイルをビッグエンディアン (あるいはその逆) と思って読んだりすれば、やはりまともには読めない。UTF-16LE で ‘A’ を表す 65 0 は、UTF-16BE と思って読むと ‘攀’ という、似ても似つかない文字になってしまう。

***BOM とは? [#j5f1ce24]

BOM((BYTE ORDER MARK (バイト順序の印) の略。Unicode のファイルの先頭に置かれたとき俗にこう呼ばれる。この文字の Unicode における正式な名前は ZERO WIDTH NO-BREAK SPACE で、UTF-16BE では 254 255)) はファイルの先頭でそのファイルの文字コードを示す 1 文字である。Unicode に対応した主要なエディタは、文字コードに応じて BOM を自動的に挿入 (そのための設定が必要なものもある) し、通常は画面に表示しない。

Unicode のどの文字コードでも、BOM の先頭のバイトはシフト JIS で先頭に現れることがないため、Unicode のファイルの先頭に BOM を置いておけば、そこを見るだけでシフト JIS と区別できる。さらに Unicode では BOM のバイト順を逆にした文字を定義しないことによって、BOM だけでバイト順序も区別できるようにしている。Muse もデータの文字コードの判別に BOM を利用している (このため、Unicode の Muse データには BOM が必要なのである)。
Muse の Unicode 対応について の履歴差分(No.2)

Muse の Unicode 対応についての履歴差分(No.2)