日文文書処理

文字(もじ)コードについて

文字(もじ)コードとは

例:「憂」←→6182/「鬱」←→9B31

わたしたちが使(つか)っているコンピュータでは、さまざまな文字(もじ)利用(りよう)することができる。これは、ひとつひとつの文字(もじ)固有(こゆう)数値(すうち)()()てられているからである。コンピュータは、文字(もじ)数値(すうち)()()えて処理(しょり)しているのである。

しかし、文字(もじ)数値(すうち)対応(たいおう)一定(いっていの)のルールがなければ、コンピュータの(あいだ)で、データの共有(きょうゆう)ができなくなってしまう。そのために、文字(もじ)数値(すうち)対応(たいおう)(さだ)めたきまりが、文字(もじ)コードcharacter codeである(文字(もじ)コード体系(たいけい)ともいう)。

文字(もじ)コードcharacter code
ひとつひとつの文字(もじ)への数値(すうち)()()てを(さだ)めたきまりのこと

また、文字(もじ)コードは、文字(もじ)セットcharacter set文字(もじ)符号化方式(ふごうかほうしき)character encoding()()わせであるといえる。

文字(もじ)セット

文字(もじ)コードは、アルファベット、漢字(かんじ)、ハングルなど、特定(とくてい)文字(もじ)のまとまりに(たい)して(さだ)められている。たとえば、ASCII(アスキー)US-ASCII)は、アルファベットへの数値(すうち)()()(かた)(さだ)めたものである

特定(とくてい)文字(もじ)のまとまりに(たい)する文字(もじ)数値(すうち)対応(たいおう)を、文字(もじ)セットcharacter setという(文字(もじ)集合(しゅうごう)符号化(ふごうか)文字(もじ)集合(しゅうごう)、キャラクターセットともいう)。

一般(いっぱん)に、文字(もじ)セットは、日本語(にほんご)使(つか)われる文字(もじ)文字(もじ)セット、中国語(ちゅうごくご)使(つか)われる文字(もじ)文字(もじ)セットのように、言語(げんご)ごとに(つく)られている。

文字(もじ)符号化方式(ふごうかほうしき)

文字(もじ)コードでは、文字(もじ)(たい)する数値(すうち)()()(かた)規則(きそく)原理(げんり))が必要(ひつよう)である。この規則(きそく)文字(もじ)符号化方式(ふごうかほうしき)character encoding (scheme)という(文字(もじ)エンコーディングともいう)。

たとえば、EUCUTF-8などは、文字(もじ)符号化方式(ふごうかほうしき)(しめ)したものである。

文字(もじ)セットと文字(もじ)符号化方式(ふごうかほうしき)

文字(もじ)セットと文字(もじ)符号化方式(ふごうかほうしき)()()わせが、文字(もじ)コードである。

ただし、「文字(もじ)コード」の名前(なまえ)()(かた))は、「文字(もじ)符号化方式(ふごうかほうしき)」と区別(くべつ)されないことも(おお)い。また、「文字(もじ)コード」という()が、「文字(もじ)セット」と(おな)意味(いみ)使(つか)われたり、「文字(もじ)符号化方式(ふごうかほうしき)」と(おな)意味(いみ)使(つか)われることもあるので、注意(ちゅうい)必要(ひつよう)である。

文字コードの呼び方の例
言語文字セット文字符号化方式文字コードの呼び方
*JIS X 0208を米MicroSoft社が独自に拡張したもの(IBM拡張文字とNEC特殊文字が含まれる)
日本語JIS X 0208
JIS X 0213
ISO-2022-JPJISコード(JIS漢字)
Shift_JISシフトJIS(SJIS)
EUC日本語EUC(EUC-JP)
Microsoft漢字*Shift_JISWindows-31J(MS漢字コード、CP932、MS932)
多言語ISO/IEC 10646UTF-8Unicode(ユニコード)
UTF-16
繁体字中国語Big5Big5Big5
CNS 1164EUC繁体字中国語EUC(EUC-TW)
簡体字中国語GB 2312EUC簡体字中国語EUC(EUC-CN)
英語ASCIIASCIIASCII(アスキーコード)

日本語(にほんご)文字(もじ)コード

日本語(にほんご)文字(もじ)コードには、(おも)(つぎ)の3種類(しゅるい)のものがある。

1. JISコード(ジス・コード)
主に、電子メールで使われる。
2. シフトJIS(シフト・ジス)
主に、パソコンで使われる。また、日本語のウェブページでも多く用いられる。
3. 日本語EUC(にほんご・イーユーシー)
主に、UNIXで使われる。日本語のウェブページにも用いられる。

文字化(もじば)けについて

文字化(もじば)けとは

ひらがなや漢字(かんじ)意味不明(いみふめい)文字(もじ)記号(きごう)()わってしまうことを文字化(もじば)けという。

文字化(もじば)けの(おも)理由(りゆう)は、(つぎ)のようなものである。

  1. 本来(ほんらい)のものとは(べつ)文字(もじ)コードで()()んだ
  2. データからの情報(じょうほう)一部(いちぶ)欠落(けつらく)してしまった
  3. 文書(ぶんしょ)(なか)に「機種依存文字(きしゅいぞんもじ)」を使用(しよう)している
  4. 適切(てきせつ)なフォントがインストールされていない

(べつ)文字(もじ)コードでの()()

(おお)くの場合(ばあい)文字(もじ)コードは、コンピュータ(ソフトウェア)が適切(てきせつ)設定(せってい)変換(へんかん))するので、あまり()にする必要(ひつよう)はない。

しかし、(なに)かの理由(りゆう)で、本来(ほんらい)のものとは(べつ)文字(もじ)コードで()()んでしまうと、意味不明(いみふめい)文字(もじ)記号(きごう)表示(ひょうじ)されることになる(文字化(もじば)け)。これは、(おも)(つぎ)のような場合(ばあい)()きる。

  1. テキストファイルを"Windows Notepad"(記事本)などのアプリケーションソフトで(ひら)くとき
  2. ウェブページを"Internet Explorer"などのウェブブラウザで表示(ひょうじ)するとき

テキストファイルの場合(ばあい)

たとえば、MicroSoft Windowsでは、テキストファイルのアイコンをダブルクリックすると"Windows Notepad"(記事本)で(ひら)くようになっている。しかし、"Windows Notepad"(記事本)が判別(はんべつ)できる文字(もじ)コードは(おお)くない。そのため、システムと(こと)なる言語(げんご)文書(げんご)などはうまく(ひら)けないことも(すく)なくない。

そのような場合(ばあい)は、文字(もじ)コードの変換(へんかん)ソフト(コンバータ)を利用(りよう)するか、(べつ)のアプリケーションで(ひら)必要(ひつよう)がある。たとえば、"Microsoft Word"ならば、"Windows Notepad"が(ひら)けないファイルもうまく(ひら)けるかもしれない。

Windows NotePadで開くと文字化けするテキストファイルも
右クリックから"Microsoft Word"で開くと正しく開ける

なお、すべての文字(もじ)コードの(あいだ)互換性(ごかんせい)があるわけではないので、文字(もじ)コードの変換(へんかん)ソフト(コンバータ)を利用(りよう)するときには注意(ちゅうい)必要(ひつよう)である。

また、(こと)なるOSでテキストファイルを交換(こうかん)したとき、改行(かいぎょう)コードの問題(もんだい)(しょう)じることがある。たとえば、MS WindowsとMacintoshでテキストファイルを交換(こうかん)したときには、MS WindowsではMacintoshのテキストファイルの(ぎょう)がつながって()え、MacintoshではMS Windowsのテキストファイルの(ぎょう)二重(にじゅう)改行(かいぎょう)されて()える(ことがある)。

もとのテキスト

行く川の流れは絶えずして、しかももとの水にあらず。
よどみに浮ぶうたかたは、かつ消えかつ結びて、久しく止とゞまりたる例なし。
世の中にある人と住家と、またかくの如し。

MS Windows → Macintosh

行く川の流れは絶えずして、しかももとの水にあらず。
よどみに浮ぶうたかたは、かつ消えかつ結びて、久しく止とゞまりたる例なし。
世の中にある人と住家と、またかくの如し。

Macintosh → MS Windows

行く川の流れは絶えずして、しかももとの水にあらず。よどみに浮ぶうたかたは、かつ消えかつ結びて、久しく止とゞまりたる例なし。世の中にある人と住家と、またかくの如し。

この場合(ばあい)も、文字(もじ)コードの変換(へんかん)ソフト(コンバータ)を利用(りよう)するか、(べつ)のアプリケーションで(ひら)必要(ひつよう)がある。たとえば、MS Windowsならば、"Microsoft Word"を使(つか)えば、Macintoshのテキストファイルも(ただ)しく(ひら)くことができる(はずである)。

ウェブページの場合(ばあい)

たとえば、「日本語(にほんご)EUC」のウェブページを「シフトJIS」として(ひら)いてしまうと、意味不明(いみふめい)文字(もじ)記号(きごう)表示(ひょうじ)されるだけである。

ウェブページの文字化け

これは、

  1. "Internet Explorer"などのウェブブラウザが、文字(もじ)コードの判別(はんべつ)(あやま)った場合(ばあい)
  2. ウェブページやサーバが指定(してい)する文字(もじ)コードが実際(じっさい)のページの文字(もじ)コードと(こと)なる場合(ばあい)

()きる。

このときには、ウェブブラウザの文字(もじ)コードの設定(せってい)(ただ)しく変更(へんこう)する必要(ひつよう)がある。

ブラウザでの文字コードの設定の例(Internet Explorer中文版)

また、"Internet Explorer"(中文版)では、「自動判別(じどうはんべつ)」の設定(せってい)になっているとき、文字(もじ)コードがUTF-8の日本語(にほんご)ページを(ひら)こうとすると空白(くうはく)のページが表示(ひょうじ)される(なに)表示(ひょうじ)されない)ことがある。このときも、ウェブブラウザの文字(もじ)コードの設定(せってい)(ただ)しく変更(へんこう)する必要(ひつよう)がある。

データの欠落(けつらく)

(おも)に、日本語(にほんご)電子(でんし)メールに使(つか)われるのは、JISコード(ISO-2022-JP)である最近(さいきん)では、Unicodeも普及(ふきゅう)してきている)(おお)くのメールソフトでは、日本語(にほんご)電子(でんし)メールの送信時(そうしんじ)自動的(じどうてき)にJISコードに変換(へんかん)されるようになっている。これは、シフトJISやEUC-JPが8bitのエンコードであるのに(たい)して、JISコードが7bitのエンコードだからである。

電子(でんし)メールは、英語(えいご)中心(ちゅうしん)発展(はってん)したことから、7bitのエンコードが標準(ひょうじゅん)となっていた。現在(げんざい)でも、メールサーバmail server(なか)には、7bitのコードしか適切(てきせつ)処理(しょり)しないものがある。そのため、メールに8bitのコードを使(つか)うと、電子(でんし)メールからデータの一部(いちぶ)欠落(けつらく)してしまうことがある。

電子メールの文字化け

メール送信時(そうしんじ)設定(せってい)などによって、シフトJISやEUC-JPでメールを(おく)った場合(ばあい)には、文字化(もじば)けするデータの欠落(けつらく)によって可能性(かのうせい)がある。データの欠落(けつらく)による文字化(もじば)けは、復元(ふくげん)困難(こんなん)である。電子(でんし)メールが文字化(もじば)けして、どうしても()めないときには、もう一度(いちど)メールを(おく)ってもらうしかない(送信時(そうしんじ)設定(せってい)確認(かくにん)してもらった(ほう)がよい。本文(ほんぶん)添付(てんぷ)ファイルで(おく)りなおしてもらう方法(ほうほう)もある)。

また、電子(でんし)メールの文字化(もじば)けは、メール送信時(そうしんじ)のコード変換(へんかん)のエラーなどによっても()きる。この場合(ばあい)も、復元(ふくげん)困難(こんなん)なので、もう一度(いちど)メールを(おく)ってもらうことになる。

機種依存文字(きしゅいぞんもじ)

シフトJISでの機種依存文字の例

特定(とくてい)のコンピュータやOSでしか表示(ひょうじ)できない文字(もじ)を「機種依存文字(きしゅいぞんもじ)」という。

どの文字(もじ)機種依存文字(きしゅいぞんもじ)かは、使用(しよう)する文字(もじ)コードによって(こと)なる。(たと)えば、シフトJISでは、丸囲(まるがこ)数字(すうじ)やローマ数字(すうじ)機種依存文字(きしゅいぞんもじ)であり、(こと)なる環境(かんきょう)では文字化(もじば)けする。ただし、Unicodeでは、丸囲(まるがこ)数字(すうじ)やローマ数字(すうじ)機種依存文字(きしゅいぞんもじ)ではない。

テキストに機種依存文字(きしゅいぞんもじ)使(つか)われている場合(ばあい)は、(こと)なる環境(かんきょう)表示(ひょうじ)したときに、(かなら)文字化(もじば)けする。また、機種依存文字(きしゅいぞんもじ)表示(ひょうじ)は、フォントによっても(こと)なるので、(おな)じOSでも表示(ひょうじ)()わってしまうことがある。そのため、テキストに機種依存文字(きしゅいぞんもじ)(ふく)まれないようにした(ほう)がよいだろう。

いわゆる「半角(はんかく)カナ」(1バイトのかな文字(もじ))は、文字化(もじば)けの原因(げんいん)となることがあるので、電子(でんし)メールでは、できるだけ使(つか)わない(ほう)がよい。また、半角(はんかく)カナは、RTFなどの()()しでも、問題(もんだい)となることがある。

適切(てきせつ)なフォント

各国語フォントによる文字の形の違い

日本語(にほんご)中国語(ちゅうごくご)韓国語(かんこくご)などの()アルファベット言語(げんご)では、それぞれの言語(げんご)のフォントがインストールされていないと、文字(もじ)(ただ)しく表示(ひょうじ)することができない。たとえば、繁体字中国語(はんたいじちゅうごくご)のフォントがインストールされていない環境(かんきょう)では、Big5でのテキストは(ただ)しく表示(ひょうじ)できない。

なお、(おな)文字(もじ)でもフォントによって文字(もじ)(かたち)(ちが)いがある場合(ばあい)がある。言語(げんご)(こと)なる場合(ばあい)(たとえば、日本語(にほんご)漢字(かんじ)繁体字中国語(はんたいじちゅうごくご)のフォントで表示(ひょうじ)印刷(いんさつ)するとき)には()をつけなければならない(とく)に、人名(じんめい)(かん)しては(おも)わぬトラブルになることがある)

また、フォントの設定(せってい)によっては、日本語(にほんご)のリッチテキストフォーマットのファイル(拡張子(かくちょうし)「.rtf」)がうまく(ひら)けないことがある。

たとえば、中国語版(ちゅうごくご)の"Microsoft Word"を使(つか)って日本語(にほんご)のリッチテキストフォーマットのファイルを()()場合(ばあい)、"MS明朝"や"MSゴシック"などの一般的(いっぱん)日本語(にほんご)フォントに設定(せってい)した(ほう)がよい。また、日本語(にほんご)のリッチテキストファイルが文字化(もじば)けするときにも、フォントを"MS明朝"や"MSゴシック"などに()えると()めることがある。

ページの先頭へ↑
←ひとつ前に戻る
目次へ
トップページへ