日文文書処理

わたしたちが使(つか)っているコンピュータでは、さまざまな文字(もじ)を利用(りよう)することができる。これは、ひとつひとつの文字(もじ)に固有(こゆう)の数値(すうち)が割(わ)り当(あ)てられているからである。コンピュータは、文字(もじ)を数値(すうち)に置(お)き換(か)えて処理(しょり)しているのである。

しかし、文字(もじ)と数値(すうち)の対応(たいおう)に一定(いっていの)のルールがなければ、コンピュータの間(あいだ)で、データの共有(きょうゆう)ができなくなってしまう。そのために、文字(もじ)と数値(すうち)の対応(たいおう)を定(さだ)めたきまりが、文字(もじ)コードcharacter codeである（文字(もじ)コード体系(たいけい)ともいう）。

また、文字(もじ)コードは、文字(もじ)セットcharacter setと文字(もじ)符号化方式(ふごうかほうしき)character encodingの組(く)み合(あ)わせであるといえる。

文字(もじ)セット

文字(もじ)コードは、アルファベット、漢字(かんじ)、ハングルなど、特定(とくてい)の文字(もじ)のまとまりに対(たい)して定(さだ)められている。たとえば、ASCII(アスキー)（US-ASCII）は、アルファベットへの数値(すうち)の割(わ)り当(あ)て方(かた)を定(さだ)めたものである

特定(とくてい)の文字(もじ)のまとまりに対(たい)する文字(もじ)と数値(すうち)の対応(たいおう)を、文字(もじ)セットcharacter setという（文字(もじ)集合(しゅうごう)、符号化(ふごうか)文字(もじ)集合(しゅうごう)、キャラクターセットともいう）。

一般(いっぱん)に、文字(もじ)セットは、日本語(にほんご)で使(つか)われる文字(もじ)の文字(もじ)セット、中国語(ちゅうごくご)で使(つか)われる文字(もじ)の文字(もじ)セットのように、言語(げんご)ごとに作(つく)られている。

文字(もじ)符号化方式(ふごうかほうしき)

文字(もじ)コードでは、文字(もじ)に対(たい)する数値(すうち)の割(わ)り当(あ)て方(かた)の規則(きそく)（原理(げんり)）が必要(ひつよう)である。この規則(きそく)を文字(もじ)符号化方式(ふごうかほうしき)character encoding (scheme)という（文字(もじ)エンコーディングともいう）。

たとえば、EUCやUTF-8などは、文字(もじ)符号化方式(ふごうかほうしき)を示(しめ)したものである。

文字(もじ)セットと文字(もじ)符号化方式(ふごうかほうしき)

文字(もじ)セットと文字(もじ)符号化方式(ふごうかほうしき)の組(く)み合(あ)わせが、文字(もじ)コードである。

ただし、「文字(もじ)コード」の名前(なまえ)（呼(よ)び方(かた)）は、「文字(もじ)符号化方式(ふごうかほうしき)」と区別(くべつ)されないことも多(おお)い。また、「文字(もじ)コード」という語(ご)が、「文字(もじ)セット」と同(おな)じ意味(いみ)で使(つか)われたり、「文字(もじ)符号化方式(ふごうかほうしき)」と同(おな)じ意味(いみ)で使(つか)われることもあるので、注意(ちゅうい)が必要(ひつよう)である。

文字コードの呼び方の例
言語	文字セット	文字符号化方式	文字コードの呼び方
*JIS X 0208を米MicroSoft社が独自に拡張したもの（IBM拡張文字とNEC特殊文字が含まれる）
日本語	JIS X 0208 JIS X 0213	ISO-2022-JP	JISコード（JIS漢字）
Shift_JIS	シフトJIS（SJIS）
EUC	日本語EUC（EUC-JP）
Microsoft漢字*	Shift_JIS	Windows-31J（ＭＳ漢字コード、CP932、MS932）
多言語	ISO/IEC 10646	UTF-8	Unicode（ユニコード）
UTF-16
繁体字中国語	Big5	Big5	Big5
CNS 1164	EUC	繁体字中国語EUC（EUC-TW）
簡体字中国語	GB 2312	EUC	簡体字中国語EUC（EUC-CN）
英語	ASCII	ASCII	ASCII（アスキーコード）

日本語(にほんご)の文字(もじ)コード

日本語(にほんご)の文字(もじ)コードには、主(おも)に次(つぎ)の３種類(しゅるい)のものがある。

文字化(もじば)けについて

文字化(もじば)けとは

ひらがなや漢字(かんじ)が意味不明(いみふめい)の文字(もじ)や記号(きごう)に変(か)わってしまうことを文字化(もじば)けという。

文字化(もじば)けの主(おも)な理由(りゆう)は、次(つぎ)のようなものである。

別(べつ)の文字(もじ)コードでの読(よ)み込(こ)み

多(おお)くの場合(ばあい)、文字(もじ)コードは、コンピュータ（ソフトウェア）が適切(てきせつ)に設定(せってい)（変換(へんかん)）するので、あまり気(き)にする必要(ひつよう)はない。

しかし、何(なに)かの理由(りゆう)で、本来(ほんらい)のものとは別(べつ)の文字(もじ)コードで読(よ)み込(こ)んでしまうと、意味不明(いみふめい)の文字(もじ)や記号(きごう)が表示(ひょうじ)されることになる（文字化(もじば)け）。これは、主(おも)に次(つぎ)のような場合(ばあい)に起(お)きる。

テキストファイルを"Windows Notepad"（記事本）などのアプリケーションソフトで開(ひら)くとき
ウェブページを"Internet Explorer"などのウェブブラウザで表示(ひょうじ)するとき

テキストファイルの場合(ばあい)

たとえば、MicroSoft Windowsでは、テキストファイルのアイコンをダブルクリックすると"Windows Notepad"（記事本）で開(ひら)くようになっている。しかし、"Windows Notepad"（記事本）が判別(はんべつ)できる文字(もじ)コードは多(おお)くない。そのため、システムと異(こと)なる言語(げんご)の文書(げんご)などはうまく開(ひら)けないことも少(すく)なくない。

そのような場合(ばあい)は、文字(もじ)コードの変換(へんかん)ソフト（コンバータ）を利用(りよう)するか、別(べつ)のアプリケーションで開(ひら)く必要(ひつよう)がある。たとえば、"Microsoft Word"ならば、"Windows Notepad"が開(ひら)けないファイルもうまく開(ひら)けるかもしれない。

Windows NotePadで開くと文字化けするテキストファイルも

右クリックから"Microsoft Word"で開くと正しく開ける

なお、すべての文字(もじ)コードの間(あいだ)に互換性(ごかんせい)があるわけではないので、文字(もじ)コードの変換(へんかん)ソフト（コンバータ）を利用(りよう)するときには注意(ちゅうい)が必要(ひつよう)である。

また、異(こと)なるOSでテキストファイルを交換(こうかん)したとき、改行(かいぎょう)コードの問題(もんだい)が生(しょう)じることがある。たとえば、MS WindowsとMacintoshでテキストファイルを交換(こうかん)したときには、MS WindowsではMacintoshのテキストファイルの行(ぎょう)がつながって見(み)え、MacintoshではMS Windowsのテキストファイルの行(ぎょう)が二重(にじゅう)に改行(かいぎょう)されて見(み)える（ことがある）。

もとのテキスト

行く川の流れは絶えずして、しかももとの水にあらず。
よどみに浮ぶうたかたは、かつ消えかつ結びて、久しく止とゞまりたる例なし。
世の中にある人と住家と、またかくの如し。

MS Windows → Macintosh

行く川の流れは絶えずして、しかももとの水にあらず。

よどみに浮ぶうたかたは、かつ消えかつ結びて、久しく止とゞまりたる例なし。

世の中にある人と住家と、またかくの如し。

Macintosh → MS Windows

行く川の流れは絶えずして、しかももとの水にあらず。よどみに浮ぶうたかたは、かつ消えかつ結びて、久しく止とゞまりたる例なし。世の中にある人と住家と、またかくの如し。

この場合(ばあい)も、文字(もじ)コードの変換(へんかん)ソフト（コンバータ）を利用(りよう)するか、別(べつ)のアプリケーションで開(ひら)く必要(ひつよう)がある。たとえば、MS Windowsならば、"Microsoft Word"を使(つか)えば、Macintoshのテキストファイルも正(ただ)しく開(ひら)くことができる（はずである）。

ウェブページの場合(ばあい)

たとえば、「日本語(にほんご)EUC」のウェブページを「シフトJIS」として開(ひら)いてしまうと、意味不明(いみふめい)の文字(もじ)や記号(きごう)が表示(ひょうじ)されるだけである。

このときには、ウェブブラウザの文字(もじ)コードの設定(せってい)を正(ただ)しく変更(へんこう)する必要(ひつよう)がある。

ブラウザでの文字コードの設定の例（Internet Explorer中文版）

また、"Internet Explorer"（中文版）では、「自動判別(じどうはんべつ)」の設定(せってい)になっているとき、文字(もじ)コードがUTF-8の日本語(にほんご)ページを開(ひら)こうとすると空白(くうはく)のページが表示(ひょうじ)される（何(なに)も表示(ひょうじ)されない）ことがある。このときも、ウェブブラウザの文字(もじ)コードの設定(せってい)を正(ただ)しく変更(へんこう)する必要(ひつよう)がある。

データの欠落(けつらく)

主(おも)に、日本語(にほんご)の電子(でんし)メールに使(つか)われるのは、JISコード（ISO-2022-JP）である（最近(さいきん)では、Unicodeも普及(ふきゅう)してきている）。多(おお)くのメールソフトでは、日本語(にほんご)の電子(でんし)メールの送信時(そうしんじ)に自動的(じどうてき)にJISコードに変換(へんかん)されるようになっている。これは、シフトJISやEUC-JPが8bitのエンコードであるのに対(たい)して、JISコードが7bitのエンコードだからである。

電子(でんし)メールは、英語(えいご)を中心(ちゅうしん)に発展(はってん)したことから、7bitのエンコードが標準(ひょうじゅん)となっていた。現在(げんざい)でも、メールサーバmail serverの中(なか)には、7bitのコードしか適切(てきせつ)に処理(しょり)しないものがある。そのため、メールに8bitのコードを使(つか)うと、電子(でんし)メールからデータの一部(いちぶ)が欠落(けつらく)してしまうことがある。

メール送信時(そうしんじ)の設定(せってい)などによって、シフトJISやEUC-JPでメールを送(おく)った場合(ばあい)には、文字化(もじば)けするデータの欠落(けつらく)によって可能性(かのうせい)がある。データの欠落(けつらく)による文字化(もじば)けは、復元(ふくげん)が困難(こんなん)である。電子(でんし)メールが文字化(もじば)けして、どうしても読(よ)めないときには、もう一度(いちど)メールを送(おく)ってもらうしかない（送信時(そうしんじ)の設定(せってい)を確認(かくにん)してもらった方(ほう)がよい。本文(ほんぶん)を添付(てんぷ)ファイルで送(おく)りなおしてもらう方法(ほうほう)もある）。

また、電子(でんし)メールの文字化(もじば)けは、メール送信時(そうしんじ)のコード変換(へんかん)のエラーなどによっても起(お)きる。この場合(ばあい)も、復元(ふくげん)は困難(こんなん)なので、もう一度(いちど)メールを送(おく)ってもらうことになる。

機種依存文字(きしゅいぞんもじ)

特定(とくてい)のコンピュータやOSでしか表示(ひょうじ)できない文字(もじ)を「機種依存文字(きしゅいぞんもじ)」という。

どの文字(もじ)が機種依存文字(きしゅいぞんもじ)かは、使用(しよう)する文字(もじ)コードによって異(こと)なる。例(たと)えば、シフトJISでは、丸囲(まるがこ)み数字(すうじ)やローマ数字(すうじ)は機種依存文字(きしゅいぞんもじ)であり、異(こと)なる環境(かんきょう)では文字化(もじば)けする。ただし、Unicodeでは、丸囲(まるがこ)み数字(すうじ)やローマ数字(すうじ)は機種依存文字(きしゅいぞんもじ)ではない。

テキストに機種依存文字(きしゅいぞんもじ)が使(つか)われている場合(ばあい)は、異(こと)なる環境(かんきょう)で表示(ひょうじ)したときに、必(かなら)ず文字化(もじば)けする。また、機種依存文字(きしゅいぞんもじ)の表示(ひょうじ)は、フォントによっても異(こと)なるので、同(おな)じOSでも表示(ひょうじ)が変(か)わってしまうことがある。そのため、テキストに機種依存文字(きしゅいぞんもじ)が含(ふく)まれないようにした方(ほう)がよいだろう。

いわゆる「半角(はんかく)カナ」（１バイトのかな文字(もじ)）は、文字化(もじば)けの原因(げんいん)となることがあるので、電子(でんし)メールでは、できるだけ使(つか)わない方(ほう)がよい。また、半角(はんかく)カナは、RTFなどの書(か)き出(だ)しでも、問題(もんだい)となることがある。

適切(てきせつ)なフォント

日本語(にほんご)、中国語(ちゅうごくご)、韓国語(かんこくご)などの非(ひ)アルファベット言語(げんご)では、それぞれの言語(げんご)のフォントがインストールされていないと、文字(もじ)を正(ただ)しく表示(ひょうじ)することができない。たとえば、繁体字中国語(はんたいじちゅうごくご)のフォントがインストールされていない環境(かんきょう)では、Big5でのテキストは正(ただ)しく表示(ひょうじ)できない。

なお、同(おな)じ文字(もじ)でもフォントによって文字(もじ)の形(かたち)に違(ちが)いがある場合(ばあい)がある。言語(げんご)が異(こと)なる場合(ばあい)（たとえば、日本語(にほんご)の漢字(かんじ)を繁体字中国語(はんたいじちゅうごくご)のフォントで表示(ひょうじ)・印刷(いんさつ)するとき）には気(き)をつけなければならない（特(とく)に、人名(じんめい)に関(かん)しては思(おも)わぬトラブルになることがある）。

また、フォントの設定(せってい)によっては、日本語(にほんご)のリッチテキストフォーマットのファイル（拡張子(かくちょうし)「.rtf」）がうまく開(ひら)けないことがある。

たとえば、中国語版(ちゅうごくご)の"Microsoft Word"を使(つか)って日本語(にほんご)のリッチテキストフォーマットのファイルを書(か)き出(だ)す場合(ばあい)、"ＭＳ明朝"や"ＭＳゴシック"などの一般的(いっぱん)な日本語(にほんご)フォントに設定(せってい)した方(ほう)がよい。また、日本語(にほんご)のリッチテキストファイルが文字化(もじば)けするときにも、フォントを"ＭＳ明朝"や"ＭＳゴシック"などに変(か)えると読(よ)めることがある。