日文文書処理

語彙表(ごいひょう)作成(さくせい)

日本語(にほんご)語彙表(ごいひょう)作成(さくせい)しよう。ここでは、(おも)表計算(ひょうけいさん)ソフトを使(つか)って、

  1. 日本語能力試験(にほんごのうりょくしけん)1〜4(きゅう)出題基準(しゅつだいきじゅん)(ふく)まれる語彙(ごい)
  2. 日本語能力試験(にほんごのうりょくしけん)出題基準(しゅつだいきじゅん)には(ふく)まれないが、新聞(しんぶん)やニュースなどによく(あらわ)れる語彙(ごい)

の2種類(しゅるい)作成(さくせい)する。

語彙表(ごいひょう)とは?

()のまとまりを語彙(ごい)という。語彙(ごい)一覧表(いちらんひょう)語彙表(ごいひょう)という。語彙表(ごいひょう)には、()そのものだけでなく、()意味(いみ)発音(はつおん)()(かた))など()(かん)する情報(じょうほう)(しめ)されるのが普通(ふつう)である。

語彙表(ごいひょう)(れい)として、日本(にほん)国語教科書(こくごきょうかしょ)小学校(しょうがっこう))と日本語教科書(にほんごきょうかしょ)初級(しょきゅう))の語彙(ごい)比較(ひかく)する研究(けんきゅう)作成(さくせい)したものを()げておく【→日本語教科書語彙表(TSV形式・Stuffit圧縮ファイル;92KB)】。

表計算(ひょうけいさん)ソフトとは?

語彙表(ごいひょう)のようなデータは、表計算(ひょうけいさん)ソフトを使(つか)って作成(さくせい)すると便利(べんり)である。

数値(すうち)などのデータを集計(しゅうけい)解析(かいせき)するためのアプリケーションソフトウェアapplication software表計算(スプレッドシート)ソフトspread sheet softwareである。(きゅう)Lotus Development(しゃ)(IBM(しゃ)買収(ばいしゅう)され、現在(げんざい)はLotus Software)の「Lotus1-2-3(ロータス ワンツースリー)」や(べい)Microsoft(しゃ)のMicrosoft Excel(マイクロソフト エクセル)などが、代表的(だいひょうてき)表計算(ひょうけいさん)ソフトである。

一般的な表計算(ひょうけいさん)ソフトは、数値(すうち)だけでなくテキストも(あつか)うことができるので、(おお)くのテキストデータを集計(しゅうけい)するときにも表計算(ひょうけいさん)ソフトを使(つか)うと便利(べんり)である。

表計算(ひょうけいさん)ソフトで作成(さくせい)されたデータは、そのままでは(こと)なるアプリケーションソフトで利用(りよう)できない(ことがある)。そのため、データの交換(こうかん)配布(はいふ)には汎用性(はんようせい)(たか)TSVCSV使(つか)われる。

TSVとCSV

TSV」とは、タブ区切(くぎ)りのデータTab Separated Values、「CSV」とはカンマ区切(くぎ)りのデータComma Separated Valuesという意味(いみ)である。

実際(じっさい)のTSVは、データをタブtab区切(くぎ)って表わしたテキストファイルtext fileであり、CSVは、データをカンマcomma区切(くぎ)ったテキストファイルである。どちらもテキストファイルであるため、テキストエディタtext editorなどで直接(ちょくせつ)編集(へんしゅう)することができる。

表計算(ひょうけいさん)ソフトで(あつか)うデータについて、項目(こうもく)(あたい)(あたい)との(あいだ)にタブを()れればTSVになり、コンマを()れればCSVになる。また、データの(ぎょう)改行(かいぎょう)によって(しめ)せばよい。以下(いか)の3つのデータは、すべて(おな)意味(いみ)(あらわ)すものである。

《TSV》
127  36  3
132  38  3
144  38  3
117  37  7
186  45  5
  96  34  9
162  42  6
《CSV》
127,36,3
132,38,3
144,38,3
117,37,7
186,45,5
96,34,9
162,42,6
《表計算ソフトでの表示例》

語彙表(ごいひょう)作成(さくせい)

表計算(ひょうけいさん)ソフトでは、(ぎょう)(れつ)とによってデータが系列化(けいれつか)される。このとき、データの(かず)(おお)いものを(おな)(れつ)にまとめるのが普通(ふつう)である。たとえば、100(にん)学生(がくせい)英語(えいご)中国語(ちゅうごくご)のテスト成績(せいせき)入力(にゅうりょく)する場合(ばあい)は、(つぎ)のようになるだろう。

《入力例》
データ数の多い項目については、データが縦方向に続く(同じ列に並ぶ)ようにするのが一般的。

日本語能力試験(にほんごのうりょくしけん)出題基準(しゅつだいきじゅん)(ふく)まれる()表計算(ひょうけいさん)ソフトに入力(にゅうりょく)しよう。また、それぞれの()発音(はつおん)、アクセント、中国語訳(ちゅうごくごやく)、レベルもあわせて入力(にゅうりょく)しよう。

《入力例》

発音(はつおん)』は、ひらがなで()みを、『アクセント』は、()がる部分(ぶぶん)(はく)番号(ばんごう)数字(すうじ)(しめ)してみよう(辞書(じしょ)()っているものをそのまま()けば()い)。また、『レベル』は日本語能力試験(にほんごのうりょくしけん)何級(なんきゅう)かを数字(すうじ)(しめ)そう。

アクセント表記(ひょうき)方法(ほうほう)

日本語(にほんご)のアクセントは、高低(こうてい)の2段階(だんかい)である。また、日本語(にほんご)()では、[(こう)]から[(てい)]に()がる部分(ぶぶん)は、(かなら)ず1カ所(かしょ)以下(いか)(0または1)しかない。そのため、日本語(にほんご)アクセントの表記(ひょうき)では、()がる部分(ぶぶん)(はく)番号(ばんごう)数字(すうじ)(しめ)すのが便利(べんり)である。

東京式のアクセントは、下がる場所が分かれば識別できるので、下がる部分の直前の拍が先頭から数えて何番目か数字で示せば良い。

なお、促音(そくおん)の「ッ」、撥音(はつおん)の「ン」、長音(ちょうおん)の「ー」、拗音(ようおん)(ふく)む「キャ」「キュ」「キョ」など、外来語(がいらいご)の「ファ」「フィ」「フェ」「フォ」「ティ」「ヴァ」などはすべて1拍(いっぱく)(かぞ)える。

新聞(しんぶん)などに()ている()で、日本語能力試験(にほんごのうりょくしけん)出題基準(しゅつだいきじゅん)(ふく)まれないものを()つけて、表計算(ひょうけいさん)ソフトに入力(にゅうりょく)しよう(人名(じんめい)地名(ちめい)などの固有名詞(こゆうめいし)(のぞ)く)。また、それぞれの()発音(はつおん)、アクセント、中国語訳(ちゅうごくごやく)出典(しゅってん)もあわせて入力(にゅうりょく)しよう。

《入力例》
注意:文字化けしないためには

日本語(にほんご)中国語(ちゅうごくご)両方(りょうほう)(ふく)まれるデータは、UnicodeのTSV(またはCSV)で保存(ほぞん)する必要(ひつよう)がある。

Microsoft Excel(中文版)の場合(ばあい)は、(つぎ)のようにする(UnicodeのTSVで保存(ほぞん)される)。

  1. 「檔案」メニューから「另存新檔」を選ぶ。
  2. 保存用のパネルの下の方にある「檔案類型」で『Unicode文字』を選ぶ。
  3. 「儲存」ボタンを押して保存する。
ページの先頭へ↑
←ひとつ前に戻る
目次へ
トップページへ