●テキストを入力していて、必ず悩まされる問題があります。それは目的の漢字が、かな漢字変換ソフト(インプット・モジュール、略してIMともいいます。Macintoshでは標準装備の「ことえり」、ジャストシステム社の「ATOK」、エルゴソフト社の「EGBRIDGE」が代表的です)の候補に出てこないことです。
●例えば、「聚落」を入力したいときに「じゅらく」とひらがなで入力して変換すると、「ことえり」では「聚落」が候補として現れますが、「ATOK14」まででは表示されません。これは「聚」と「落」という2つの漢字がともにパソコンで使えるにもかかわらず、「聚落という熟語」が「ATOK14までの辞書には登録されていない」ことを示します。
●かな漢字変換ソフトから呼び出せない漢字の探し方は、大きく分けて三つあります。仮名漢字変換ソフトの文字パレットと呼ばれるツールを使う方法。参考図書などで調べた文字のコードで入力する方法。そして、青空文庫が独自に用意した「新JIS漢字総合索引」を使う方法です。
【文字パレットを使う方法】
●ことえりやATOKには文字パレットというツールがあり、「漢字表(部首別漢字表)」「記号表」「区点コード表」「JISコード表」「シフトJISコード表」などから構成されています。漢字や記号が、マウスの操作1つで入力できるので便利です。
●文字パレットは、メニューバーの右から3番目に出る鉛筆のアイコンをマウスでクリックし、「文字パレット表示」を選択すると画面上に現れます。
●文字パレットで、目的の漢字や記号をマウスで選択してクリックすると、ワープロやエディターのカーソルの立っているところに、その字が入力されます。全角のアルファベットも、文字パレットの「区点(JIS、シフトJIS)コード表」から入力できます。
●文字パレットの詳しい使い方は、かな漢字変換ソフトのマニュアルを参照してください。
【コードで入力する方法】
●『JIS漢字字典』(日本規格協会)や、複数の出版社から刊行されている『ワープロ漢字辞典』『パソコン・ワープロ漢字辞典』といったものを使うと、探したい文字のコードを調べられます。『新版漢語林』(大修館書店)など、一部の漢和辞典も、JIS漢字コードのコードを併記するようになっています。
●こうした参考図書ではしばしば、一つの漢字に対し、「区点コード」「JISコード」「シフトJISコード」など、いくつかのコードが示してあります。これらは、コード表中で文字が占める位置を、どのようなルールに従って表現するかの違いによるものです。JIS漢字コードという一つのものを表現する、三つの方法と理解してください。
●ATOKの場合
1)ATOKパレットを表示していない場合は、鉛筆メニューのアイコンから「ATOKパレット表示」を選びます。
2)ATOKパレットの「R漢」(ローマ字入力の場合)、もしくは「カナ漢」(かな入力の場合)をクリックし、現れたポップアップメニューから「コード入力」を選びます。
3)現れた入力ウィンドウの左のボタンをクリックすると、「JIS 」、「シフトJIS」、「区点」のいずれかを選べます。
4)コード番号を入力します。
5)入力ウインドウに、該当の文字が表示されます。
6)リターンキーを押すと、該当の文字が入力されます。
●ことえりの場合
古いバージョンのことえりでは、次のような手順でコード入力することができました。
1)全角数字で区点コードを入力し、スペースバーを2回押します。
2)表示される一覧表から該当文字を選択し、リターンキーを押します。
3)再度リターンキーを押して確定します。
ただし、現在のことえりでは、コード入力はできなくなっています。
【新JIS漢字総合索引の利用】
●新JIS漢字総合索引は、「部首・画数索引」、「音訓索引」と、青空文庫の入力でよく使う記号を集めた「記号一覧」からなる、電子索引です。部首・画数索引を使えば、部首と画数から、音訓索引を使えば漢字の読みから、目指す漢字を探せます。(右は、「じゅ」という読みから、音訓索引を使って「聚」を探した例。)
●見つかった漢字は、コピーしてエディターやワープロにペーストできます。
●この索引を使うためには、いくつかのソフトとフォント、ファイルが必要です。求められるものを、「青空文庫 「明日の硯箱」」にリストアップしました。導入時に少し手間がかかりますが、使うことのできる文字を確実に探せます。必要なフォントやファイルは全て無料で入手できますので、ゆっくりステップを踏んで、是非、索引の導入にチャレンジしてください。
●新JIS漢字総合索引には、第1〜第4水準までの漢字を収録してありますが、青空文庫の入力に使えるのは、第1第2水準の文字に限られます。第3第4水準の漢字は、使わないでください。
●新JIS漢字総合索引の成り立ちと使い方は、【「新JIS漢字総合索引」を使ってみよう】で詳しく説明しています。この解説を含む、「新JIS漢字時代の扉を開こう!」と名付けた文書では、JIS漢字コードに関して、青空文庫の活動を続けていく上で必要な情報をまとめて解説しています。
【入力時に使える文字】
●青空文庫の入力は、JIS X 0201で定義され、半角で表示されるラテン文字、数字、記号と、JIS X 0208で定義され、全角で表示される漢字(第1水準と第2水準)、かな、ラテン文字、ギリシア文字、キリール文字、数字、記号によって行います。
●JIS X 0208(JIS X 0201の文字は、ここにすべて含まれます。)にない文字を、外字と呼びます。
●WindowsやMacintoshでは、JIS X 0208のコード表の空き領域に、独自に文字を割り振って、外字の一部を使えるようにしています。
けれど、メーカー独自の拡張によって使えるようになった外字には、他の機種で使えるという保証がありません。
●独自拡張によって使えるようになった外字は、青空文庫では用いません。
半角で表示される、JIS X 0201のカタカナも使いません。
【外字の処理】
●外字は、入力者注で処理してください。例えば、
の「」は、青空文庫で使える第1第2水準の中にはありません。こうした場合には、
喉を掻き※[#「てへん+劣」、読みは「むし」、30-16]って
のように、代わりに「※」(区点コード0208、JISコード2228、シフトJISコード81A6)を入れ、さらに元の文字の形についての説明と読みを加えます。そのあとには、「ページ-行」の形式で底本の何ページ・何行目にあるかを記述します。
●外字の形を説明する際、左右に並んでいる部分は、「+」(区点コード0160、JISコード215C、シフトJISコード817B)でつないでください。「たれ」や「にょう」との組み合わせにも、「+」を用いてください。
「目+爭」、「登+おおざと」、「やまいだれ+音」、「しんにゅう+台」など
上下の関係にあるものは、「/」(区点コード0131、JISコード213F、シフトJISコード815E)でつないでください。
「くさかんむり/弓」、「白/十」、「山/松」など
上下、左右の関係にあるものを組み合わせて示す際は、「()」(区点コード0142・0143、JISコード214A・214B、シフトJISコード8169・816A)を補って、位置関係をはっきりさせてください。
「水/(水+水)」、「(医+殳)/巫」、「山+(老/日)」等
●「+」や「/」で表しにくい場合には、以下のように説明してもかまいません。
※[#「糾」の「糸」に代えて「虫」、読みは「きゅう」、145-1]
●外字は、多くの場合、底本でもルビ付きで使われています。上記の例にルビがついて、
となっている場合には、
喉を掻き※[#「てへん+劣」、30-16]《むし》って
のように入力します。
●外字注記はかつて、以下のように書いていました。
喉を掻き※[#「※」は「てへん+劣」、読みは「むし」、30-16]って
過去のファイルにさかのぼって、下線部を略した現在の形にそろえることは当面行いませんが、より簡潔な現在の形を推奨します。
【異機種間の互換性】
●JIS X 0208の空き領域にどんな外字が埋め込まれているかは、メーカー(OS)によって異なります。例えば、Macintoshで入力した修飾数字「○付きの1」(区点コード0901、JISコード2921、シフトJISコード8540)は、Windowsでは「(日)」と表示されます。
●このような「異機種間の互換性のない文字」は、
1[#「1」は底本では○付き数字] インターネット
のように、JIS X 0208に含まれる文字に置き換えた上で、入力者注を付けてください。
●区点コード0833から1594まで、JISコード2841から2F7Eまで、シフトJISコード84BFから889Eまでに割り振ってある文字や記号は、異機種間の互換性がありません。
【微妙な字体差と包摂規準】
●底本で使われている漢字と入力したものとで、細部の形が微妙に異なっていることがあります。「果たしてこの字を使ってよいのか?」と、迷う場合もあるでしょう。その際、「よいか悪いか」の判断は、用いている漢字コードが「字体の揺れ幅」について定めた、「包摂規準」(1〜185番)にのっとって下します。青空文庫はJIS X 0208を使っていますから、その規準に従って、判断します。(加えて、JIS X 0213で新たに定義された186〜199番にも従います。)
●包摂規準とは、「この差ではコードを区別しない」という約束事の集まりです。ルールのすべては、JIS漢字コードの規格書(『7ビット及び8ビットの2バイト情報交換用符号化漢字集合』日本規格協会)の、「漢字の字体の包摂規準」(11〜23ページ)に定められています。(「JIS X 0208と0213規格票の包摂関連項目」の「JIS X 0208」の項、参照。)
●ここに定められた包摂規準に従えば、本来、右に示す29文字のAとBのパターンは区別されなければいけません。ところが過去の規格改訂時に犯した誤りとつじつまを合わせるために、例外として「同じコードで入力する」とされています。これらに関しては、底本と表示文字にAとBの違いがあったとしても、その差は無視してください。
●JIS X 0208の包摂規準では、しんにゅうの点が一つか二つか、草冠の横画が切れているか否かで、コードは区別されません。画面やプリントアウトの表示と底本にこの差があったとしても、違いは無視してください。
●細かな字体差を無視して入力しても良いのか、それとも外字として注記すべきか判断を迫られたときは、JIS X 0208の「漢字の字体の包摂規準」を参照してください。見きわめが付かなければ、[email protected]に問い合わせてください。
【旧字入力の支援ツール】
●旧字作品の入力ファイルには、使うべきでない新字や俗字が、しばしば紛れ込んでしまいます。
●これらを見つけ出すために、「校閲君」と名付けたチェック・ツールを用意しました。詳しい使い方は、「旧字ファイルの新字・俗字を、校閲君で洗い出そう!」で説明しています。
●旧字作品の入力が終わったら、青空文庫宛にファイルを送る前に、必ず校閲君でチェックしてください。
●作業の途中で校閲君によるチェックをかければ、どんなものが新字、俗字になりがちか確認できます。その後の作業を正確に進める上では、有効でしょう。
●かつて旧字作品の入力、校正を体験された方は、自分の関わったファイルを校閲君でチェックし直してください。
●旧字、正字に置き換えるべきものが見つかったら、[email protected]に、ファイルの修正を求めてください。
●入力データの保存は、「テキスト・ファイル(プレーン・テキスト・ファイル)」と呼ばれるファイル形式で行います。テキスト・ファイルとは、「フォント(書体)や文字サイズ、行間、字送りなどの書式指定」をしない、「JIS X 0208で定められている文字と、JIS X 0201で定められている文字だけで構成された」最も単純な文書形式を指します。
●ワープロ・ソフトやワープロ機能をもつ統合ソフト、例えばクラリスワークス4.0で入力したテキストを「ファイル形式」の項目で「クラリスワークス4.0」を選択すると独自フォーマットで保存され、クラリスワークス4.0の所有者以外はそのファイルを開くことができません。入力にこの種のソフトをお使いの場合は、必ずフォーマット指定の項目で「テキスト」「TEXT」などを選択してください。
●保存の際には、ファイル名は「sansiro.txt」のようにします。Macintoshではふだん使うことは少ないと思いますが、末尾には拡張子「.txt」を付けてください。
【改行コードの処理】
●Macintoshで入力されたテキスト・データは、改行コードが「CR」になっています。テキスト・ファイルを青空文庫に登録する際には、改行コードはすべてMS-DOS方式の「CR+LF」で統一しています。テキスト・エディターのJeditなど、保存時に改行コードの選択ができるソフトをお使いの場合は、「CR+LF」を指定してください。
●プロの入力者、プロの校正者、プロの編集者の共同作業でつくられる市販の書籍でさえ誤植があります。アマチュアである私たちが入力したテキストには「確実に誤りが含まれている」と見なすべきでしょう。
●そこで、入力が完了したら、必ず「入力者校正」を行い、入力データを修正しておいてください。入力者校正は、後述する「原稿つきあわせ」と「素読み」の二段階に分けて行ってください。(→校正の実際)
●ファイルの精度を高めるためには、「できるだけ早い段階でミスを修正しておく」ことが鉄則です。ぜひご協力ください。
●入力者校正が済んだファイルは、[email protected]宛にインターネット・メールで送信してください。その際、ファイルには「圧縮」をかけ、「添付ファイル」として処理するようにしてください。
【圧縮】
●インターネットは、パソコンに比べ、処理速度の遅いメディアです。ファイルを圧縮しておけば、送信時間が短縮できます。
●ファイルの圧縮には、専用のソフトが必要です。また、圧縮されたファイルの解凍(復元)にも専用のソフトが必要です。MacintoshではAlladin DropStuff(シェアウェア)、StuffIt Deluxe(製品版)を使って「StuffIt形式」に圧縮するか、Compact Pro(シェアウェア)を使って「Compact
Pro形式」に圧縮するのが一般的ですが、後者はMacintosh専用です。青空文庫宛の送信の際はできれば「StuffIt形式」を使ってください。
●それ以外では、MacintoshとWindowsで共通に使える「LHA形式」(圧縮はフリーウェアのMacLHAで行います)でも結構です。
【ファイル添付】
●インターネット・メールで送信できるのは、「テキスト・データ」だけです。そこで、画像などのバイナリー・データを送信する際には、ファイルを「特殊なテキスト・ファイルに変換して、メールに添付する」必要があります。このような変換を「エンコード」、変換されたファイルを元に戻すことを「デコード」といいます。
●入力ずみのテキスト・ファイルは、エンコードなしでそのまま添付できますし、メールの本文にコピー&ペーストで組み込むこともできます。しかしながら、メール本文に組み込まれたテキストには、1行1行に強制的に改行コードが付加されてしまいます。また、添付されたテキスト・ファイルは、メール・ソフトによっては、受信の際に自動的に本文に組み込まれてしまいます。圧縮→添付という方法で処理すれば、このようなトラブルを防ぐことができます。
●エンコードは、Macintoshでは、BinHexという方式を使うのが一般的です。これに対し、WindowsではBase64という方式が一般的です。ほとんどのMacintosh用メール・ソフトはどちらの方式にも対応していますので、送信の際には「Base64」(メール・ソフトによっては、名称はMIME、Apple
Doubleなど)を指定してください。
●この項でご紹介したフリーウェアやシェアウェアは、一部はMac OSに付属していますし、パソコン雑誌の付録CD-ROMでも入手できます。また、最新版は下記のウェブサイトからダウンロードできます。
◆Alladin DropStuff、Aladdin StuffIt Expander(解凍専用)
=http://stuffit.act2.co.jp/(ACT2)または
http://www.aladdinsys.com/(Aladdin Systems)
◆MacLHA=http://www.vector.co.jp/(Vector)
【底本の用意】
●送信していただいたテキスト・ファイルは、校正担当の呼びかけ人もしくは工作員の方のところへとまわされ、校正作業に移ります。このとき、当然ながら入力に使用された底本が必要になります。
●現在は、入手が容易であれば、同じ書籍の一番新しい版を購入するようにしています。しかしながら、ときには絶版・品切れのため、古書店などをまわっても入手が不可能な場合があります。そのため、底本もしくはそのコピーを送付していただく必要が出るかもしれません。ご協力をお願いします。