■文字を探す
【入力時に使える文字】
●青空文庫の入力は、JIS X 0201で定義され、半角で表示されるラテン文字、数字、記号と、JIS X 0208で定義され、全角で表示される漢字(第1水準と第2水準)、かな、ラテン文字、ギリシア文字、キリール文字、数字、記号によって行います。
●JIS X 0208(JIS X 0201の文字は、ここにすべて含まれます。)にない文字を、このマニュアルでは外字と呼びます。
●WindowsやMacintoshでは、JIS X 0208のコード表の空き領域に、独自に文字を割り振って、外字の一部を使えるようにしています。
けれど、これらのいわゆる機種依存文字には、他の機種で使えるという保証がありません。
●機種依存文字は、青空文庫では用いません。
●半角で表示される、JIS X 0201のカタカナも使いません。
●パソコンその他の情報機器では、Unicodeが広く使えるようになっていますが、青空文庫の作業では今のところ、これも使いません。
入力したファイル、校正するファイルに機種依存文字が入っていないかは、「チェッカー君」というツールで確認できます。ファイルは必ず、チェッカー君を通してください。
●チェッカー君は、結城浩さんによって書かれ、ゼファー生さんによって改善、維持されています。
【外字注記辞書】
●入力したい文字がパソコンでみつからないときや、候補はみつかったけれど、それで入れてよいか疑問が残るときは、「外字注記辞書」を参照してください。
●「外字注記辞書」の最新版は、このページからダウンロードできます。その都度、ここから開くこともできますが、手もとにおいて、作業時に簡単、迅速に開けるようにしておくことを、おすすめします。
●索引から探してみつかった文字が、次のように表示されていれば、入れるべき文字は青空文庫で使える範囲にあります。
「→[包摂適用 ■]」
「→[統合適用 ■]」
「→[デザイン差 ■]」
「→[78互換包摂 ■]」
「■」に入っている文字で入力してください。
例えば、底本にある「靑」がみつからないときに「外字注記辞書」で探すと、次のように表示されてます。
0. 靑※[#「睛のつくり」]→[包摂適用 青] 146
これは、JIS漢字コードが採用している「包摂」という考え方を適用して、JIS X 0208では、「靑」は「青」のコードで入れる決まりになっているという意味です。
上記の「→[包摂適用 ■]」に該当しますから、「■」のところに示された「青」で入力してください。
●「外字注記辞書」には、「→[包摂適用 ■]」のような、矢印以下の形が示されていない、次のようなものがあります。
★ 4. 棈※[#「木+睛のつくり」、第3水準1-85-73]補助漢字と共通
矢印以下がないときは、入力すべき文字は、青空文庫で使える範囲にありません。
その際は、以下を基本形とした外字注記で入力します。
※[#…]
上記の例では、「※[#「木+睛のつくり」、第3水準1-85-73]」に相当する部分です。これを外字注記辞書からコピーして、次のようにファイルにペーストしてください。
※[#「木+睛のつくり」、第3水準1-85-73]松《あべまつ》さん
●外字にルビが付いている場合は、
喉を掻き※[#「てへん+劣」、第3水準1-84-77]《むし》って
のように入力してください。
外字注記の詳細は、「注記一覧」の「外字」を参照してください。
【微妙な字体差と包摂規準】
●底本で使われている漢字と入力したものとで、細部の形が微妙に異なっていることがあります。「果たしてこの字を使ってよいのか?」と、迷う場合もあるでしょう。その際、「よいか悪いか」の判断は、用いている漢字コードが「字体の揺れ幅」について定めた、約束事に従ってくだします。
青空文庫はJIS X 0208を使っていますから、その規準である「包摂規準」(1〜185番)に従って、判断します。(加えて、JIS X 0213で新たに定義された186〜199番にも従います。)
●包摂規準とは、「この差ではコードを区別しない」という約束事の集まりです。
ルールのすべては、JIS漢字コードの規格書に定められています。
●青空文庫ではこれを、「JIS X 0208と0213規格票の包摂関連項目」として、まとめています。
●ここに定められた包摂規準に従えば、本来、右に示す29文字のAとBのパターンは区別されなければいけません。ところが過去の規格改訂時に犯した誤りとつじつまを合わせるために、これらについては例外として「同じコードで入力する」とされています。これらに関しては、底本と表示文字にAとBの違いがあったとしても、その差は無視してください。
●JIS X 0208の包摂規準では、しんにゅうの点が一つか二つか、草冠の横画が切れているか否かで、コードは区別されません。画面やプリントアウトの表示と底本にこの差があったとしても、違いは無視してください。
●細かな字体差を無視して入力して良いのか、それとも外字として注記すべきか判断を迫られたときは、外字注記辞書を参照するのが近道です。
ここに盛り込まれた、包摂、78互換包摂、デザイン差に関する約束事は、包摂規準にもとづいています。
【「ケ」のようにみえる文字】
●「ケ」のようにみえる文字には、「け」と読まれる片仮名と、「こ」「か」「が」と読み分けられる漢字があります。
●「ケ」にみえる文字は、前後の文章の流れを読んで、以下に示すように入力してください。
「け」と読む片仮名は、次のように、区点番号5-17の「ケ」で入れてください。
ケンタッキー
「こ」「か」「が」と読む漢字は、次のように、区点番号5-86の「ヶ」で入れてください。
一ヶ(「こ」)
二ヶ所、六ヶしい(「か」)
霞ヶ関、槍ヶ岳(「が」)
底本が「こ」「か」「が」と読むものを小書きせず、他の文字と同じ大きさにつくっている場合は、「青空文庫収録ファイルへの記載事項」にそって、ファイル末に以下のように注記してください。
※底本は、物を数える際や地名などに用いる「ヶ」(区点番号5-86)を、大振りにつくっています。
詳しくは、「区点番号5-17と5-86の使い分け指針」を参照してください。
【旧字入力の支援ツール】
●旧字作品の入力ファイルには、使うべきでない新字や俗字が、しばしば紛れこみます。
●これらを見つけ出すために、「校閲君」と名付けたチェックツールを用意しました。詳しい使い方は、「旧字ファイルの新字・俗字を、校閲君で洗い出そう!」で説明しています。
●旧字作品の入力作業の途中で校閲君によるチェックをかければ、どんなものが新字、俗字になりがちか確認できます。
●旧字作品の入力が終わったら、青空文庫宛にファイルを送る前に、必ず校閲君でチェックしてください。
校閲君は、結城浩さんによって書かれた後、ゼファー生さんによって書き直され、維持されています。
●かつて旧字作品の入力、校正を体験された方は、自分の関わったファイルを校閲君でチェックし直してください。
●旧字、正字に置き換えるべきものが見つかったら、[email protected]に、ファイルの修正を求めてください。
●入力データは、テキスト形式で保存します。
●改行コードは、Windowsで用いられている「CR+LF」とします。
●符号化方式(エンコーディング)は、Shift_JISを選びます。
●作業にはエディタを使ってもワープロを使ってもかまいませんが、マニュアルやインターネット上の記述を参考にして、自分の用いるソフトで、「保存形式はShift_JISのテキスト、改行コードはCR+LF」になるよう設定してください。
●ファイル名は、作品名を小文字のアルファベットで表記し、拡張子.txtを加えたものを用います。
ファイル名の付け方の詳細は、「入力ファイルを「テキスト版」に仕上げるために」の「テキスト版に求められる形式1 ファイル名」を参照してください。
■入力者校正
●プロの入力者、プロの校正者、プロの編集者の共同作業でつくられる市販の書籍でさえ誤植があります。アマチュアである私たちが入力したテキストには「確実に誤りが含まれている」と見なすべきでしょう。
●そこで、入力が完了したら、必ず「入力者校正」を行い、入力データを修正してください。入力者校正は、後述する「原稿つきあわせ」と「素読み」の二段階に分けて行ってください。(→校正の実際)
●入力時の誤りは、同じパターンで何度も生じがちです。みつけた誤りに繰り返しの可能性を感じたら、エディタやワープロの検索機能を使って、他にもないか確認してください。
●OCRを使った入力では、似た形の文字の読み取り誤りが、しばしば生じます。片仮名の「ヘペベ」と平仮名の「へぺべ」等、フォントでの識別がほぼできないものもあります。こうしたものも、検索機能を使って、チェックしてください。
【校正は繰り返し行う】で詳しく説明している正規表現を使えば、OCR誤植などの入力時の誤りを、効率的に、高い精度で取り除けます。
●ファイルの精度を高めるためには、「できるだけ早い段階でミスを修正しておく」ことが鉄則です。入力者校正に、ぜひご協力ください。
■文書の送信
●入力者校正が済んだファイルは、[email protected]宛に電子メールで送信してください。その際、ファイルには「圧縮」をかけ、「添付ファイル」として処理してください。
●圧縮方式は、zipを推奨します。自分のパソコンでzip圧縮する方法は、マニュアルやインターネットの記述を参考にしてください。
【底本の用意】
●送信していただいたファイルは、校正に名乗りを上げてくれた人のところへとまわされ、校正作業に移ります。このとき、当然ながら入力に使用された底本が必要になります。
●底本は、原則的には校正者、もしくは点検グループで確保していますが、ときには最寄りの図書館で手配できず、絶版・品切れのため、古書店でも入手できない場合があります。そのため、底本もしくはそのコピーを送付していただく必要が出るかもしれません。ご協力をお願いします。
◆「校正」へ|◆作業マニュアル目次へ