[PR]100万円が無料で当たる!:今すぐ応募して現金を当てよう!

青空文庫 派生プロジェクト
あさっての向かい風



青空文庫“Unicode 変換”計画
(Unicode 版への変換作業)



 0208 版から Unicode 版への変換作業のガイドライン(試案)をつくってみました。変換の実作業をおこないながら、その手順や思ったこと、統一しておきたい形式などをメモしたものです。同じようなことを考えていらっしゃるかたがいたら、ぜひご意見をうかがいたいと思います。
 この作業手順で、おおむねみなさんからのご賛同が得られれば、青空文庫で現在登録してある0208 版(著作権の有効期限を経過したものでかつ、第3・4水準漢字などをふくむテキスト)の Unicode 版への変換作業をぼちぼちとではありますが進めたいと考えています。


   2002.1.25  公開
   2002.1.30  5)基本(0208)版と差しかえ(Unicode)版の関係について……を追加
   2002. 2. 1  1)「JIS0208版変換」の表記を「JIS X 0208版変換」に変更
   2002. 2. 3  3)ファイル管理 未変換の注記が残っているファイルのマークは「
」に変更
   2002. 2. 7  4)包括 包摂規準と包摂の適用除外について……の方針を大幅変更
   2002.4.27  5)……メモを追加

   志田



1)0208 版の加工

  1. 0208 版から外字注記の一覧をつくります。
    -------------------------------------------
    (かなりアナログ)
    たとえば、正規表現による置き換えで(Mac & Jedit)
    1.検索 ※[#
      置換 \r\r※[#
    2.検索 ]
      置換 ]\r\r
    3.検索 #      ……該当部分のコピーなど
    -------------------------------------------
  2. 元ファイルの最後部に
    「Unicode版←JIS X 0208版変換  ←(2002.2.1修正)
     xxxx年x月xx日 変換:担当者名」を表記します。
  3. 一覧をペーストします。
  4. 「変換後←変換前」の形式とします(認識性の重視)。
  5. 同一文字の該当注記は1回のみとします。
  6. 一覧は、本文にあらわれた順です(例外:/\,々など全体にかかるもの)。


2)Unicode 版への変換(Mac OS X10.1 のばあい)

 (Jedit4 で 0208 版(おもにルビあり版)をひらき、全文をコピー、)
 (TextEdit で新規ファイル作成し、クリップボードの内容をペースト。)

  1. ファイルが「標準テキスト」であることを確認します。
  2. 0208 版のファイル名をコピーし、
  3. 保存ファイル名(おもにタイトルの半角ローマ字表記)につづけて「_uni」と表記
  4. 拡張子は「.txt」、形式は「Unicode」を選択します。
    (※この段階では、改行コードは「LF」(Unix形式)のまま)
  5. 変換一覧を参考に、Unicode 文字を文字パレットなどからさがして
  6. 「#」を検索して、Unicode 文字におきかえます。
  7. 変換により必要のなくなった注記は、凡例や本文から削除します。
    ※ひきつづき作業が必要な未変換の注記に関しては削除しません。
  8. 変換済みの注記一覧のあとに続けて「未変換の注記一覧」を残しておきます。 
  9. TextEdit による作業がおわったところで、「Developer Tools」のなかの Project Builder.app へ Unicode ファイルをドラッグ&ドロップします。
  10. 「形式」から「改行コード「CR+LF」(Win,DOS形式)」を選択し、
  11. 保存し直します。
    (以上、かなりアナログです)


3)ファイル管理

  1. 未変換の注記が残っている(再度の変換作業が必要な)ファイルに関しては、Unicode 版の作品一覧に「cont.」と記して公開します(「continue=作業が継続している」の意味で)。」とします。
  2. 再度の変換作業をおこなうばあい(第5水準漢字の Unicode 登録があったなど)には、初回変換一覧に続けて、必要記述と変換内容を書き加えます。
  3. 頒布にあたっては、zip形式で圧縮保存とします。
  4. 0208 版と Unicode 版は、混在させないのが好ましいか(管理上・利用上)
    ※課題:Unicode 版のみの作品一覧(作業継続や作業不要の確認)の作成(2002.1.31完了)
    ※課題:「青空読書カード」への追加表記とリンク
    ※課題:Unicode 版に付加価値が認められるようになれば、CD頒布も


4)包括 包摂規準と包摂の適用除外 とか について(どっちがどっち? どっちもどっち?)

  1. 底本にそった入力と変換を前提にします。そのうえで……、
  2. Unicode 版への変換では、入力者や校正者の注記を唯一のよりどころとします。
  3. 注記以外の部分に関し、底本へさかのぼっての確認や修正はひとりではできません(絶対に底本にさかのぼるべきだと考えるかたは、ご自身による修正をお願いします)。 みなさんのご協力をぜひおねがいします。
  4. ただし、注記がないにもかかわらず「森鴎外」の「鴎」、「内田百※[#門に月]」の「※」など、どうしても変換したいという特殊例に気がついたばあいにかぎって変換の対象とします。
  5. 4のばあい「注記以外の変換」ということで、Unicode 版の取扱説明書に明示しておきます(一見して認識できる程度の特殊例の数にキープしたいと思います)。


5)基本(0208)版と差しかえ(Unicode)版の関係について



※実作業上でうまれてくる手順のバリエーションなどには随時柔軟に対応したいと思います。
※得られる結果がほぼ同一であったり、あるいはより以上の効果が見込まれる方法があるばあいは、それへの移行を妨げません。むしろ積極的に評価し、追随したいと考えます。
※0208 版の新規登録へおいついたところで、第1期 Unicode 化プロジェクトを終了したいと思います。


以上です。

[PR]話題の新車を無料プレゼント中:必ず当る抽選会!今すぐ応募で簡単GET