[PR]当たる!無料占いで運命鑑定:プロの占い師による本格運命鑑定が無料で
青空文庫 派生プロジェクト
あさっての向かい風
※テキスト版は、Unicode の読み書きできる環境(Mac OS X 10.1 など)とアプリケーションが必要です
※PDF版は、Acrobat Reader や Mac OS X 付属の Preview で読むことができます
※テキストのあつかいは、青空文庫ルールに準じます
編集:志田火路司 2002.1.14
テキスト版 PDF版 幸田露伴「雲のいろいろ」
テキスト版 PDF版 芥川龍之介「るしへる」
テキスト版 PDF版 拡張ラテン文字サンプル(著作権有効につき私的以外の利用を禁じます)
テキスト版 PDF版 「記号一覧」校正待ち 2002.1.18〜
テキスト版 PDF版 「Unicode 一覧表 0000〜33D0」
以下、テキスト版のみです
二葉亭四迷訳「あいびき」イワン・ツルゲーネフ Ivan Turgenev
南方熊楠「十二支考(2)兎に関する民俗と伝説」◆
大手拓次「藍色の蟇」
芥川龍之介「秋」
芥川龍之介「あの頃の自分の事」
芥川龍之介「闇中問答」
中原中也「在りし日の歌」
芥川龍之介「或阿呆の一生」
有島武郎「或る女(前編)」
小島烏水「梓川の上流」◆
九鬼周造「『いき』の構造」◆
南方熊楠「神社合祀に関する意見」
泉鏡花「高野聖」
芥川龍之介「芭蕉雑記」
芥川龍之介「素戔嗚尊」
森鴎外「山椒大夫」
森鴎外「阿部一族」
西田幾多郎「フランス哲学についての感想」
石川啄木「一握の砂」
芥川龍之介「樗牛の事」
夏目漱石「満韓ところどころ」
内藤湖南「日本上古の状態」
若山牧水「駿河灣一帶の風光」
横光利一「マルクスの審判」
黒岩涙香「幽霊塔」
高山樗牛「瀧口入道」
太宰治「女生徒・待つ」
内藤湖南「弘法大師の文藝」
森鴎外「高瀬舟」
内藤湖南「平安朝時代の漢文學」
横光利一「碑文」
幸田露伴「花のいろいろ」◆
黒島伝治「チチハルまで」
※テキスト版の改行コードをUnix仕様(LF)からWin・DOS仕様(CR+LF)に変更しました。2002.1.17
※「最新の0208版を基本版にもちいる」という作業方針を設定し、それにしたがって修正しました。
※あとづけの変換一覧表記を統一しました。
※解凍するとファイルのみ再生するように変更しました。以上 2002.2.1
※タイトルのあとに「◆」の表記がある作品は変換が未完全であることを示しています。
「変換が未完全」とは、2002年2月現在における変換作業環境(Mac OS X10.1)では表現できない文字が含まれているという意味です。
みずたまりレポート
(みなさん、ありがとうございます)
データ管理のために、webのファイル名や構造を大はばに変更します。
既存のリンク先も、再構成したうえで随時削除しますので、ご了承ください。
しきりなおします。
「変換一覧表記」のなかに「JIS0208版変換」とありましたが、
「JIS X 0208版変換」と修正します。修正ファイルは、2002.2.1 22:00 からの公開とします。
企画の本格始動を宣言します。
青空文庫派生プロジェクト
あさってのイカロス
※「最新の0208版を基本版にもちいる」という作業方針を設定
※テキスト版の改行コードをUnix仕様(LF)からWin・DOS仕様(CR+LF)に変更
※あとづけの変換一覧表記を統一
※解凍するとファイルのみ再生するように変更
以上の理由により、ファイルを総入れかえしました。
したがって、いままで公開していたサンプルファイルは廃棄処分してください。
2002.1.25 公開した「Unicode 版への変換作業」に、下記を追加しました。
5)基本(0208)版と差しかえ(Unicode)版の関係について
Unicode版は、最新の基本版をダウンロードしてつくることにします。変換後に基本版に修正が入るばあいもじゅうぶんにありえますが、そのつど、修正するのはたいへん効率がわるくなってしまうので、その作業は、第1期プロジェクトの完了にめどがついた段階で考えることにします。
ためしに制作したUnicode版は、安易に古い頒布CDからファイルをコピーして作成してしまったものですので、いくつかの古い間違いがそのまま残っています。したがって、すでにダウンロードなさったファイルはβ版としてとりあつかい、おのおの削除してくださることをお願いします。それ以外の修正も反映させた上で、再公開します。 |
・基本(0208)版に赤字があると、さしかえ(Unicode)版でも修正する必要がでてくる。
・可能なかぎり、完全な基本版からの変換が好ましい。
・考え方 1.修正したばかりの作品から変換
2.修正がまったくない作品から変換
3.修正がはいった作品は、また修正があるかもしれない
※ いずれにせよ、古い頒布CDからの変換は好ましくない
※ 変換後に修正のはいった作品に関しては、二度手間もやむをえないか
・包摂・包摂適用除外文字について
※テキストに注記があればいまからでも変換の対象にできる
※しかし、青空テキストではJIS方針に従って注記をしてある
※Unicode変換の意義からすれば、これからの入力・校正においては、底本の字形どおりの注記をつけてもらったほうが、だんぜんいい。(入力者・校正者にとっても、包摂や適用除外を考える必要がないので作業しやすい……か)
・従来の青空方式は、屋上屋になるか……
※変換に使用する作品は、最新版(イコールweb登録版)がベター
※そのつどダウンロード
※インデックスは1つのみのほうが、管理は容易(=閲覧性は×)
・インデックスは暫定版とわりきってもらう
・利用者の立場では、青空読書カードからのリンクがいいか
・あるいは、Unicode版は0208版と混在しないように窓口も隔離したままがいいか
※最初に注記総覧を作成→作品の個別変換
・あるいは、個々に注記一覧作成→個別変換
・注記総覧≒ことえりの文字パレット……か
・Unicodeでの新規登録ということになれば、新規外字にであうだろうが、変換にすぎないのでそれはない
・未完全版:野口さんのリストからもわかる
※補助漢字??? なにをどうする? べつになにもする必要はない?
※圧縮ファイルからの検索方法
※はやめに用意:「雲のいろいろ」を例に、包括・適用除外と0208の注記からの変換の限界を解説
※青空登録作品:およそ1750冊、
・外字注記のない作品およびリンク作品をひいた数:およそ1200冊
(リンク作品をおいきれていないので、若干減る……1000冊前後か)
※エキスパンドブック版しかないものはどうするか
・1日15〜20作品×20日(ひと月分)=300〜400
3〜4か月くらいか
※Winでの改行はよくなったものの、Macで開いたときが問題か
・最初に確実にMac(CR)で保存、つぎにWin(CR+LF)……か
・登録前のMacでの確認→Virtual PCでの確認→圧縮→登録→アップロード
Unicodeのサンプルテキストを公開してきましたが、つぎの理由から、いったん公開を中断します。
・明日の本棚(0213)版をもとにした作品と0208版をもとにした作品が混在していたので、統一します
・あとづけの変換一覧表記の形式を統一します
・解凍するとフォルダに収納されていたかたちを、ファイルのみ再生するように変更します
以上の理由につき、すでにダウンロードなされたかたは、β版とご理解してしてお扱いください。
(※まぎらわしいので、削除してくださることをおすすめします)
メール「Unicode版への変換作業について」2002.1.26
web「Unicode版への変換作業」2002.1.25公開済み
メール「Unicode版への変換作業について」(2)2002.1.28
メール「Unicode版への変換作業について」(3)2002.1.29
……を公開しました。
内容は、青空文庫呼びかけ人のみなさんへの提案と、富田さんからのお返事に対する回答です。
Unicode テキストの「インデックス」をつくりました。
インデックス 【あ-きう】 【きく-たね】 【たは-むら】 【もり-ん】
「Unicode 版への変換作業」を書きました。
PDFのいやなところ
・アクロバットは起動に時間がかかる
・PDFを製作するために、別途ソフトを用意する必要があった
・データが大きくなる
・転送に時間がかかる
・プレーンテキストがリキッドスタイル(液体:形を変えることが容易)なのに対して、固定化されて、変形がしにくい
・利用できるアプリケーションが限定されてしまう
ところが、X10.1で……
・Distillerなどを介さずに、プリントのオプションでPDFができるようになった
・Xネイティブのアプリケーションなら、PDFができる
・2ストロークで作成まで、プラス1ストロークで保存までできる
・別途アプリケーションを買い足す必要がなくなった
・アクロバットだけでなく、X付属のPreviewでPDFを見ることができる
てんびんにかければ、まだまだ、不満なところがたくさんある。不満な点が解消したとしても、データ交換のためのファイルフォーマットとして適しているかといえば、×。
送り手と受け手が全くおなじものを見たい、形を固定化しておくことにより信頼性がえられる要件などの場合には、うってつけのフォーマット。しかし、再加工・再利用することが目的であるばあいには、プレーンテキストにはかなわない。
商品・ビジネス向けデータ:PDF
材料としてのデジタルデータ:プレーンテキスト
※ただし、X10.1の登場によって、PDF形式がいいままでにないような利用のされかたをする可能性もおおいにありえる。
>「田+比」を見ました。
>(1)Arial Unicode MS
しかしWordで縦書きにしたら中点になってしまいました。全然ダメじゃん。Win2000,WinXPにて。
W2000+Office2000の環境で(PDFは問題ないので)Unicodeテキストをメモ帳でフォントを変えてみた
一種類のフォントしか使えないと思っていたのですが、挙動不審のためメモした
るしへるの「田+比」(後の2つは見えそうだったので)4種類の字形が見分けられた
(1)Arial Unicode MS
(2)BatangChe,GungsuhChe
(3)MS UI Gothic,PMingLiU,Tahoma
(4)SimSun
(X)MS Pゴシック,MS P明朝
MS明朝&ゴシックはダメ
(3)のMS UI Gothic,Tahomaではその字だけ明朝風のMingLiUと同じ(に見える)字が表示
文字コード表で見てもこの字は出てこないので、この2つのフォントは自分で持ってないUnicodeの文字を他のフォント(MingLiU)から貰ってきているように思える
上のフォントはどれも(Tahomaは違うか?)Unicodeの文字が入ってますが、どれにどの文字が入っているかはバラバラのよう
MS明朝&ゴシックにはSJIS+補助漢字はあるようですが、OSやOfficeのバージョンで見えたり見えなかったりするのかも
WinXPだとPゴシック以外では表示できるようです
OfficeXPは貸し出し中でチェックできない
テキストをメモ帳では無理(98,Me≠Win2000≠WinXP)ですが、Word形式でフォントを指定してやればまあ大丈夫そう。みんなでXPを買えば問題なし(爆)
2002.1.15付 みずたまりに Developer Tool 付属のWorldTextも「第3・4水準漢字の記述」ができると
書きましたが、再度確認したところ、ヒラギノでも不可能でした。かんちがいのようです。すいませんでした。
2002.1.15付 「Unicode アソシエーション」は「Unicode コンソーシアム」のまちがいです。
訂正とおわびをもうしあげます。
Windows Me,Word2000,Acrobat Reader4.0
☆PDF版、とても綺麗に表示
プリンター、Canon BJ S200、印刷スピードは普段どおり
☆Unicode-テキスト版は、開く時に「使用するエンコード方法」でUnicode(Big-Endian)を選択
表示された文字は何となく不揃い
やはり改行は無く、「々」の字が「□」で表示されるよう
Win2000でAcrobatReader4でみたら問題ない
テキストをメモ帳で開いたら改行がおかしくて、一部の文字が出てないような感じ
Windows98SE、AcrobatReader5、プリンタ HP Deskjet880C
<PDF版>
表示/印字とくに問題なし。 印刷速度はふつうより若干おそい
<Unicode>
・Word98 表示/印字とくに問題なし。PDFの保存オプションはなし
・秀丸エディタ 3.13 表示は問題なし。印字は第3・4水準が ? に化ける
・WZエディタ 4.00C 表示不可
MSゴシック,MS明朝表示、第3・4水準の文字については、画面上の表示フォントがきれいでない
Win98SE + Word 2000
Unicode BigEndian で開く Arial Unicode MS フォントで表示
新 JIS 部分はフォントがないらしく□で表示
改行が無視
Word からの PDF 出力は Acrobat が入っている時だけのはず
ドライバを入れれば EPS は出せる(未確認)
PDF 版 Win 98SE + Acrobat 4 で表示
Canon の LIPS4 プリント遅い
Windows98&アクロバット5 PDF問題ない