メーリングリストの検索システムの問題

チェルトの概要が、とりあえず、
300話近くまでストーリーの方向性がやっと決まりました。
まだ煮詰めてないところが多々あるのですが、
「オルテガが、何故、にじのしずくがないのにわたれたのか?」
ここがずっと悩んでいたんですよね。
で、、1つ、カンダタの話が終わった後、
オリジナルストーリーを書こうかな~って思います。
もっとも、カンダタ編だけであと、30話くらい続きそうなので、
かなり先になりそうですが・・・
ただ、本編を書く時間がなかなかとれない。
ためて書いたチェルトもあと5話くらいしかないし。
このままでは、チェルトの原稿がつきてしまう。
10話くらい常にストックがあると、ゆとりをもって更新できるだけれど。
そういえば、土曜日は本棚を買ってきた。
新宿に行っていたんっすよ。
What’s マイケルを始め、ダイの大冒険やら、バスタードやら、こちかめやら、
入りきらない本がいっぱいあって、
すでに、3つの本棚(1つの本棚に約200冊)入るのだが、
もうすでにぱんぱんで、段ボールにつめてあったり、
別のところに、置いてあったり、もう本が収納できなくて、
それで、無印と東急ハンズ、デパートなど行って見てきた。
ハンズに、6000円で、6段もあり、さらに、二重に入るので、
その1つの本棚で、300冊くらい入りそうです。
ただ、本棚って、意外に見つからないですね。
伊勢丹や、丸井など、デパートにも行ったんです。
家具のコーナーに本棚ってあるんじゃないかなって思って。
でも、本棚ないんです。
きれいなテーブル、ベット、ソファー、仏壇、
そういうものはいっぱいありました。
しかもデパートの家具はお値段の桁も1つ違い、
50万円とか普通にしました。
一般庶民には買えないよ~
本棚なんて、貧乏チックなものは、
デパートでは置かないよ~ってことなのでしょうか(笑)
全然本棚、ないんです。
ふん・・・・いいもん・・・・どうせ、デパートなんて
高級チックなところ、安田は一生関係ないから(ぷん)
金曜日に本棚届きます。
楽しみ~~♪
でも、OFF前日だから、本棚組み立てられない~(悲)
来週、ついに第3回OFF会ですね。
楽しみにしてま~す~!
あと、ファイナルファンタジー10の攻略法
「ファイナルファンタジーX ULTIMANIA」買いました!
2冊!この本、分厚すぎです。
また本が増えた・・・・
と、ここまでが、雑談掲示板の内容を、修正してした内容。
で、このあとに書くのは、まだどこにも書いてないんだけれど、
今、「メーリングリストの検索システム」を作ろうかと
ここのところ、ずっと作業をしていた。
過去のメーリングリストのメールをすべて掲載しているんだけれど、
大手のメーリングリストのHP
(安田が個人で加入しているメーリングリストは、DreamweaverのML。
 前は、FlashのMLも入っていたけれど、数が多すぎて、やめた(笑))
こういうところのメーリングリストって、過去記事が検索できるようになっているんだよね。
http://w3.fast.co.jp/dw/
だから、質問内容や検索したいときも、その記事から検索できるっていうわけ。
ミディリンも、ゲームや、音楽についてにのメーリングリストは
結構過去記事を見ると、タメになるから、
これについて検索できるようになるといいと思ったわけだ。
ただ、ここで、何個もの問題点が。
まず、私は、Outlook Expressを使っているので
メールの方式が拡張子がemlなので、これを見られるようにすると、
2つ問題点がでてくる。
1つは、Outlook Expressを持っている人しか見られないこと。
もう1つは、eml方式には、ヘッダ情報も入っているので
よけいな情報まで見えてしまう、この2点が問題になってしまう。
そこで、他のMLはどうやってメーリングリストの内容を、
Web上に掲載しているのか研究していたのだが、
メールの内容をHTMLにして、それを掲載しているんだね。
そして、それを件名を順に並べ、それにリンクを張るというわけだ。
また、検索フォームからも記事を検索できるようにしてある、
理想なメーリングリスト記事検索システムだね。

今現在、ミディリンのメーリングリストの数は、
旧メーリングリスト(ゲームML+音楽ML共通)が約1250通
ゲームMLが280通
音楽MLが110通
ということで、約1600通弱
ということになる。
さて、これらのメールをメーリングリストの記事検索システムを
作るのにどういう手順・作業が必要か考えてみよう。
まず、

(1)emlのメールを、Web上に掲載できる形に変換する(HTMLかTXTに変換)
(2)インデックス(目次)を作り、そこから、MLのメールのリンクをすべてはる(リンクの名前はメールの件名)
(3)検索システムを作成する

大きくわけるとこのような手順だ。
これらを実現するには、どのようにしたらできるか試行錯誤したところ、

(1)と(2)は、5本のアプリケーションを使ってできる
のではと、予測をたてている
(使用アプリケーションはFileVisor4、Excel、Winrename、OETool、Devasか秀丸など置換機能があるもの)

さて、まず、(1)のeml->html、txt変換なのだが、
これは、Outlook Expressをお持ちの方ならわかると思うが
メールをクリックしたあと、ファイル→名前をつけて保存->ファイルの種類をTXTで保存、
これで可能である。
ただ、問題は、これは1通1通保存しなおすしか方法がないのだ。
(Outlook Expressでは、まとめてTXTでは保存できない)
そこで、どうにかして、フォルダにあるメール(eml)をTXTで保存できないかと、
vectorにいって、ツールを探していたら、ちょうど良いソフトがあった。
「Outlook Express のかゆいところに・・・ OETool」
というソフトがあり、これを使うと、
フォルダを指定すると、あとは自動的に、1通1通を保存してくれるという代物なのだ。
ただ、Win95とWin98では、動くのだが、W残念なことに、Win2000では、動かない。
私が使っているメインPC:ゲートウェイは、トリプルブートで
一応、Win98とWin2000とLinux(Red Hat7)の3つのOSを共存させているのだが、
今、Win98がまったく機動しない状態で、このソフトが使えないので
古いCanbeを持ってきて(OSはWin95なので動作する)
Canbeに、Outlook Express5と、そのツールをインストールして、
LANで、1650通のメールを全部、Canbe上でインポートして、
そのソフトで変換作業を行った。
CPUが100Mhz、メモリが16Mしかないから、もう遅いのなんのって・・・
途中で何回もメモリ不足がおきて再起動したが、
約12時間くらいかけて、1650通のeml→TXTに変換に成功。
次に、件名一覧の作成
これで、目次をつくり、それぞれのファイルに一覧にするわけだ。
これを一件ずつ、メールの名前を件名をカットアンドペーストするのはめんどくさいので、
Outlook Expressの1650通をドラックアンドドロップし、
eml方式で、HDDに別保存したあと、
FileVisorで、ファイル名一覧を出力、
そのあと、オブジェクト方式だと、そのまま、emlのファイルをコピーしてしまうのでテキスト方式をコピーし、抽出する。
そして、Devasか、秀丸を使い、ドライブ名や、相対パスなどいらない情報を一括置換して削除
そのファイル名一覧が・・・・・これ
このファイル、作成するの、手作業やったらきっと一ヶ月はかかる(^^;
アプリのおかげで、ファイル名の書き出しだけなら、作成時間、30分くらい。
で、今日はここまでしか作っていないのだが、
このあと何をするかというと
このTXTファイルをエクセルに張り付けるわけだな。
それで、その前後に、エクセルのアンカータグを書き、
ファイル名を連番
で作る。
1.txt、2.txt、3txtっていうふうに1650.txtまで)
これは、エクセルを使えば一瞬でおわるから。
そのあと、ファイル名が、件名.txtになっているので
順に1.txt、2.txt・・1650.txtとしないといけないので、
こちらは、winrenameを使い、連番でファイル名の変換を行う。
winrenameでなくて、連番屋さんでもできると思うけれど。
これを合体させることで(1)と(2)の完成なわけだ。
そして、検索としては、トップページの音楽検索のところで使っているCGIを使えば、
完成なのだが・・・
またここで1つ問題がでてくる。
ファイル数が多すぎるのだ。
結局、CGIベースで動かすとなると、Perlになるのだが、
1650通のTXT変換をすると、たぶん、Perlだと落ちると思うのね。
まだ試していないけれど。
そうなると、検索できないだなぁ・・・
本来なら、サーバーを自前にもっていて、
namazuというフリーの検索システムをサーバーにインストールして
(DreamweaverML:http://w3.fast.co.jp/dw/も同じ)
これを検索するか、
もしくは、データベース(Accessや、Oracleなど)と連携して、
Aspでやらないと不可能なのね。
一応やってみるだけやってみるけれど、(3)で
たぶん、ダメになりそうなんだよなぁ・・・

タイトルとURLをコピーしました