CONTENTS

Perl、難しいんですけど…

この間消してしまった data ディレクトリの中身を個別記事ファイルから復旧しようと画策中。目標はHTML を解析して必要なブロックのデータをタグつきでまるまる取り出すというただ1点なので、モジュールを利用すればさくっといけちゃうのかな、なんて殆ど触ったことがない perl に手を出してみたのですが。わ、分からない…

CPAN 見てもどのモジュールが使えるのかよく分からないし、使うにしてもインストールしなきゃならん(しなくてもいいやつもあるけど)ということに気づくまで2日くらいかかりました(遅っ!)

で、先ほどやっと HTML::TreeBuilder つかって該当部分のデータを抜き出すところまでできたのですが、as_HTML() 呼び出したら2バイト文字が全部実体参照に…。as_text() なら大丈夫だけど、記事のタグが消える。…先は長そうだなぁ。


NAVIGATION

Profile