« アクセスログより | トップページ | イベントハンドラの登録 »

2009年4月17日 (金)

Excel → 加工しやすい HTML

Microsoft Excel 2000 から「Web ページとして保存」した HTML ファイルは、不要なタグが多過ぎて正直あまり使えません。そこで、Microsoft Office HTML Filter 2.1 を使って Office 独特のタグを取り除きますが、さらに、邪魔なものを JavaScript の正規表現置換を使って削除します。

【ルビの削除】

<ruby>([^<]+)<rt>([^<]+)</rt></ruby> → $1

【幅と高さの指定の削除】

\s*height=\d+ → (削除)
\s*width=\d+ → (削除)

|

« アクセスログより | トップページ | イベントハンドラの登録 »