えびしブログ

〜サーバーは魔法で動いているわけではない〜

【Python】正規表現でHTML解析

いろいろライブラリを教えていただいたのですが、なかなかうまくできなかったので、正規表現を使ってやってみました。

HTMLのテキストを読み込む
import re,urllib2

url = "http://~"#URL
html = urllib2.urlopen(url).read()
正規表現メモ

役に立った表現をメモしておきます。

  • タグとタグの間の空白を取り除く
html=re.sub('>\s*?<','><',html)
  • タグを取り除く
html=re.sub('<.+?>','',html)

タグを取り除く表現は下手をすると

<コンテンツ>

このようなテキストもはじいてしまうので注意が必要です…。