【Python】正規表現でHTML解析

いろいろライブラリを教えていただいたのですが、なかなかうまくできなかったので、正規表現を使ってやってみました。

import re,urllib2

url = "http://~"#URL
html = urllib2.urlopen(url).read()

役に立った表現をメモしておきます。

html=re.sub('>\s*?<','><',html)

html=re.sub('<.+?>','',html)

タグを取り除く表現は下手をすると

<コンテンツ>

このようなテキストもはじいてしまうので注意が必要です…。

えびしブログ