【Python】正規表現でHTML解析
いろいろライブラリを教えていただいたのですが、なかなかうまくできなかったので、正規表現を使ってやってみました。
HTMLのテキストを読み込む
import re,urllib2 url = "http://~"#URL html = urllib2.urlopen(url).read()
正規表現メモ
役に立った表現をメモしておきます。
- タグとタグの間の空白を取り除く
html=re.sub('>\s*?<','><',html)
- タグを取り除く
html=re.sub('<.+?>','',html)
タグを取り除く表現は下手をすると
<コンテンツ>
このようなテキストもはじいてしまうので注意が必要です…。