2011年06月22日

BeautifulSoupオブジェクトを生成する前にHTMLを明示的にdecodeすべし。

以前にBeautifulSoupの使い方を軽く紹介したが、文字コードについて大切なポイントを書くのを忘れていた。

BeautifulSoupでHTML/XMLを読み込む時は、文字コードを明示的に指定しておくのが良いということだ。

例えば、取得先ページのHTML/XMLの文字コードが euc-jp なんかだった場合は、以下のようにすれば文字化けに悩まされなくて済むわけである。
utf8html = html.decode('euc-jp', 'replace')
bs = BeautifulSoup(utf8html)


ここはひとつポチっとよろしく。
人気ブログランキングへ

エキスパートPythonプログラミング
Tarek Ziade
アスキー・メディアワークス
売り上げランキング: 4805


プログラミング Google App Engine
Dan Sanderson
オライリージャパン
売り上げランキング: 40082



posted by 寄り道退屈男 at 17:38 | Comment(0) | TrackBack(0) | GAE for Python
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス: [必須入力]

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
※ブログオーナーが承認したコメントのみ表示されます。
この記事へのトラックバックURL
http://blog.sakura.ne.jp/tb/46202811
※ブログオーナーが承認したトラックバックのみ表示されます。
※言及リンクのないトラックバックは受信されません。

この記事へのトラックバック