BeautifulSoupでHTML/XMLを読み込む時は、文字コードを明示的に指定しておくのが良いということだ。
例えば、取得先ページのHTML/XMLの文字コードが euc-jp なんかだった場合は、以下のようにすれば文字化けに悩まされなくて済むわけである。
utf8html = html.decode('euc-jp', 'replace')
bs = BeautifulSoup(utf8html)
ここはひとつポチっとよろしく。

エキスパートPythonプログラミング
posted with amazlet at 11.06.17
Tarek Ziade
アスキー・メディアワークス
売り上げランキング: 4805
アスキー・メディアワークス
売り上げランキング: 4805
プログラミング Google App Engine
posted with amazlet at 11.06.03
Dan Sanderson
オライリージャパン
売り上げランキング: 40082
オライリージャパン
売り上げランキング: 40082
【GAE for Pythonの最新記事】
- GAE/Pでmemcacheを利用してデ..
- PythonでJST日付をUTC(GMT..
- GAE/Pで詳細なエラーログ(トレース情..
- Pythonでオブジェクトのlistをソ..
- GAE/PでAspyctを使ってAOP(..
- GAE/Pでカスタムタグを作って日付をU..
- GAE/PでBeautifulSoupを..
- GAE/Pでログインが必要なページを取得..
- GAE/Pでファイルアップロード。
- GAE/Pでリクエストデータの扱い方。
- GAE/PでCRONを使ったスケジュール..
- GAE/PでModelをJSON変換する..
- GAE/P向け統合開発環境 Eclips..
- GAE/PとjQueryでJSONデータ..
- GAE+Pythonの標準モジュールだけ..
- GAE+Pythonでテンプレートの共通..
- GAEアプリをアップロードする方法。
- GAE+Pythonでテンプレートエンジ..
- GAE+Pythonでデータストアを操作..
- webappフレームワークを使ったフォー..