-
2009-04-15
关于抓取中文页面的一点小总结 - [python]
版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明
http://no12.blogbus.com/logs/37940829.html
说起来简单,但也是经过好几个项目,来来回回出问题得出来的。
- 最终转成UTF8输出是毋庸置疑的。
- 抓的如果是中文页面的话,用GB18030来decode是比较正统的方法,gb2312是一个误区,其实我们的页面中使用的字符编码已经早就超出2312的那些了。
- 明明是中文页面抓回来却没法用18030来decode的话,一般是因为页面中混杂了非法字符的原因,可以用ignore忽略掉非法字符。(还是最近在邮件列表里偶然看到的)
随机文章:
Python客户端使用urllib2模拟表单上传文件 2009-07-06python处理gzip压缩的http数据 2008-10-27Plurk是用Python写的? 2008-10-20ubuntu安装ibus 2008-09-04urllib.unquote() 2008-08-31
收藏到:Del.icio.us







