• 说起来简单,但也是经过好几个项目,来来回回出问题得出来的。

    • 最终转成UTF8输出是毋庸置疑的。
    • 抓的如果是中文页面的话,用GB18030来decode是比较正统的方法,gb2312是一个误区,其实我们的页面中使用的字符编码已经早就超出2312的那些了。
    • 明明是中文页面抓回来却没法用18030来decode的话,一般是因为页面中混杂了非法字符的原因,可以用ignore忽略掉非法字符。(还是最近在邮件列表里偶然看到的)