XII

    <<  python处理gzip压缩的http数据 | 首页 | plurk被墙  >>
  • 2009-04-15

    关于抓取中文页面的一点小总结 - [python]

    版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明
    http://no12.blogbus.com/logs/37940829.html

    说起来简单,但也是经过好几个项目,来来回回出问题得出来的。

    • 最终转成UTF8输出是毋庸置疑的。
    • 抓的如果是中文页面的话,用GB18030来decode是比较正统的方法,gb2312是一个误区,其实我们的页面中使用的字符编码已经早就超出2312的那些了。
    • 明明是中文页面抓回来却没法用18030来decode的话,一般是因为页面中混杂了非法字符的原因,可以用ignore忽略掉非法字符。(还是最近在邮件列表里偶然看到的)

     


    历史上的今天:

    csv模块“line contains NULL byte”错误解决方案 2008-04-15

    随机文章:

    Python客户端使用urllib2模拟表单上传文件 2009-07-06
    python处理gzip压缩的http数据 2008-10-27
    Plurk是用Python写的? 2008-10-20
    ubuntu安装ibus 2008-09-04
    urllib.unquote() 2008-08-31

    收藏到:Del.icio.us




    Tag:python decode
    引用地址:
    oalaio 发表于20:41:02 | 编辑 | 继续话题 | 转发 | 分享 0

搜索

最新日志

  • lego technic系列2010年新货色
  • Shanghai Skyline V
  • 哈哈哈哈,vim中的宇宙终极答案
  • Shanghai Skyline IV
  • Python客户端使用urllib2模拟表单上传文件
  • Taki Easi
  • 楼下的花都开了
  • plurk被墙
  • 关于抓取中文页面的一点小总结
  • python处理gzip压缩的http数据
全部日志>>

最新评论

  • 文迪:这张好看~ 请把405D随身带随手拍~...
  • IUnknown:求教:这样的代码高亮效果是怎么做出来的啊?...
  • an:貌似,沪闵高架中段
  • an:貌似,上体馆附边儿边儿??...
  • 文迪:看来看去还是http://no12.blogbus.co...
  • 文迪:09年了哎~
  • hatoyu:那么便宜啊,拿来用VIM做开发应该很合适了啊。...
  • hatoyu:你老兄怎么开始用blogbus的博客了啊...
  • hatoyu:opera主要是比较简洁,适合访问英文网站,中文网站不光...
  • alai:系的。
  • RSS 什么是RSS?
    用IM提醒我内容更新
    订阅到QQ邮箱
    订阅到鲜果阅读器
    订阅到Google阅读器
    订阅到抓虾阅读器
  • 《城客》第四期:创意之城
    博客大巴
    博客大巴使用指南
    博客大巴模板中心
    免费注册博客大巴
    一键博客搬家工具
    中文互动杂志城客
Copyright © 2002-2009 BlogBus.com, All Rights Reserved. 博客大巴 版权所有
博客大巴模板设计:简约风格2 | 作者: innocent_sin