头疼的编码问题

爬一个站点的时候遇到一个字符编码的问题,在此记录,以防忘记解决思路:

场景:网站正文内容编码gb2312,使用工具selenium,urllib.request

selenium得到字符串数据,暂时没解决乱码问题。因为不知道内部字符编码过程。

用urllib.request得到bytes类型数据,decode('gb18030')就可以把字节串解码为相应字符串



思想:在python3中有字符串和字节串概念,二者对应关系为:

字符串=》encode('相应编码')编码为=》字节串=》decode(’相应编码‘)解码为=》字符串


requests库一个比较灵性的办法:

    import chardet

    import requests

    res = requests.get('https://baidu.com')

    real_encoding = chardet.detect(res.content)['encoding']

    res.encoding = real_encoding

    html = res.text

    

网友评论

0条评论

发表

网友评论

0条评论

发表

最新评论

推荐文章

彩龙

Copyright © 2008-2019 彩龙社区(http://www.clzg.cn) 版权所有 All Rights Reserved.

免责声明: 本网不承担任何由内容提供商提供的信息所引起的争议和法律责任。

经营许可证编号:滇B2-20090009-7

下载我家昆明APP 下载彩龙社区APP