关于读取文件遇到UnicodeDecodeError


更改文件编码或更改译码方式

问题:

pandas在读取含有中文字符的csv文件时报错,因为python默认的编码方式是‘ utf-8’,而这个文件的编码是‘gbk’。

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb1 in position 0: invalid start byte

解决办法:

data=pd.read_table('province.csv',
sep=',', names=cnames, encoding='gbk')

将译码方式设置为encoding='gbk'

这里,sep=',',因为 csv 文件是逗号分割文件。names=cnames, cnames是设置的列的名字。

其他注意:

保存问件时,为了后续处理方便,可以统一用utf-8编码。

更改txt,csv文件的编码方式:

  • 用记事本打开,另存为,右下角选择编码方式。

  • sublime text3 也可以更改编码方式。可以将sublime text3的默认编码方式设置为utf-8。

智能推荐

注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
© 2014-2019 ITdaan.com 粤ICP备14056181号  

赞助商广告