编码常见问题

爬取页面的时候,需要比较一下字符串再入库,惊奇的发现两个相同的字符串用strlen()查看长度不一样,首先想到是编码问题。

吐槽一下window的cmd,utf-8会乱码,给调试造成很大不便

首先用mb_detect_encoding查看字符串编码
mb_detect_encoding($val,  array("ASCII","UTF-8","GB2312","GBK","BIG5"));

发现编码是EUC-CN,吼,真不是常见的编码啊。
遂想全转成utf-8岂不是美滋滋,结果华丽丽的乱码了。

于是把要比较的字符串转成EUC-CN了~
mb_convert_encoding('物业类别', 'EUC-CN', 'UTF-8')

(ps:该1个字符两个字节~)

“编码常见问题”的一个回复

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注