爬取页面的时候,需要比较一下字符串再入库,惊奇的发现两个相同的字符串用strlen()查看长度不一样,首先想到是编码问题。
吐槽一下window的cmd,utf-8会乱码,给调试造成很大不便
首先用mb_detect_encoding查看字符串编码
mb_detect_encoding($val, array("ASCII","UTF-8","GB2312","GBK","BIG5"));
发现编码是EUC-CN,吼,真不是常见的编码啊。
遂想全转成utf-8岂不是美滋滋,结果华丽丽的乱码了。
于是把要比较的字符串转成EUC-CN了~
mb_convert_encoding('物业类别', 'EUC-CN', 'UTF-8')
(ps:该1个字符两个字节~)
博主加油thank