中文乱码的解决之道,理清UTF8,UTF16,GB2312,Big5,Unicode之间的关系
Category : 软件技术
对于使用中文的程序员们来说,中文乱码是经常碰到的问题,对于经验不是很丰富的程序员来说,中文乱码还是个相当头疼的问题。
我们知道,计算机中最简单也是最常见的编码方式是ASCII编码,由于英文字符很少,一个字节就足以表示,所以ASCII码以字节为单位,非常简单方便。然而,汉字的字符却很多,需要用2个字节才能表示完全,所以才有了各种其他的汉字编码方式。
专注于中小型企业IT服务,为您寻找更好的IT解决方案
Category : 软件技术
对于使用中文的程序员们来说,中文乱码是经常碰到的问题,对于经验不是很丰富的程序员来说,中文乱码还是个相当头疼的问题。
我们知道,计算机中最简单也是最常见的编码方式是ASCII编码,由于英文字符很少,一个字节就足以表示,所以ASCII码以字节为单位,非常简单方便。然而,汉字的字符却很多,需要用2个字节才能表示完全,所以才有了各种其他的汉字编码方式。
事实上现在已经有很多非常不错的数据采集工具了,有收费的也有免费的,闻道软件工作室在做第一个与爬虫相关的软件定制开发项目时最先考虑的方案就是使用现成的数据采集工具采集数据,然后再做二次加工。然而事与愿违,我们使用的好几款工具或多或少都有一些不尽人意的地方。要么是配置做得太死没办法扩展数据采集需求,要么是功能做得太强又导致配置相当复杂。为此,我们决定使用python写一个定向数据采集的框架。
在数据库中查找包含某一个关键词的内容,用SQL语句的like写起来非常简单。但是,在实际应用中,like的效率非常低,为了能满足在有大量数据的情况下快速查找的需求,我们需要对数据建立索引。
对某一特定内容的数据建立全文索引无疑有不小的工作量。但是,已经有很多人、很多工具都做了很多这方面的努力,本文讲述的就是一种利用Mysql进行中文全文检索的方案。
Category : 软件产品
闻道软件工作室成立至今接近一年,团队成员都是兼职的工程师,由于各自有全职的工作,项目周期和产品规划都拖得很长,项目经常有延期的风险。
Category : 软件产品
除了承接软件定制开发的业务外,闻道软件也在逐步打造我们自己的产品。
www.projSpider.com是由闻道软件工作室开发的网站,其主程序是基于Python的实时网络爬虫,抓取了网络上主流的软件项目外包平台以及威客平台上的私活信息,使程序猿们能第一时间找到自己合适的项目,网站采用PHP+MySql开发,支持中文全文检索。