租房数据爬取工作汇总

作为自己的第一个业余项目，从2017年3月份开始缓慢进行到7月份，已经有5个月左右。项目起源于毕业设计，分析租房的特征与价格的影响关系，逐渐发展成一个业余的小项目。在北京租房真是一个难题，租房中介那么多，如何对中介之间的租房价格进行对比，租房价格如何制定的，有没有什么规律，哪片区域的价格便宜等问题都是很头痛的问题。

我爱我家，自如，蘑菇租房等中介的网站上一般只提供房源列表信息，租客只能通过筛选条件来找到自己想要的房，却无法从整体上来看价格的分布情况，哪个区域平均价格如何，区域之间的价格对比等信息。只知个体，却无法窥其全貌，在租房的时候就无法做到心中有数，价格全凭中介忽悠。因此创建这个项目的目的有两个：1、找到一个潜在的制定租房价格的一个规则，租房时可以参考；2、全貌展示租房数据，让租客做到心中有数。

项目的主要工作

该项目主要涉及到房源数据的采集，整合，格式化，入库。然后建模应用，前端展示等工作。
1、数据采集：爬取自如，5i5j，蘑菇租房等房源的数据
2、对数据进行建模分析，寻找定价的规律
3、数据前端展示和应用

涉及技术

项目主要涉及Python、爬虫、数据分析处理、mongo、机器学习算法，前端工程，算是一个比较完整的个人项目。

项目进展

从3月份开始到现在，我逐渐采集了自如，5i5j，蘑菇租房的数据。采集代码开始全部由自己写的，没有借助相关的爬虫框架，采集的字段之类的也不完善。后续逐渐进行优化，到6月初，主要进行了以下的优化。
1、采集代码已经全部用scrapy框架进行重新编写
2、采集由每日手动执行过度到每天自动采集
3、统一了不同房源的存储字段，方便后续的数据分析和统计
4、完善了采集策略，增加每日入库数据的监控。
截至7月初，爬虫采集比较稳定，总共采集数据大约110万条数据，每天新增数据月1.3万条。里面包含了许多已经采集过的房屋数据，但是可以用了监控一个房屋的价格走势。

在5月份的时候做了一个自如的房源前端展示系统。主要展示自如房源的分布情况，可以查看房屋的相关信息，价格走势。

也可以对数据进行自定义查询，如查询10号线上的自如房源，可以计算出10号线上的区域均价等，作为租房的一个参考。

同时也做了部分数据分析工作，初步使用多元线性回归模型对房价进行拟合。所得到的模型可以用来对房屋进行一个价格的评估，但是也仅仅做为一个参考，后续需要优化改进的地方很多。

未来的工作

现阶段主要做的是采集工作，现在数据采集模块已经稳定下来，暂时不会有变动。后面两个月的工作将从以下的几个方面展开：
1、采集监控，报警机制的建立

监控指标：每日采集量，采集时间统计
监控形式：邮件，监控页面

2、数据可视化

监控指标可视化
数据多维可视化，自定义查询
各个源数据进行比较

3、房屋评论数据采集
采集知乎，豆瓣，简书的租房方面的评论，文章等，用于分析用户关注的热点词，情感分析等。作为房源数据采集的一个补充。

阶段总结

在北京租房是一个很痛苦的事情，作为刚毕业的大学生，也尝试到这种痛苦。作为一个技术man，我想要用技术手段来减轻租客在租房时的痛苦，这使得我的工作是有一定意义的。前几个月的工作推进的比较缓慢，后续将加快进展，希望在2017年的年底能够做出一个可对外使用的版本。
通过这段时间的工作，我逐渐熟悉了Python，爬虫的编写，mongo数据库等相关技术，并巩固和提升了自己的前端技术。同时也逐渐的学习了机器学习相关知识。一个小项目能够让人学到很多东西。