(一)HBase的特性和架构

HBase是一个高可靠,高可用,高性能,面向列,可伸缩,支持海量的数据存储的分布式数据库。本文主要学习一下HBase的主要特性和HBase架构。

阅读全文

数据分析学习(一)

工作之余,开始学习《利用Python进行数据分析》这本书,开始准备将采集到的房屋数据进行统计,挖点有用或者好完的数据出来。
先拿这本书中的1880-2010年间全美婴儿姓名的一部分来练练手,熟悉下IPython和Jupyter Notebook这个高级货。

阅读全文

Nginx空主机名设置

web服务器如果没有设置空主机名的,就造成在浏览器中直接输入IP地址,而不是输入绑定的域名就能直接访问服务器的问题,很容易受到域名恶意解析的攻击。

阅读全文

(三)IntelliJ IDEA+maven的HBase开发环境搭建

之前都是用Python来操作HBase,现在要尝试在新的业务上使用Java来开发业务代码,毕竟HBase是用Java开发了,提供了完整的Client API来操作HBase。第一步就是搭建HBase的Java开发环境。

阅读全文

租房系统进度记录

2017/02/18

开始采集自如的房源数据,当日采集数据1060

阅读全文

租房数据爬取工作汇总

作为自己的第一个业余项目,从2017年3月份开始缓慢进行到7月份,已经有5个月左右。项目起源于毕业设计,分析租房的特征与价格的影响关系,逐渐发展成一个业余的小项目。在北京租房真是一个难题,租房中介那么多,如何对中介之间的租房价格进行对比,租房价格如何制定的,有没有什么规律,哪片区域的价格便宜等问题都是很头痛的问题。

阅读全文

Hive分区测试

对大量数据进行查询时,Hive在查询时,会转换成mapreduce任务运行,会显得比较慢。可以通过分区来进行速度上的优化。

阅读全文

单机mongo安装和权限问题解决

本文记录了在centos7.3上安装mongodb3.4,配置优化,设置权限,并解决了修改数据目录后,由文件权限导致的mongo启动问题。

阅读全文

爬虫入门总结

自己毕设做的是关于租房房价方面的分析,使用简单的多元线性回归模型来拟合租房的价格,需要采集一些租房的数据来做分析。我也就简单的入门了爬虫,陆续采集了自如、蘑菇租房、我爱我家的租房数据。本文对我学习爬虫的过程以及相关方面做个总结。

阅读全文

2017年2-4月阶段总结

2017年从2月到4月底已经过去了三个月,回首过去,总结经验,展望未来。本文将从以下几个方面对过去的三个月做个总结。

阅读全文