美文网首页
我是怎么找房子的

我是怎么找房子的

作者: 巴拉巴拉_9515 | 来源:发表于2017-06-23 13:36 被阅读0次

找房子、搬家一直是很麻烦的一件事,如果使用爬虫会不会好一些呢?

01、网站选取

明确不想找中介了,所以选择赶集网西湖区个人房源作为主要信息搜集网站

赶集网

02、爬取内容

先明确一下要爬取的内容:时间、价格、地址、格局都是很重要的信息

爬取内容

03、爬第一页试验一下

步骤一、基础信息

先把标题、信息、地址都爬下来


基础信息
library(rvest)
library(stringr)
url<-"http://hz.ganji.com/fang1/xihu/a1/"
web <- read_html(url)
xinxi<-html_nodes(web,'.address , .size , .title-font')%>%html_text()
xinxi<-gsub("\n","",xinxi)
xinxi<-gsub(" ","",xinxi)
length(xinxi)
#--------------------------------------------------------->title
title<- xinxi %>% .[seq(1,length(xinxi),3)]
title
house<-as.data.frame(title)
message<- xinxi %>% .[seq(2,length(xinxi),3)]
message
area<- xinxi %>% .[seq(3,length(xinxi),3)]
area
house<-cbind(house,message,area)
house<-house[1:34,]

步骤二、价格、时间

然后把价格和时间也爬下来


价格、时间
#--------------------------------------------------------->price
price<- html_nodes(web,'.num')%>%html_text()
price<-price%>% .[c(2:35)]
house<-cbind(house,price)
#--------------------------------------------------------->time
time<- html_nodes(web,'.time')%>%html_text()
house<-cbind(house,time)

04、建立循环

租房是有时间要求的,帖子的时间太久了就不合适了,所以打算爬取前30页的租房信息。

1368条租房信息
site1 <- "http://hz.ganji.com/fang1/xihu/a1o"
site2 <- "/"
page <- 2
ganji<-house
for(page in 2:30){
  site <- paste(site1,page,site2,sep="")
  web <- read_html(site)
  xinxi<-html_nodes(web,'.address , .size , .title-font')%>%html_text()
  xinxi<-gsub("\n","",xinxi)
  xinxi<-gsub(" ","",xinxi)
  #--------------------------------------------------------->title
  title<- xinxi %>% .[seq(1,length(xinxi),3)]
  house1<-as.data.frame(title)
  message<- xinxi %>% .[seq(2,length(xinxi),3)]
  area<- xinxi %>% .[seq(3,length(xinxi),3)]
  house1<-cbind(house1,message,area)
  house1<-house1[1:46,]
  #--------------------------------------------------------->price
  price<- html_nodes(web,'.num')%>%html_text()
  price<-price%>% .[c(2:47)]
  house1<-cbind(house1,price)
  #--------------------------------------------------------->time
  time<- html_nodes(web,'.time')%>%html_text()
  time<-time%>% .[c(1:46)]
  house1<-cbind(house1,time)
  ganji<-rbind(ganji,house1)
}

05、开始找房子了

直接在excel里操作很方便:

(1)先按时间降序,6月15以前的招租信息就不要了
(2)考虑现在的房价,价格低于1000的字段也不要
(3)·······根据跟人条件看吧

所有赶集网的租房信息就看完了

06、隔三差五要运行一遍程序

因为网站信息不停在变化,所以隔三差五运行一遍,会有新的租房信息的。

相关文章

  • 我是怎么找房子的

    找房子、搬家一直是很麻烦的一件事,如果使用爬虫会不会好一些呢? 01、网站选取 明确不想找中介了,所以选择赶集网西...

  • 我是找房子的人

    这段时间日剧《卖房子的人》的国内改编版《安家》在东方卫视热播。为什么我会关注这部国产剧因为职业的原因。我刚到上海的...

  • 找房子,找房子

    一连培训好几天,今天终于要放假了。快下班的时候突然想起来自己还不知道公司上班地址,不好找房子,赶快问了知道的同事,...

  • 昨天竟然忘更新,不开心

    昨天我都在忙着啥呀,怎么会忘记更新呢? 脑子里搜寻千百遍,好吧,我最近在找房子,脑子里都是租教室啊找房子之类的事情...

  • 去魔都打拼很美,现实却很骨感(2)

    PART 2 找房子和初入职 工作落实之后,我开始准备找房子,非常幸运的是找房子的过程一点都没有折腾,之前...

  • 我是怎么找资源的

    朋友性格较懒,总让我帮忙找东西,从而锻炼出一些搜索资源的小本领。在此,分享一下。毕竟授人以鱼不如授人以渔。以后还能...

  • 我是怎么找电影的

    上篇《我是怎么找电子书的》反响不错,小窃喜。都说两项最高回报的时间投资:一是读书,去别人的灵魂里偷窥;二是电影,去...

  • 我是怎么找灵感的

    想每天都写些东西,但也不是每天都有新脑洞和想写的东西的,要说写流水账的话倒是也可以,但我不是太乐意,写了不快乐。 ...

  • 这三条你看完, 如果还不能快速找房, 算我输!

    找房子,找房子,还是找房子,找房子真的很烦心,不管是在网上看好然后打电话核实还是找中介去实地看房,可能你浪费一天的...

  • 找房子

    2012年10月11日 周四 天气晴 前段时间就一直在找新房子,也叫市场上的几个邻居帮我留意,可是相了几个都没...

网友评论

      本文标题:我是怎么找房子的

      本文链接:https://www.haomeiwen.com/subject/hukccxtx.html