SlideShare a Scribd company logo
1 of 47
好房底加啦!
住房區位探索
第三組
許馥顯、吳駿盛、鍾奇穎
莊文男、鍾仁雄、官展履
專題簡介
許馥顯
專題源起
購屋的三大重點:地點!地點!地點!
千金買屋,萬金買鄰
孟母三遷~
對象:首購族
目的:
幫助首購族方便了解所欲購屋附近區域及相關價位
DEMO
莊文男
DEMO
Agenda
成員介紹
需求及系統功能描述
系統架構
資料來源處理
資料庫處理
前端處理
房價預測
未來發展方向
系統架構
組員
工作
許馥顯 吳駿盛 鍾奇穎 莊文男 鍾仁雄 官展履
ETL o o o o
資料庫 o o o o
前端
Web o o
資料分析 o o o
E T L
吳駿盛
ETL
Extract, Transform, Load
– 「準備好後續功能開發與分析所需的資料」
「一個待售物件附近的設施與區位條件為何?附近有哪些實價
登錄案例?」
– 三套資料: 待售物件、設施與區位條件、實價登錄案例
– 兩個距離: 待售物件和設施與區位條件、待售資料與實價登錄案件
每套資料都要有座標,才能計算距離
取得資料、清理資料、座標轉換
使用工具:python(pandas等套件),QGIS
ETL-物件資料
 九月第一個禮拜進行,共抓取七間房仲網站,位於台北市與新北市的住宅物
件資料,共115979筆資料
 已有座標資料(經緯度)
 資料清理步驟:
– 欄位對齊,檔案合併
– 刪除無效資料
– 刪除重複資料
– 資料檢查
ETL-設施資料
主要有四類設施、區位條件資料
– 教育:幼稚園、國小、國中、高中職、大專院校
– 購物:便利商店、超市、量販店、菜市場
– 交通:公車站,捷運站,U-Bike站、火車站、高鐵站
– 鄰避設施:加油站、殯葬設施、易淹水地點、婦幼被害犯罪地點
資料來源
– 政府公開資料
– 廠商公開頁面
需自行轉出設施座標
ETL-設施資料
地址清理
– 中文數字門牌地址
– 一筆資料內有多筆門牌,彼此用分隔字串或符號隔開
• 分隔層級不一(ex:35號及36號,135至140之2號,276巷3號 278巷1號)
– 行政區改制問題
• EX:桃園縣中壢市 桃園市中壢區(2010-12-25)
彰化縣員林鎮彰化縣員林市(2015-08-08)
門牌地址轉換
內政部門牌地址批次轉換系統
Google map geocoding api (server-side geocoding)
• 經緯度缺失筆數:以學校資料檔為例(1346632筆)
ETL-設施與實價登錄資料
座標轉換
– TWD97 二度分帶轉經緯度:實價登錄資料
– 經緯度轉TWD97 二度分帶:房仲物件資料、臺北市降雨淹水模擬圖
Spatial join
– 找出多邊形包含哪些點:臺北市降雨淹水模擬圖
ETL-資料自動更新系統
物件URL檢查
– 使用 Python requsts套件
– 多執行緒,由命令列參數指定每次檢查連結數量。
• 由「最後檢查時間最早的連結」與「隨機抽樣」各半,組合成檢查樣本
– 使用 head 請求,檢查回傳的http狀態碼、頁面跳轉紀錄、與 http 回
應檔頭,來判斷頁面是否失效
資料庫
鍾仁雄
關聯資料庫-MySQL
專題使用MySQL
RDB(1970)開始使用, MySQL(1995)
MySQL是世上最普遍使用的RDBMS開放原始碼軟體
名稱 特徵
Oracle 目前世界上最普遍使用的商用RDBMS
Access Microsoft公司的Office家族的RDBMS
Microsoft SQL Server Microsoft公司的商用RDBMS
PostgreSQL 普及日本的Open Souce
MySQL 世上最普遍使用Open Souce
關聯資料庫
編碼 房屋物件 … …
編碼 周邊距離 … ….
編碼 周邊設施 …. ….
數個相互關
聯的資料表
House
Traffic
Traffic(join)
紀錄
欄
位
資料庫操作架構
原始資料
• 各大房仲資料
• 實價登錄資料
匯入資料前處裡
• 清除不必要欄位
• 文字轉至UTF-8
匯出至前網頁&分
析
• 再次進行不必要欄位篩選
• 使用SQL指令進行欄位合併與計算
依據網頁屬性取得內文
未清理的原始資料
已清理的
原始資料
欄
位
名
稱
欄
位
資
料
型
態
資
料
型
態
長
度
資料匯入過程
資料匯入結果
未更改utf-8結果
更改utf-8結果
M ySQL計算距離
針對房屋物件周邊設施
以經緯度運算距離
1
2
3
4
過濾重覆資料
運算結果
資料庫結果 網頁呈現
緯
度
經
度
距
離
網頁功能與設計
鍾奇穎
設計理念
1. 操作容易
2. 資訊詳細
3. 地圖呈現
4. 資料圖表化
網頁環境與技術
輔助套件
1. Bootstrap
2. Highcharts
3. Google Maps Javascript APIs
輔助套件 - Bootstrap
快速的開發
外觀、按鈕、表格、排版
 基於JQuery的圖表元件
 輕巧
 快速
輔助套件 - Highcharts
 建構自定義地圖
 簡單而熟悉的操作介面
 世界級的圖像技術
輔助套件 - Google Maps JavascriptAPIs
房價估算
許馥顯(neva)
房屋內部資料
 依變數:
總價(元)
 自變數:
1. 鄉鎮市區
2. 土地區段位置/建物區段門牌
3. 土地移轉總面積(平方公尺)
4. 交易年月
5. 移轉層次
6. 總樓層數
7. 建物型態
8. 主要用途
9. 主要建材
10. 建築完成年月
11. 建物移轉總面積(平方公尺)
12. 建物現況格局-房
13. 建物現況格局-廳
14. 建物現況格局-衛
15. 建物現況格局-隔間
16. 車位移轉總面積(平方公尺)
17. 車位總價(元)
資料來源:
103.7~104.7內政部實價登錄大台北地區房屋價格
外部經濟因子…
 103.07-104.07期間
租金指數(%)、五大行庫平均房貸利率(%)、M1b貨幣供給額(億元)、M2貨幣供給額(億元)、
消費者物價指數(%)….等共89個曾出現的文獻中與房價相關的經濟因子。
1. 設有戶籍宅數(宅)
2. 戶量(人/戶)
3. 普通家戶數
4. 人口數(人)
5. 出生(人)
6. 死亡(人)
7. 遷入(人)
8. 遷出(人)
9. 建物存量總數(宅)
10.房屋稅籍住宅類數量(宅)
11.房屋稅籍住宅類平均屋齡(年)
12.房屋稅籍住宅類平均面積(坪)
13.建物開工件數(件)
14.建物開工總宅數(宅)
15.建物開工總樓地板面積(坪)
16.建物竣工件數(件)
17.建物竣工總宅數(宅)
18.建物竣工總樓地板面積(坪)
19.建物展期開工件數(件)
20.建物展期開工總宅數(宅)
21.建物展期開工總樓地板面積(坪)
22.建造執照總宅數(宅)
23.建造執照總樓地板面積(坪)
24.使用執照總宅數(宅)
25.使用執照總樓地板面積(坪)
26.住宅存量(宅數)
27.買賣契約價格平均單價(不分建
物類別)
28.買賣契約價格平均總價(不分建
物類別)
29.買賣契約價格平均單價(公寓)
30.買賣契約價格平均單價(套房)
31.買賣契約價格平均總價(套房)
32.買賣契約價格平均單價(透天厝)
33.買賣契約價格平均總價(透天厝)
34.買賣契約價格平均單價(電梯大
廈)
35.買賣契約價格平均總價(電梯大
廈)
36.買賣契約價格平均單價(樓中樓)
37.買賣契約價格平均總價(樓中樓)
38.所有權第一次登記件數(件數)
39.所有權第一次登記面積(平方公
尺)
40.買賣移轉件數(件數)
41.買賣移轉面積(平方公尺)
42.拍賣移轉件數(件數)
43.拍賣移轉面積(平方公尺)
44.繼承移轉件數(件數)
45.繼承移轉面積(平方公尺)
46.贈與移轉件數(件數)
47.贈與移轉面積(平方公尺)
48.其他移轉件數(件數)
49.其他移轉面積(平方公尺)
50.法院拍定成屋總件數
51.房地拍定總金額
52.住宅買賣移轉筆數(筆)
53.平均買賣屋齡(年)
54.平均買賣面積(坪)
55.買賣契稅免稅件數(件)
56.買賣契稅應稅件數(件)
57.買賣契稅應納稅額(萬元)
58.土地增值稅一般用地查定件數免
稅件數(件)
59.土地增值稅一般用地查定件數應
稅件數(件)
60.土地增值稅一般用地應納稅額
(萬元)
61.土地增值稅自用住宅用地查定件
數(件)
62.土地增值稅自用住宅用地應納稅
額(萬元)
63.上季末建築貸款餘額(百萬元)
64.本季末建築貸款餘額(百萬元)
65.本季建築貸款動用金額(百萬元)
66.本季核貸建築貸款核准金額(百
萬元)
67.本季核貸建築貸款筆數(筆)
68.本季核貸建築貸款平均每筆金額
(百萬元)
69.上季末購置住宅貸款餘額(百萬
元)
70.本季末購置住宅貸款餘額(百萬
元)
71.本季核貸購置住宅核准金額(百
萬元)
72.本季核貸購置住宅貸款筆數(筆)
73.本季核貸購置住宅貸款平均每筆
金額(百萬元)
74.本季末購置住宅貸款平均利率
(%)
75.本季新增購置住宅貸款平均利率
(%)
76.本季新增購置住宅貸款平均貸款
成數
77.本季新增購置住宅貸款平均貸款
期數
78.上季末住宅建築貸款餘額(百萬
元)
79.本季末住宅建築貸款餘額(百萬
元)
80.本季住宅建築貸款動用金額(百
萬元)
81.本季核貸住宅建築貸款核准金額
(百萬元)
82.本季核貸住宅建築貸款筆數(筆)
83.本季核貸住宅建築貸款平均每筆
金額(百萬元)
台北市房價迴歸模型
台北市房價迴歸模型
 275919001.970+
 1007494.877*士林區+821828.510*大同區+12693582.157*大安區+7221570.046*中山
區+7023167.798*中正區-3558358.119*文山區-4457541.910*北投區+6925837.058*松
山區+9130179.853*信義區-930014.681*南港區-1638913.607*萬華區+
 -250973.543*總樓層數+7570074.659*套房(1房1廳1衛)+5476050.243*透天厝-
469624.535*華廈(10層含以下有電梯)+1542704.855*住宅大樓(11層含以上有電
梯)+16176211.140*店面(店鋪)+13649.374*屋齡+2.616*車位總價(元)+12767.891*土地
移轉總面積(平方公尺)+241998.218*建物移轉總面積(平方公尺)-208.552*建物存量總數
(宅)+
 -346.551*M1b貨幣供給額(億元)-1719.842*本季核貸購置住宅貸款筆數(筆)-66.775*本季
核貸建築貸款核准金額(百萬元)
新北市房價迴歸模型
新北市迴歸模型
 -5515275.366
 +480050.602*八里+-1666602.693*三芝+6652827.850*三重+1462671.796*三峽
+5219142.373*土城+6257546.331*中和+-474392.442*五股+8470754.937*永和-
502430.741*石門-3989653.406*石碇+4182577.821*汐止+7596048.232*板橋
+1523407.139*林口-1555053.306*金山+3257978.952*泰山-3946301.212*貢寮
+5689541.910*深坑+8645644.225*新店+4548324.019*新莊-771261.143*瑞芳-
513529.134*萬里+2470985.852*樹林-2600147.308*雙溪+5718973.405*蘆洲
+226293.073*鶯歌
 -22255.817*土地移轉總面積(平方公尺)+152265.209*公寓(5樓含以下無電
梯)+11375178.626*店面(店鋪)+635233.621*套房(1房1衛1廳)+1806753.360*透天厝-
236171.104*華廈(10層含以下有電梯)+128684.464*總樓層數-14149.783*屋齡
+102509.279*建物移轉總面積(平方公尺)
 +1.210*車位總價(元)-23942.168*車位移轉總面積(平方公尺)
 -161.576*M1b貨幣供給額(億元)+58.959*M2貨幣供給額(億元)
實價、迴歸、房仲差異
資料時間差
房仲為104.09
實價為104.07
迴歸以104.7經濟數字
房價交易心態:
加價作為談判籌碼
房屋獨特性
房價為經濟後行指標
未來展望
資料更新自動化
資料規格化
買賣雙方心理資料
比對房仲資料在時間上的差異
房仲方資料與實價登錄資料比對
The End

More Related Content

Similar to House-III

面試面試面試,因為很重要所以要說三次!
面試面試面試,因為很重要所以要說三次!面試面試面試,因為很重要所以要說三次!
面試面試面試,因為很重要所以要說三次!Chih-Hsuan Kuo
 
How to run an AI Project @pixnet
How to run an AI Project @pixnetHow to run an AI Project @pixnet
How to run an AI Project @pixnet晨揚 施
 
規劃階段
規劃階段規劃階段
規劃階段suncastle
 
用AI創造大商機:媒體、廣告、電商、零售業的視覺辨識應用
用AI創造大商機:媒體、廣告、電商、零售業的視覺辨識應用用AI創造大商機:媒體、廣告、電商、零售業的視覺辨識應用
用AI創造大商機:媒體、廣告、電商、零售業的視覺辨識應用Albert Y. C. Chen
 
Practicing MLOps in hybrid multiclouds
Practicing MLOps in hybrid multicloudsPracticing MLOps in hybrid multiclouds
Practicing MLOps in hybrid multicloudsJonathan Chen
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座NTC.im(Notch Training Center)
 
媒體、影視產業、AI新創
媒體、影視產業、AI新創媒體、影視產業、AI新創
媒體、影視產業、AI新創Albert Y. C. Chen
 

Similar to House-III (11)

FrankieResumeZH
FrankieResumeZHFrankieResumeZH
FrankieResumeZH
 
面試面試面試,因為很重要所以要說三次!
面試面試面試,因為很重要所以要說三次!面試面試面試,因為很重要所以要說三次!
面試面試面試,因為很重要所以要說三次!
 
42qu thrift1
42qu thrift142qu thrift1
42qu thrift1
 
How to run an AI Project @pixnet
How to run an AI Project @pixnetHow to run an AI Project @pixnet
How to run an AI Project @pixnet
 
規劃階段
規劃階段規劃階段
規劃階段
 
吳明展的履歷表 My Resume 2009 (pdf)
吳明展的履歷表 My Resume 2009 (pdf)吳明展的履歷表 My Resume 2009 (pdf)
吳明展的履歷表 My Resume 2009 (pdf)
 
Topc 介紹
Topc 介紹Topc 介紹
Topc 介紹
 
用AI創造大商機:媒體、廣告、電商、零售業的視覺辨識應用
用AI創造大商機:媒體、廣告、電商、零售業的視覺辨識應用用AI創造大商機:媒體、廣告、電商、零售業的視覺辨識應用
用AI創造大商機:媒體、廣告、電商、零售業的視覺辨識應用
 
Practicing MLOps in hybrid multiclouds
Practicing MLOps in hybrid multicloudsPracticing MLOps in hybrid multiclouds
Practicing MLOps in hybrid multiclouds
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
 
媒體、影視產業、AI新創
媒體、影視產業、AI新創媒體、影視產業、AI新創
媒體、影視產業、AI新創
 

House-III

Editor's Notes

  1. 七間房仲網站:信義房仲網、好房網、永慶房仲網、住商不動產、太平洋房屋、有巢氏房屋、591售屋網 無效資料:無經緯度(703筆)、房廳衛數均為0(1247筆)、物件經緯度不處於新北市地理界線內(50筆) 重複資料:刪除「經度、緯度、起始樓層、總樓高、售價、房數、廳數、衛數」均相同的重複資料,共(23794筆) 資料檢查:起始樓高大於總樓高,主建物大於總坪數 統一缺失值表現方式 統一住房類型字串 (ex: 電梯大樓->大樓,大廈->華廈,透天->透天厝,無->””) 檢查樓高、坪數
  2. 主要對四類設施、區位條件資料進行爬取整理 教育:幼教國小國中高中大學 購物:便利商店、超市、量販店、菜市場 交通:公車站、捷運站、 鄰避設施 資料來源 政府統計 政府公開資料 廠商公開頁面 工作 抓取整理資料 地址清理 門牌地址定位(geocoding)
  3. 各位廠商、老師、學弟學妹大家好, 接下來就由我來介紹網頁的部分
  4. 先來講我們的設計理念,主要是以下幾點 首先 我們希望提供使用者簡單的操作環境,盡量不要出現過多的支線,導致使用者迷失在網頁裡 再來 我們會利用地圖呈現使地理位置更清楚 並加以揣摩使用者的需求後提供其需要的資訊 最後將數值資料圖表化,使資料更具有溝通力
  5. 再來介紹網頁環境與技術 先來介紹環境的部分,我們的環境 主要是 資料庫 與 網頁伺服器 這裡,我們的資料庫是使用MySQL,這個部分前面仁雄同學已經為我們說明過爲何使用它。 接著介紹我們的網頁伺服器APACHE,APACHE它是一個開放原始碼的網頁伺服器, 並且具有 跨平台 與 安全性 等特性而被廣泛的使用,是目前市佔率最高的網頁伺服器軟體。 接著來介紹技術的部分,在技術上是使用HTML、CSS、PHP以及jQuert等技術, [HTML、CSS、jQuert 皆為開發網頁的基本技術,這邊就不多做解說] 這邊呢簡單介紹一下php,PHP 它的語法類似 C 語言,因此並不難學,也相當容易撰寫。然後在網頁中我們主要用來處理資料庫的連結以及表單資料傳遞。
  6. 接著是輔助套件的部分,我們的網頁主要是使用了這三樣套件, 分別是 Bootstrap、Highcharts、Google Maps APIs
  7. 首先來介紹 Bootstrap , Bootstrap 是個簡潔,直覺的前端框架,讓網頁開發更快速、簡單。 我們網頁架構有使用 Bootstrap 的響應式網頁設計,簡單來說就是使用電腦、平板、手機去瀏覽網站,介面上都能去符合螢幕的大小 然後 Bootstrap也可以用來做簡易的外觀呈現,像是右圖中的 按鈕列 也是利用 Bootstrap 所提供的 CSS 呈現出來的效果。
  8. 再來介紹的是 highcharts ,它是一個基於JQuery的圖表元件, 提供了非常多實用的圖型,像是長條圖、圓餅圖、折線圖等等, 非常適合用來繪製一般統計圖表
  9. 最後介紹的是 Google Maps API, 它是設計給網頁開發者所使使用的開發工具, 讓開發者可以使用這個 API 將 Google 地圖安插在自己的網頁中, 並將資料呈現於地圖上。 我的報告到這邊結束,接下來請馥顯來為我們介紹房價估算的部分