網路機器人webbots
Posted on : 20-07-2010 | By : 韋伯d賽 | In : 好人好書好電影推薦
原本以為如果有能力撰寫一個程式,用來自動下載某個網站的資料,就應該「全速」的下載。
但看了這本書後,發現真正厲害的程式設計師所撰寫出來的網路機器人,是真的模擬人類的動作。
用一定時間內的隨機延遅,用大部份人上網的時間,在程式碼內註明瀏覽器標頭等等…,模擬出一個真正「人」的樣子,來存取伺服器。

當然,這本書不是教你如何當駭客,大部份講的都是如何把固定動作轉換成使用網路機器人來做,來產生報表等等…,提昇自己企業的生產力。
看完後我也有一些想法,例如使用網路機器人抓取並分析:
- 計算出某個行業的網站數量,依地區,就可得知網路產業結構。
- 抓取並分析網拍中賣家的評價、商品數、被留言數、並產生報表。
- 匯整如氣象局、或新聞網站的資料,建立自己的資訊網站。
- 持續並自動追縱某個網站的資訊。
- 選擇一個搜尋引擎,再輸入一組關鍵字和自己網站的網址,用來找尋自己網站在該搜尋引擎中的排名。
- 自動抓取幾個國內線上商店的資訊,輸入一個商品名稱後,自動比價其它商店網站。
其實生活中有太多可以自動化的事了,例如每個月到縣市政府可下載上個月新成立公司的資訊,pdf檔。
如果是以前,你可能要先轉成cvs,再手動去除一些不需要的商家,再匯入office access資料庫,然後用word連結access,動態的產生地址標籤,再用標籤紙印出來,貼到信封上。
光是從轉成cvs到產生地址標籤,用上述的方法可能就要3個多小時了…。
所以現在可以把從cvs到印出標籤的這段,使用自動化的方式來製作。如果換成php來做,程式寫好後,應該只需3分鐘吧。( 雖然使用瀏覽器來控制印表機不是很好的想法,但考慮到可以把資料存在MySQL。 )
當然動手黏貼標籤仍是要手動…。
書名:網路機器人、網路蜘蛛與網路爬蟲
ISBN:978-986-181-651-7
本篇文章引用網址:


