爬蟲-建立Scrapy專案
甚麼是Scrapy?
好啦別擔心,一開始我也不知道
簡單說Scrapy 是一個負責處理整個爬蟲系統資料流與事件的Frame Work,他可以很快速地幫你建立起一個爬蟲專案,並且幫你處理好大多數爬蟲的涵式
好吧,講了那麼多,我們趕快開始來建立我們的專案吧
現在就來開啟我們第一個Scrapy
專案:
scrapy startproject ScrapyProject
你應該會看到這樣的字句在你的cmd裡面
You can start your first spider with: cd ScrapyProject scrapy genspider example example.com
接下來輸入:
cd ScrapyProject
scrapy genspider example [example.com](<http://example.com/>)
過來你會看到這樣的專案內容:
在example.py裡的內容有三個基本的變數:
name = 'example':
我們執行爬蟲的檔案也就是example.py,而且也是每支爬蟲在專案中的「唯一」名稱
allowed_domains = ['example.com']:
定義爬蟲允許的網域清單,如果不在此網域request會被略過
start_urls = ['http://example.com/']
爬蟲網址清單,這邊也可以定義多個來爬取
這樣你就已經建立了一個基本的爬蟲專案了,是不是很棒呢
下一篇文章我們來談談beautifulsoup吧
留言
張貼留言