邊緣人的程式網誌

發表文章

爬蟲2-BeautifulSoup (Python)

- 2月 25, 2021

我們來談談BeautifulSoup,有關美麗的湯快點跟上,來不及了 Beautiful Soup 是一個 Python 庫，用於從 HTML 和XML文件中提取數據,甚麼你不知道HTML是甚麼,快來看看這篇文章吧 (晚點附上),簡單說他就是一個尋找HTML標籤的涵式庫 Beautiful Soup 來來來~~先附上Import的新鮮程式碼,並且把它寫在最上面喔 import scrapy from bs4 import BeautifulSoup 我們這樣就可以使用BeautifulSoup啦,話不多說馬上來作範例:(這邊我們採取用金正恩領導人的維基來作範例) from bs4 import BeautifulSoup from scrapy.crawler import CrawlerProcess class ExampleSpider(scrapy.Spider): name = 'example' allowed_domains = ['example.com'] start_urls = ['<https://zh.wikipedia.org/wiki/%E9%87%91%E6%AD%A3%E6%81%A9>'] def parse(self, response): content = response.body soup = BeautifulSoup(content, "html5lib") print(soup) #這邊放在程式碼最底下好讓你可以在IDE直接執行可以看內容 process = CrawlerProcess() process.crawl(ExampleSpider) process.start() 利用 VS code 執行後在我們的終端機應該可以看這樣的內容(或是直接在終端機輸入 scrapy crawl example ) 這部分的code是發出 request 然後把回傳的資料解析,而這些回傳解析是靠 BeautifulSoup 解析完後所print出來的我們來打開google的devtool吧(也可以再chrome按...

閱讀完整內容

爬蟲-建立Scrapy專案

- 2月 25, 2021

甚麼是Scrapy? 好啦別擔心,一開始我也不知道簡單說Scrapy 是一個負責處理整個爬蟲系統資料流與事件的Frame Work,他可以很快速地幫你建立起一個爬蟲專案,並且幫你處理好大多數爬蟲的涵式好吧,講了那麼多,我們趕快開始來建立我們的專案吧現在就來開啟我們第一個 Scrapy 專案： scrapy startproject ScrapyProject 你應該會看到這樣的字句在你的cmd裡面 You can start your first spider with: cd ScrapyProject scrapy genspider example example.com 接下來輸入: cd ScrapyProject scrapy genspider example [example.com](<http://example.com/>) 過來你會看到這樣的專案內容: 在example.py裡的內容有三個基本的變數: name = 'example': 我們執行爬蟲的檔案也就是example.py ,而且也是每支爬蟲在專案中的「唯一」名稱 allowed_domains = [' example.com ']: 定義爬蟲允許的網域清單,如果不在此網域request會被略過 start_urls = [' http://example.com/ '] 爬蟲網址清單,這邊也可以定義多個來爬取這樣你就已經建立了一個基本的爬蟲專案了,是不是很棒呢下一篇文章我們來談談beautifulsoup吧說了這麼多,看完文章你做了甚麼? 下面Like給我按起來,分享出去(ʘ言ʘ╬)

閱讀完整內容

第一次爬蟲就上手Python

- 2月 25, 2021

爬蟲是甚麼,爬蟲可以吃嗎? 爬蟲核心就是” 把別人的資料庫都變成我的資料庫 ” 但是請注意,請當個有品的爬蟲,因為爬蟲會發出request對網站進行訪問,如果過量會讓網站掛掉的,網站擁有者也會查出爬蟲的IP並且進行封鎖(雖然有其他方法(｀Д´)~~~~~~) 在這邊我先列出幾項讓大家遵守( 記得給我大聲在心裡默念 ): 只抓取你需要的資料,不要全部拿走記得好好利用sleep function(你不知道sleep?? 之後會在後面的文章再給大家講解) 在於資料庫會有一個max_connections_per_hour 的限制,假如網站的流量限制太低,你可能爬到一半網站就掛了,所以請不要讓網站給掛了,你爬不到資料,對方的作者也無法提供網站的內容給大家在了解爬蟲之前你必須先知道html、CSS、跟基本的python 語法,這樣才能將爬蟲運用的自如,這邊我先把基本環境列在下面,下一篇文章我再來講解一下基本的html知識 python :3.6 ( 點我去官網下載 ) Scrapy pip install scrapy BeautifulSoup pip install beautifulsoup urllib3 pip install urllib3 上面的指令請你打開終端機,並且把它們確實安裝說了這麼多,第一篇文章你做了甚麼? 你良心不會痛嗎

閱讀完整內容