爬蟲2-BeautifulSoup (Python)
我們來談談BeautifulSoup,有關美麗的湯 快點跟上,來不及了 Beautiful Soup 是一個 Python 庫,用於從 HTML 和XML文件中提取數據,甚麼你不知道HTML是甚麼,快來看看這篇文章吧 (晚點附上),簡單說他就是一個尋找HTML標籤的涵式庫 Beautiful Soup 來來來~~先附上Import的新鮮程式碼,並且把它寫在最上面喔 import scrapy from bs4 import BeautifulSoup 我們這樣就可以使用BeautifulSoup啦,話不多說馬上來作範例:(這邊我們採取用金正恩領導人的維基來作範例) from bs4 import BeautifulSoup from scrapy.crawler import CrawlerProcess class ExampleSpider(scrapy.Spider): name = 'example' allowed_domains = ['example.com'] start_urls = ['<https://zh.wikipedia.org/wiki/%E9%87%91%E6%AD%A3%E6%81%A9>'] def parse(self, response): content = response.body soup = BeautifulSoup(content, "html5lib") print(soup) #這邊放在程式碼最底下 好讓你可以在IDE直接執行可以看內容 process = CrawlerProcess() process.crawl(ExampleSpider) process.start() 利用 VS code 執行後在我們的終端機應該可以看這樣的內容(或是直接在終端機輸入 scrapy crawl example ) 這部分的code是發出 request 然後把回傳的資料解析,而這些回傳解析是靠 BeautifulSoup 解析完後所print出來的 我們來打開google的devtool吧(也可以再chrome按...