104學習精靈

系統日誌分析

系統日誌分析
關注
邀請朋友
邀請朋友

Line

Facebook

複製連結

取消
關於教室
關注人數 0 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
關於教室
關注人數 0 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
Hi~ 歡迎分享學習資源,有學習問題可匿名向Giver發問!
我要分享
我要提問

系統日誌分析 學習推薦

全部
影片
文章
Mike Ku

Learn Code With Mike品牌創辦人

2021/12/29

學會使用3個Scrapy網頁爬蟲偵錯技巧提升開發效率
Q:Scrapy Shell(互動介面)是什麼?
Scrapy Shell是一個互動式的終端(Terminal)介面,讓開發人員可以不需要等到整個Scrapy專案完成就能夠進行測試,主要是用來測試Scrapy框架使用css()或xpath()方法(Method)爬取資料的結果。
舉例來說,用Visual Studio Code開啟Scrapy專案,在終端介面(Terminal)的地方,利用以下的指令開啟Scrapy Shell:
如果想要確認回應的結果,可以使用以下的Scrapy Shell指令:
>>>view(response)
True
除此之外,假設要爬取其中的新聞標題,就可以在Scrapy Shell的互動式介面中,透過指令的方式,使用css()或xpath()方法(Method)來測試是否能夠爬取成功,如下範例:
>>> response.css("h3.post_title a.js-auto_break_title::text").get()
'Appier 將於東京交易所掛牌,市值估突破 10 億美元'
Q:Scrapy Logging(日誌)如何使用?
Scrapy網頁爬蟲另一個最常用來偵錯的方法就是Logging(日誌),依據重要的程度分為五種日誌類型,由高到低為:critical、error、warning、info、debug,由於Scrapy框架的網頁爬蟲類別(spiders)本身就已經有logger物件,所以無需引用就可以在網頁爬蟲中使用,如下範例:
class HotNewsSpider(scrapy.Spider):
name = 'hot_news'
allowed_domains = ['www.inside.com.tw']
def parse(self, response):
# 熱門文章標題
hot_news_title = response.xpath(
"//h1[@class='title']/text()").get()
if hot_news_title:
return hot_news_title
else:
self.logger.error("沒有爬取到熱門文章標題")
接下來,開啟Scrapy專案的settings.py檔案,加入以下設定,如下範例:
LOG_FILE = "inside_log.txt"
LOG_LEVEL = "ERROR" #特別注意這邊一定要大寫
其中「LOG_LEVEL(日誌層級)」可以自訂在哪一個日誌類型以上需要被記錄到日誌檔中,預設為DEBUG。
而Scrapy網頁爬蟲(spiders)模組以外,如果想要使用Logging(日誌),就需要引用logging模組(Module),以ITEM PIPELINE資料模型管道(pipelines.py)為例,如下範例:
from itemadapter import ItemAdapter
from scrapy.exporters import CsvItemExporter
import logging
class CsvPipeline:
def __init__(self):
self.file = open('posts.csv', 'wb')
self.exporter = CsvItemExporter(self.file, encoding='big5')
self.exporter.start_exporting()
def process_item(self, item, spider):
if item:
self.exporter.export_item(item)
return item
else:
logging.error("無資料匯出!")
...
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike(https://www.learncodewithmike.com/2021/03/scrapy-spiders-debug.html
)網站觀看更多精彩內容。
2 0 528 0

熱門精選

104學習精靈

產品

04/25 15:52

【限量:免費報名】利用AI自動化行銷|直播講座
講座詳細資訊
時間:04/30(二) 20:00 - 21:00
講者:圭話行銷創辦人 何佳勳 / 業界資深的數位廣告行銷專家
主題:行銷新篇章:AI如何革新檔期活動策略
在這個數位化的時代,AI技術正以驚人的速度改變著我們的行銷方式。檔期促銷活動面對的受眾眾多,難以精準定位目標受眾,進而影響活動效果、每次規劃檔期活動都需要創造吸引人的內容和促銷方式,但長期以來,創意卻逐漸耗盡、想要掌握AI如何革新檔期活動策略的最新動向嗎?
你也在苦思如何創造不同以往、有別競品的檔期活動嗎?104學習精靈與緯育TibaMe,攜手邀請到數位廣告界專家 圭話行銷創辦人何佳勳老師。學員們都稱呼他為小圭老師,不僅熱愛與學員社群互動、對學員有問必答,更善於為客戶的製造許多驚喜及營收,一起期待老師分享如何透過 AI 工具提升30%的檔期活動成效吧~
1 0 3306 0
學習精靈

09/01 00:00

31 0
學習精靈

12/07 00:00

3 0

推薦給你

知識貓星球

喵星人

6小時前

不只行銷人!創作者也要會SEO
對於內容創作者來說,了解基本的SEO原則是非常有益的,這些原則可以幫助他們創建更具吸引力、更易於搜索引擎理解的內容,從而提高他們的內容在搜索結果中的排名和曝光。
以下是一些內容創作者可以考慮的SEO技巧:
1. 關鍵詞研究:了解目標受眾在搜索引擎中使用的關鍵詞和短語,並將這些詞彙整合到內容中,以提高被搜索到的機會。
2. 優質內容:創建有價值、具吸引力且獨特的內容,這是搜索引擎排名的關鍵因素之一。
3. 標題和描述:撰寫引人入勝的標題和描述,以吸引更多的點擊,同時確保它們包含關鍵詞,有助於搜索引擎了解內容主題。
4. 結構化內容:使用清晰的標題、段落和列表等結構化元素,讓內容易於閱讀和理解,同時有助於搜索引擎理解內容的組織和內容。
5. 內部連結:在內容中使用內部連結,將讀者引導到其他相關內容頁面,這不僅可以提高用戶體驗,還有助於搜索引擎爬行和索引網站。
總的來說,內容創作者可以通過適當地使用SEO技巧,使他們的內容更容易被搜索引擎發現和評價,從而提高其在搜索結果中的排名和曝光。
0 0 105 0
你可能感興趣的教室