104學習精靈

資料搜集

資料搜集
關注
邀請朋友
邀請朋友

Line

Facebook

複製連結

取消
「資料搜集:負責蒐集、整理和分析市場及競爭對手的相關數據,以支持企業決策和經營策略的制定。主要目標是提高市場評估的準確性並提供洞察,以促進業務成長。需具備良好的數據分析能力、系統性思維及跨部門協作技能,並精通使用各類資料庫及分析工具。此角色需理解台灣市場的特性與挑戰,如快速變化的消費趨勢和競爭環境,並具備優秀的溝通技巧,以便有效地與團隊及相關利害關係人交流資訊。」
關於教室
關注人數 16 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
關於教室
關注人數 16 人
104人力銀行從職缺中挑選出常見技能所成立的官方教室,提供大家進行共學互動。
學習主持人
持續分享知識,
有機會成為官方教室主持人
教室標籤
Hi~ 歡迎分享學習資源,有學習問題可匿名向Giver發問!
我要分享
我要提問

資料搜集 學習推薦

全部
影片
文章
Mike Ku

Learn Code With Mike品牌創辦人

2021/12/21

在Scrapy框架整合Selenium套件爬取動態網頁的實作
本文以Accupass網站的精選活動為例,來分享Scrapy框架整合Selenium套件,開發Python網頁爬蟲的流程。
Q: 如何建立Scrapy網頁爬蟲?
首先,利用以下指令安裝Scrapy框架:
$ pip install scrapy
接著,新增一個資料夾,並且使用命令提示字元切換到該資料夾的目錄下,建立Scrapy專案,如下:
$ scrapy startproject accupass_scraper .
有了專案後,就能夠利用以下指令建立Scrapy網頁爬蟲:
$ scrapy genspider accupass accupass.com
Q:如何安裝scrapy-selenium套件?
而Scrapy框架想要使用Selenium套件來發送請求與接收回應,就需要一個Middleware來使用Selenium套件。
其中的Middleware,也就是在Scrapy發送請求前,以及將回應結果傳給Scrapy網頁爬蟲前,能夠在Middleware中來進行前處理。
所以,Scrapy框架想要使用Selenium套件來發送請求與接收回應結果,就需要定義Middleware,當然,已經有大大寫好了scrapy-selenium Middleware可以使用,安裝方式如下指令:
$ pip install scapy-selenium
接下來,前往下載Selenium的瀏覽器驅動,並且放置於Scrapy專案資料夾中。開啟settings.py檔案,加入scrapy-selenium Middleware的相關設定,如下範例:
DOWNLOADER_MIDDLEWARES = {
'scrapy_selenium.SeleniumMiddleware': 800
}
SELENIUM_DRIVER_NAME = 'chrome'
SELENIUM_DRIVER_EXECUTABLE_PATH = 'chromedriver.exe'
SELENIUM_DRIVER_ARGUMENTS = ['-headless']
Q:如何Scrapy整合Selenium爬取動態網頁?
開啟Scrapy專案的accupass.py檔案,引用scrapy-selenium的SeleniumRequest模組,如下範例:
import scrapy
from scrapy_selenium import SeleniumRequest
而想要讓Scrapy框架使用Selenium套件發送請求,就可以新增start_requests()方法,如下範例:
class AccupassSpider(scrapy.Spider):
name = 'accupass'
allowed_domains = ['accupass.com']
start_urls = ['http://accupass.com/']
def start_requests(self):
yield SeleniumRequest(url='https://www.accupass.com/?area=north', callback=self.parse)
以上的callback參數就是收到網頁的回應結果之後,所要執行的方法,也就是爬取網頁上的資料,如下範例:
class AccupassSpider(scrapy.Spider):
name = 'accupass'
allowed_domains = ['accupass.com']
start_urls = ['http://accupass.com/']
def start_requests(self):
yield SeleniumRequest(url='https://www.accupass.com/?area=north', callback=self.parse)
def parse(self, response):
titles = response.css("p.style-f13be39c-event-name::text").getall()
for title in titles:
print(title)
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2021/11/scrapy-integrate-with-selenium.html
)網站觀看更多精彩內容。
看更多
3 0 783 2

熱門精選

104學習精靈

產品

09/05 14:03

【AI課程推薦】從零到上榜:最值得投資的 iPAS AI 應用規劃師課程
你是否正在為考取 iPAS AI 應用規劃師認證而努力?
不論你是職涯轉換的新鮮人、正在準備升遷的在職人士,或是想提升 AI 導入與數位優化能力的專業工作者,這門由 104學習精靈 所推出的 「iPAS AI 應用規劃師|速攻考點 × 模擬實戰 × GPT刷題一次通過」 課程是極佳起點。
為什麼值得投資這門課?
⚡內容精準、高效導向:課程透過考照重點整理、模擬題實戰與 GPT 工具輔助刷題的方式,清楚聚焦於考試所需的思維與答題方式,讓你在最短時間內掌握題型邏輯與解題技巧。
⚡彈性又實用的學習模式:全課程提供線上觀看(不限次數),長達 1 小時 17 分鐘,你可以依自己的時間彈性安排學習節奏,也方便重複觀看複習,有效提升吸收率。
⚡課程價格親民、折扣誘人。
⚡幫助履歷加分:可在履歷或社群形象中展現你的學習力與 AI 導入技能。
適合對象:
🟢準備挑戰 iPAS AI 應用規劃師認證的考生:無論是初試啼聲還是想一次通過,本課程包羅必考精華與應試策略。
🟢需要快速掌握 AI 應用與規劃技能的職場人:這門課提供即戰力的工具與思維模式,有助於你在工作中靈活應用 AI。
🟢時間有限但期待高效學習者:短時長卻切中重點的課程設計,符合繁忙生活中仍希望進修成長的需求。
推薦學習策略:
🔥明確目標設定:在觀看課程前,先了解 iPAS AI 應用規劃師的考試結構與題型,設定明確的通過目標,協助你更專注於課程內容。
🔥循序成長、反覆鞏固:第一次著重於整體了解,第二次重點推敲難題與 GPT 解題技巧,讓學習更立體且記憶更深刻。
🔥實戰模擬 + 筆記整理:利用課程中的模擬實戰,加速答案邏輯的形成;同時整理筆記、歸納錯誤或重點,打造個人考前複習攻略。
🔥結合履歷,展現實力:完課後將「iPAS AI 應用規劃師完訓證明」或重點學習心得融入履歷或社群平台,提升曝光與職場競爭力。
如果你正在積極準備 iPAS AI 應用規劃師認證,或希望強化在 AI 領域的實務應用能力,這堂課無疑是你的最佳選擇之一。趕緊把握早鳥價,用高效策略搭配實戰演練,讓 GPT 成為你的刷題小幫手,助你一次通過、掌握職涯新門路!
【課程優惠】2025年9/30前享49折券現折!!
看更多
1 0 1868 0
學習精靈

01/23 00:00

40 2
Mike Ku

Learn Code With Mike品牌創辦人

2021/12/21

掌握3個降低Scrapy網頁爬蟲被封鎖的技巧
Q: Scrapy網頁爬蟲框架如何輪流替換User-Agent(使用者代理)?
在Scrapy網頁爬蟲爬取網頁時,網站都會使用User-Agent(使用者代理)來識別所使用的瀏覽器版本資訊,而當Scrapy網頁爬蟲每次爬取都使用相同的User-Agent(使用者代理),就很容易被懷疑是網頁爬蟲而被封鎖。
所以,如果Scrapy網頁爬蟲在發送請求的過程中,隨機使用不同的User-Agent(使用者代理),就可以大幅降低被偵測的風險。
而要達到這樣的功能,就能夠利用以下指令來安裝scrapy-user-agents套件,讓Scrapy網頁爬蟲能夠隨機取用不同的User-Agent(使用者代理):
$ pip install scrapy-user-agents
接著,開啟Scrapy網頁爬蟲專案的settings.py檔案,在DOWNLOAD_MIDDLEWARES的地方,加入以下的設定:
DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
'scrapy_user_agents.middlewares.RandomUserAgentMiddleware': 400,
}
Q: Scrapy網頁爬蟲框架如何輪流替換Proxy IP(代理服務器IP)?
同樣,如果Scrapy網頁爬蟲都使用相同的IP發送請求,很容易會被反爬蟲網站發現而封鎖。這時候,就會需要隨機使用不同的Proxy IP(代理服務器IP),降低被偵測的風險。
可以利用以下指令安裝scrapy-rotating-proxies套件,來達成上述的效果:
$ pip install scrapy-rotating-proxies
開啟Scrapy網頁爬蟲傳案的settings.py檔案,加入以下的設定:
ROTATING_PROXY_LIST_PATH = '/path/my_proxies.txt'
DOWNLOADER_MIDDLEWARES = {
'rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
'rotating_proxies.middlewares.BanDetectionMiddleware': 620,
}
其中,在自訂的Proxy IP檔案(my_proxies.txt)中加入Proxy IP,如下範例:
ROTATING_PROXY_LIST = [
'proxy_ip_1:8000',
'proxy_ip_2:8031',
...
]
Q: Scrapy網頁爬蟲框架如何使用無頭瀏覽器(Headless Browser)?
無頭瀏覽器(Headless Browser)也就是沒有圖形化的使用者介面瀏覽器,能夠模擬使用者在網頁上的操作,降低反爬蟲網站的偵測。
其中,Selenium就是最常被用來啟用無頭瀏覽器(Headless Browser)的套件,而Scrapy結合Selenium套件的實作方式可以參考[Scrapy教學12]在Scrapy框架整合Selenium套件爬取動態網頁的實作指南文章( https://www.learncodewithmike.com/2021/11/scrapy-integrate-with-selenium.html )。
當然,除了本文所分享的3個Scrapy網頁爬蟲克服反爬蟲網站的方法外,還可以參考[Python爬蟲教學]7個降低Python網頁爬蟲被偵測封鎖的實用方法文章( https://www.learncodewithmike.com/2020/09/7-tips-to-avoid-getting-blocked-while-scraping.html ),不外乎就是避免像Python網頁爬蟲機器人一樣有規則模式的爬取資料,才有機會不被反爬蟲網站抓到唷。
如果想要學習更多的Python應用教學,歡迎前往Learn Code With Mike( https://www.learncodewithmike.com/2021/12/3-tips-for-scrapy-without-getting-blocked.html
)網站觀看更多精彩內容。
看更多
2 0 1107 2
學習精靈

07/10 00:00

6 0

推薦給你

緯育TibaMe

09/02 14:54

[免費直播報名】 1小時快速掌握讓工作卡關變通關的關鍵要訣🔥
😓 這些場景,你是不是也遇過?
✘ 跨部門簡報,重點被跳過,沒人買單
✘ 提案講完,主管只回「再調整一下」
✘ 客戶談合作,心裡覺得有戲,卻一直無法成交
這不是能力問題,而是缺少策略!
👉 9/18(四) 讓擁有超過 22 年商務諮詢服務經驗,且擅長 #策略規劃 和 #解決方案設計 的呂欣老師,帶你用 AI 工具拆解工作任務、精準分析對象、建立說服邏輯!
▍ 1 小時你將學會
✅ 任務策略拆解術
✅ NotebookLM 策略資料庫實作
✅ Gemini 攻心說服架構示範
▍ 直播講座資訊
🔹 時間:9/18(四) 20:00~21:00
🔹 講者:世界 500 強企業外聘商業顧問 ​ 呂欣老師
🔹 講座形式:線上直播(將於活動前 1~3 天email提供直播連結)
🔸 立即報名:https://tibame.tw/oEoM4
🎁 本次報名且出席直播即可獲得 【工作任務拆解模組 + 講師獨家 Prompt】
#緯育tibame讓緯育提拔你 #人才賦能 #AI軍師 #AI工具 #生成式AI據點
看更多
1 0 1230 2
你可能感興趣的教室