![]() |
Dataflow 網(wǎng)站數(shù)據(jù)提取
專用API
【更新時間: 2024.08.15】
DFK的API使您能夠以編程方式管理和運行web數(shù)據(jù)提取和SERP收集任務(wù)。之后您可以輕松檢索提取的數(shù)據(jù)。
10$ / 2,000 個數(shù)據(jù)流積分
去服務(wù)商官網(wǎng)采購>
|
瀏覽次數(shù)
15
采購人數(shù)
1
試用次數(shù)
1
試用
收藏
×
完成
取消
×
書簽名稱
確定
|

- API詳情
- 定價
- 使用指南
- 常見 FAQ
- 關(guān)于我們
- 相關(guān)推薦


什么是Dataflow 網(wǎng)站數(shù)據(jù)提取?
我們幫助人們自動化網(wǎng)絡(luò)抓取任務(wù),從任意規(guī)模的多個頁面中提取、處理和轉(zhuǎn)換數(shù)據(jù)。通過點擊式網(wǎng)頁抓取界面,單擊即可提取文本、圖像、屬性。我們代表您訪問網(wǎng)頁,在云中使用無頭 Chrome 渲染 Javascript 驅(qū)動的頁面,返回靜態(tài) HTML,并捕獲屏幕截圖或另存為 PDF。
什么是Dataflow 網(wǎng)站數(shù)據(jù)提取接口?
Dataflow 網(wǎng)站數(shù)據(jù)提取有哪些核心功能?
無頭 Chrome 即服務(wù)。 在云端渲染 Javascript 驅(qū)動的網(wǎng)頁,返回靜態(tài) HTML。 |
指向并單擊網(wǎng)絡(luò)抓取工具。 Dataflow Kit 將為您猜測類似的數(shù)據(jù)元素。無需編碼。
|
抓取 SERP 數(shù)據(jù)。 使用我們的 SERP API 從流行的搜索引擎中提取有機結(jié)果、廣告、新聞、圖像。 |
網(wǎng)頁到 PDF 轉(zhuǎn)換器。 向 PDF API 發(fā)送包含網(wǎng)頁地址和參數(shù)的請求,將網(wǎng)頁轉(zhuǎn)換為 PDF。 |
在線制作網(wǎng)頁截圖。 直接在您的應(yīng)用程序中在線捕獲網(wǎng)頁屏幕截圖。 |
|
Dataflow 網(wǎng)站數(shù)據(jù)提取的核心優(yōu)勢是什么?
全球代理網(wǎng)絡(luò)。 IP輪換。 有時網(wǎng)站會限制其他國家/地區(qū)的用戶訪問。 我們提供數(shù)據(jù)流套件代理服務(wù),以繞過特定網(wǎng)站的內(nèi)容下載限制或通過代理發(fā)送請求以獲取目標網(wǎng)站的特定國家/地區(qū)版本。 只需從 100 多個支持的全球位置中指定目標國家/地區(qū)即可發(fā)送您的網(wǎng)絡(luò)/SERP 抓取 API 請求。或者選擇“任意國家/地區(qū)”以使用隨機地理目標。
|
Headless Chrome 即服務(wù)。 如今最流行的方法是使用 Headless Chrome 瀏覽器,它以與真實瀏覽器相同的方式呈現(xiàn)網(wǎng)站。 此外,Chrome 還配備了將 HTML 保存為 PDF 以及從網(wǎng)頁生成屏幕截圖的工具。 我們提供將動態(tài) JavaScript 驅(qū)動的網(wǎng)頁渲染為云端靜態(tài) HTML 的服務(wù)。 |
行動。手動工作流程的自動化。 操作對于模擬現(xiàn)實世界中的人類與頁面的交互非常有用。它們由抓取工具在訪問網(wǎng)頁時執(zhí)行,幫助您更接近所需的數(shù)據(jù)。
|
數(shù)據(jù)流套件 API。 只需發(fā)送一個 API 請求,指定所需的網(wǎng)頁和一些參數(shù)。
|
輸出數(shù)據(jù)格式。 JSON、JSON Lines、Excel、CSV、XML。
|
云中的數(shù)據(jù)。
|
在哪些場景會用到Dataflow 網(wǎng)站數(shù)據(jù)提???
電商網(wǎng)站的價格監(jiān)控與比價企業(yè)可以利用Dataflow API從多個電商平臺上提取產(chǎn)品價格、描述、評論等數(shù)據(jù)。這些數(shù)據(jù)可以用于實時監(jiān)控競爭對手的價格變化,從而調(diào)整自己的定價策略。比價網(wǎng)站也可以通過這個API提取大量電商數(shù)據(jù),匯總并展示給用戶,幫助他們找到最低價的產(chǎn)品。 |
|
新聞聚合與輿情監(jiān)控新聞機構(gòu)或數(shù)據(jù)分析公司可以使用Dataflow API從各種新聞網(wǎng)站、博客和社交媒體平臺上提取新聞文章、評論和其他相關(guān)數(shù)據(jù)。這些數(shù)據(jù)可以用于新聞聚合服務(wù),提供最新的新聞資訊,或用于輿情監(jiān)控,了解公眾對某一事件或品牌的態(tài)度。 |
|
市場調(diào)研與趨勢分析市場調(diào)研公司或營銷團隊可使用該API接口自動抓取社交媒體、新聞網(wǎng)站或行業(yè)博客上的數(shù)據(jù)。這些數(shù)據(jù)可用于分析當(dāng)前的市場趨勢、消費者的偏好或行業(yè)的最新動態(tài)。通過自動化的數(shù)據(jù)提取,團隊可以更快速地獲取關(guān)鍵信息,以制定準確的市場策略和預(yù)測。 |
|


Web/SERP 數(shù)據(jù)提取。
數(shù)據(jù)流套件 (DFK) 計算每個成功 (2xx) 請求的頁面信用。因此,扣除的積分數(shù)量取決于您發(fā)送的請求數(shù)量。
沒有代理 | 使用代理 | ||
---|---|---|---|
1個常規(guī)頁面請求成功 | 1 學(xué)分 | 2學(xué)分 | 使用基本 HTTP 請求“按原樣”獲取常規(guī)頁面 |
1 javascript頁面請求成功 | 2學(xué)分 | 3學(xué)分 | 真正的網(wǎng)絡(luò)瀏覽器(無頭瀏覽器)用于呈現(xiàn)動態(tài) Javascript 驅(qū)動的網(wǎng)頁。 |
1 個 SERP 頁面成功請求 | - | 3學(xué)分 | Headless chrome 和代理始終用于搜索引擎數(shù)據(jù)請求。 |
筆記:
- 導(dǎo)致 DFK 錯誤響應(yīng)的請求不會計費或計為積分。
- 如果使用 DFK 代理,則會扣除額外積分。


1.驗證
Dataflow Kit API 要求您注冊 API 密鑰才能使用該 API。
免費注冊后,可以在 DFK Dashboard 中找到 API 密鑰。
將秘密 API 密鑰作為 api_key
查詢參數(shù)傳遞給服務(wù)器的所有 API 請求。
2.下載網(wǎng)頁內(nèi)容
使用 fetch 端點下載網(wǎng)頁
- 基本獲取器類型是獲取服務(wù)器端呈現(xiàn)頁面的正確選擇。與使用 Chrome fetcher 渲染 HTML 相比,它需要更少的資源并且工作速度更快
- 但為了渲染 Angular、React 和 Vue.js 網(wǎng)站,您應(yīng)該始終指定 Chrome fetcher 類型。在這種情況下,無頭 Chrome 獲取器以與真實 Web 瀏覽器相同的方式呈現(xiàn)動態(tài) Javascript 內(nèi)容。
在 https://dataflowkit.com/render-web 上為您最喜歡的語言生成可立即運行的代碼
3.從搜索引擎收集搜索結(jié)果
要抓取搜索引擎結(jié)果頁面,您可以使用 /serp
端點。 SERP 收集服務(wù)提取有機結(jié)果、新聞、圖像等的列表。指定配置參數(shù)(例如國家/地區(qū)或語言)以自定義輸出 SERP 數(shù)據(jù)。支持以下搜索引擎
- 谷歌
- 谷歌圖片
- 谷歌新聞
- 谷歌購物
在 https://dataflowkit.com/serp 為您最喜歡的語言生成可立即運行的代碼
詳情參考:https://dataflowkit.com/doc-api#tag/serp/operation/serp






Web/SERP 數(shù)據(jù)提取。
數(shù)據(jù)流套件 (DFK) 計算每個成功 (2xx) 請求的頁面信用。因此,扣除的積分數(shù)量取決于您發(fā)送的請求數(shù)量。
沒有代理 | 使用代理 | ||
---|---|---|---|
1個常規(guī)頁面請求成功 | 1 學(xué)分 | 2學(xué)分 | 使用基本 HTTP 請求“按原樣”獲取常規(guī)頁面 |
1 javascript頁面請求成功 | 2學(xué)分 | 3學(xué)分 | 真正的網(wǎng)絡(luò)瀏覽器(無頭瀏覽器)用于呈現(xiàn)動態(tài) Javascript 驅(qū)動的網(wǎng)頁。 |
1 個 SERP 頁面成功請求 | - | 3學(xué)分 | Headless chrome 和代理始終用于搜索引擎數(shù)據(jù)請求。 |
筆記:
- 導(dǎo)致 DFK 錯誤響應(yīng)的請求不會計費或計為積分。
- 如果使用 DFK 代理,則會扣除額外積分。


1.驗證
Dataflow Kit API 要求您注冊 API 密鑰才能使用該 API。
免費注冊后,可以在 DFK Dashboard 中找到 API 密鑰。
將秘密 API 密鑰作為 api_key
查詢參數(shù)傳遞給服務(wù)器的所有 API 請求。
2.下載網(wǎng)頁內(nèi)容
使用 fetch 端點下載網(wǎng)頁
- 基本獲取器類型是獲取服務(wù)器端呈現(xiàn)頁面的正確選擇。與使用 Chrome fetcher 渲染 HTML 相比,它需要更少的資源并且工作速度更快
- 但為了渲染 Angular、React 和 Vue.js 網(wǎng)站,您應(yīng)該始終指定 Chrome fetcher 類型。在這種情況下,無頭 Chrome 獲取器以與真實 Web 瀏覽器相同的方式呈現(xiàn)動態(tài) Javascript 內(nèi)容。
在 https://dataflowkit.com/render-web 上為您最喜歡的語言生成可立即運行的代碼
3.從搜索引擎收集搜索結(jié)果
要抓取搜索引擎結(jié)果頁面,您可以使用 /serp
端點。 SERP 收集服務(wù)提取有機結(jié)果、新聞、圖像等的列表。指定配置參數(shù)(例如國家/地區(qū)或語言)以自定義輸出 SERP 數(shù)據(jù)。支持以下搜索引擎
- 谷歌
- 谷歌圖片
- 谷歌新聞
- 谷歌購物
在 https://dataflowkit.com/serp 為您最喜歡的語言生成可立即運行的代碼
詳情參考:https://dataflowkit.com/doc-api#tag/serp/operation/serp





