專業提供無毒且安全的軟件及游戲下載!
當前位置:首頁 > 電腦軟件 > 網絡工具 >懶人采集器下載 v3.1.6.0 免費版

懶人采集器下載 v3.1.6.0 免費版

  • 軟件大?。?/em>69.5MB
  • 更新日期:2021-06-05
  • 語言:簡體中文
  • 類別:網絡工具
  • 適用環境:WinAll
  • 安全檢測: 無插件 360通過 騰訊通過 金山通過 瑞星通過
  • 本地下載

    普通http下載速度慢

軟件介紹

懶人采集器官方版是一款非常實用的網絡小工具,軟件界面整潔、操作簡單、功能強大,擁有可視化配置,簡易創建,無需編程,智能生成,數據采集等功能。用戶使用懶人采集器可以輕松的采集到自己需要的網頁上的所有信息,使用起來非常方便。

懶人采集器官方版截圖

懶人采集器官方版軟件特色

1、軟件操作簡單,可通過鼠標點擊的方式輕松選取要抓取的內容;

2、支持三種高速引擎:瀏覽器引擎、HTTP引擎、JSON引擎,內置優化后的火狐瀏覽器,加上獨創的內存優化使瀏覽器采集也可以高速運行,甚至可以快速轉換為HTTP方式運行,享受更高的采集速度!而在抓取JSON數據時,同樣可以使用瀏覽器可視化方式,通過鼠標點選需要抓取的內容,完全不需要去分析JSON數據結構,使非網頁專業設計人士也可以輕松抓取需要的數據;

3、不用分析網頁請求和源代碼,卻支持更多的網頁采集;

4、先進的智能算法,可以一鍵生成目標元素XPATH、自動識別網頁列表、自動識別分頁中的下一頁按鈕……

5、支持豐富的數據導出方式,可以導出為txt文件、html文件、csv文件、excel文件,也可以導出到已有的數據庫,如sqlite數據庫、access數據庫、sqlserver數據庫、mysql數據庫,通過向導的方式簡單映射字段,即可輕松導出到目標網站數據庫中。。

懶人采集器官方版軟件功能

可視化向導

所有采集元素,自動生成采集數據

計劃任務

靈活定義運行時間,全自動運行

多引擎支持

支持多個采集引擎,內置高速瀏覽器內核、HTTP引擎和JSON引擎

智能識別

可自動識別網頁列表、采集字段和分頁等

攔截請求

自定義攔截域名,方便過濾站外廣告,提高采集速度

多種數據導出

可導出為Txt 、Excel、MySQL、SQLServer、 SQlite、Access、網站等

懶人采集器官方版軟件優勢

1、懶人采集器為用戶提供豐富的網頁數據采集功能

2、如果你需要復制網頁的數據就可以在這款軟件采集

3、大部分網頁的內容都是可以直接復制的,通過懶人采集器就可以一鍵采集使用

4、直接輸入網址采集,精準采集任意網頁內容

5、支持規則設置,自定義采集規則,添加采集的字段內容,添加采集的網頁元素

6、批量采集數據,輸入多個網址一鍵采集

7、任務列表在軟件顯示,點擊開始運行直接采集

8、支持數據查看,在軟件查看已經采集的數據內容,可以導出數據

9、支持字符以及詞庫替換功能,一鍵編輯采集到的文本

懶人采集器官方版使用教程

第一步:設置起始網址

要采集一個網站的數據,首先我們要設置從哪些網址進入采集,比如我們要采集一個網站的國內新聞,那么我們就要設置起始網址為國內新聞欄目列表的網址,而一般不會設置網站首頁為起始網址,因為首頁通常會包含很多列表,比如最新文章、熱門文章、推薦文章等等各種列表塊,并且這些列表塊里顯示的內容也是非常有限的,采集這些列表的話一般都無法采集完整信息。

下面我們以采集新浪新聞為例,從新浪首頁找到國內新聞,但該欄目首頁內容還是比較雜亂,而且還細分三個子欄目

懶人采集器官方版截圖1

我們從進入其中一個子欄目“內地新聞”看一下

懶人采集器官方版截圖2

該欄目頁包含有一個帶分頁的內容列表,通過切換分頁,我們就可以采集到該欄目下的所有文章,所以這種列表頁就非常適合作為我們采集的起始網址。

現在,我們就復制該列表網址到任務編輯框第一步的文本框中

懶人采集器官方版截圖3

如果你要在一個任務中同時采集國內新聞里的其他子欄目,也可以把另兩個子欄目列表地址復制進來,因為這些子欄目列表格式都是相似的。但為了便于導出或發布分類數據,一般不建議多個欄目內容混合在一起。

對于起始網址我們也可以批量添加或從txt文件導入,比如我們要采集前5頁,也可以這樣自定義五個起始頁

懶人采集器官方版截圖4

需要注意的是如果這里自定義了多個分頁列表,在后面的采集配置里就不要再啟用分頁了,通常我們要采集某個欄目下的所有文章時,都只需要定義該欄目第一頁為起始網址就行了,在后面的采集配置里啟用分頁,就可以采集到每個分頁列表的數據。

第二步:① 自動生成列表和字段

進入第二步后,對于某些網頁,懶人采集器會智能分析出該頁的列表,并自動高亮選擇網頁列表和生成列表數據,如

懶人采集器官方版截圖5

然后我們再對這些數據進行修整,比如刪掉一些不需要的字段

懶人采集器官方版截圖6

點擊圖示三角符號,會彈出該字段采集詳細配置,點擊上面的刪按鈕即可刪除該字段,其余參數后面章節會獨立介紹。

如果某些網頁自動生成的列表數據并不是我們想要的數據,可以點擊“清除字段”,把生成的字段全部清除。

懶人采集器官方版截圖7

如果自動分析出的高亮列表也不是我們要采集的列表,那么我們就手動選取列表。要是想取消高亮顯示的列表框,可以點擊 查找列表 - 列表XPATH,把里面的xpath清空后確定即可。

第二步:② 手動生成列表

點擊“查找列表”按鈕,選擇“手動選擇列表”

懶人采集器官方版截圖8

懶人采集器官方版截圖9

按提示,用鼠標左鍵點擊網頁列表中的第一行數據

點完第一行,再按提示點擊第二行或其他相似的行

懶人采集器官方版截圖10

點擊完列表里的任意兩行后,整個列表就高亮顯示出來了,同時該列表里的字段也會字段生成,如果生成的字段不對,點擊清除字段,把下面的字段全部清除掉,下一章再介紹手動選取字段。

懶人采集器官方版截圖11

第二步:③ 手動生成字段

點擊“增加字段”按鈕

懶人采集器官方版截圖12

點擊列表中任意一行中要提取的元素,比如要提取標題和鏈接地址,鼠標左鍵點擊一下該標題即可

懶人采集器官方版截圖13

當點擊的是網頁鏈接時,會提示是否用時要抓取鏈接地址

懶人采集器官方版截圖14

如果要同時提取鏈接標題和鏈接地址,點“是”,如果只要提取標題文本,點否,這里我們點“是”

懶人采集器官方版截圖15

系統會自動生成標題和鏈接地址字段,并在字段列表中顯示出提取到的字段內容,當點擊底部表格字段標題時,會在網頁上以黃色背景高亮顯示出匹配的內容。

如何還有標記列表中的其他字段,點擊新增字段,重復以上操作即可。

第二步:④ 分頁設置

當列表有分頁時,啟用分頁后就可以采集到所有的分頁列表數據。

網頁分頁有兩種

普通分頁:存在分頁條,并顯示有“下一頁”按鈕,點擊后可以進入下一頁,如之前的新浪新聞列表里的分頁

瀑布流分頁:網頁滾動條拉到底部時會自動加載下一頁內容

如果是普通分頁,我們選擇嘗試自動設置或手動設置

自動設置分頁

懶人采集器官方版截圖16

新建任務時默認是沒有啟用分頁的,點擊“不啟用分頁”,會彈出一個菜單,選擇“自動識別分頁”,如果識別成功,會彈出對話框提示“成功識別并設置了分頁元素!”,并在網頁“下一頁”按鈕上出現高亮的紅色虛線框(部分網頁按鈕可能不會顯示虛線框),至此成功啟用自動分頁

懶人采集器官方版截圖17

如果自動識別識別,會出現如下綠色提示框

懶人采集器官方版截圖18

手動設置分頁

在菜單中選擇“手動設置分頁”

懶人采集器官方版截圖19

然后會自動出現“查找分頁”按鈕,點擊后彈出菜單,選擇“標記分頁”

懶人采集器官方版截圖20

按提示向導點擊“下一頁”按鈕

懶人采集器官方版截圖21

點擊后會在網頁“下一頁”按鈕上出現高亮的紅色虛線框(部分網頁按鈕可能不會顯示虛線框),至此成功標記了分頁,如果要查看剛才設置的分頁xpath,可以選擇菜單中的“分頁XPath”,即可看到該分頁xpath,在這里也可以手動輸入xpath進行設置。

懶人采集器官方版截圖22

瀑布流分頁

有些網頁需要將滾動條拉到底部才能進入下一頁,例如今日頭條、知乎等網站,在菜單中選擇瀑布流分頁即可啟用該分頁。使用瀑布流分頁采集時,頁面會自動滾動到底部,直到分頁完成或達到指定的分頁次數。

最大分頁

指定最大分頁次數,也就是切換分頁的次數不會超過此數值。

懶人采集器官方版截圖23

第二步:⑤ 采集內容頁等多級網頁

如果我們要采集二級頁面,如內容頁,或采集更深一級的頁面,三級、四級等,在當前頁字段列表中,必須包含有一個提取鏈接地址的字段,也就是提取屬性為Href的字段,如圖

懶人采集器官方版截圖24

點擊該字段標題欄,選中該列后會出現“深入鏈接頁采集”按鈕

懶人采集器官方版截圖25

點擊該按鈕后會自動創建一個配置選項卡,并自動打開之前選中那個字段的一個網址。

懶人采集器官方版截圖26

而采集模式也自動顯示為“單條模式”

懶人采集器官方版截圖27

列表模式:用于提取某個網頁列表中的數據,預覽中可看到多條數據

單條模式:適用于采集內容詳情頁里的各項信息,如文章標題、時間、正文等

因為我們深入采集的這個頁面是內容頁,所有使用默認的“單條模式”

然后,我們新建一個字段,提取網頁中的文章發布時間,因為文章標題在第一層列表采集里已經提取了,這里就不需要重復了,采集運行時,多個頁面的字段會自動合并為一個表格數據的。

懶人采集器官方版截圖28

繼續新建字段提取正文

懶人采集器官方版截圖29

而為了保持原文的段落格式,這里的取值屬性可以選擇InnerHtml,即該字段提取的數據包含Html標簽

懶人采集器官方版截圖30

第三步:其他設置

在第三步的基本設置里,我們可以對瀏覽器做一些設置,比如禁用圖片、JS、Flash、框架等,提高瀏覽網頁的速度。

還可以設置瀏覽器標識(UserAgent)、代理IP、請求的間隔時間等

瀏覽器標識(UserAgent):網頁通過讀取瀏覽器標識來獲取客戶端的一些信息

請求間隔時間:用于降低請求的頻率,即降低采集速度,避免因采集太快而被封IP,如果不需要降速,可以設置為0時

多值連接符:字段設置了多個xpah提取多個元素時,使用這里自定義的連接符連接多個元素值

HTTP引擎線程數:使用HTTP請求時,多線程運行的線程數,同一個HTTP請求的任務可以拆分并使用多個線程同時采集,提高采集速度,只適用于HTTP引擎,瀏覽器引擎不適合。

懶人采集器官方版截圖31

下載地址
用戶評論
所有評論(5)
昵稱:
(您的評論需要經過審核才能顯示)
精選留言 來自吉林白山電信用戶 發表于: 2023-7-13
很棒的軟件呢。
精選留言 來自甘肅慶陽電信用戶 發表于: 2023-4-9
哈哈哈哈...有意思
精選留言 來自黑龍江大興安嶺電信用戶 發表于: 2023-9-7
這是要刮的.................................
精選留言 來自四川攀枝花電信用戶 發表于: 2023-6-23
有沒有打算一起交流這個軟件使用技巧的,我才剛接觸這個軟件,不太熟悉。
精選留言 來自河南洛陽移動用戶 發表于: 2023-5-21
我要你有,兩全其美。甚好甚好!

軟件投訴或糾錯

問題:
說明:
郵箱:
99久免费视频精品,精品久久久久久中文字幕无码,亚洲最大无码中文字幕,成人区精品一区二区不卡