亚洲成人高清_国产图区_欧美亚洲综合在线_欧美精品国产综合久久_欧美综合影院_97精品在线

2023-10-10 88847

首頁 » 文檔 » 高級技巧

火車采集器采集入庫教程

一、安裝火車采集器

下載地址:http://www.locoy.com/download

下載后解壓至電腦任意目錄,例如D:\LocoySpider,雙擊D:\LocoySpider\LocoySpider.exe打開主程序,如下圖:

注意:運行火車采集器要求電腦安裝.NET2.0框架支持。如果主程序無法運行,很可能是因為您的電腦沒有安裝.NET2.0框架。.NET2.0框架可以通過以下地址下載:

http://download.microsoft.com/download/5/6/7/567758a3-759e-473e-bf8f-52154438565a/dotnetfx.exe

二、采集前的準備工作

2.1說明

由于本教程的重點是講解采集入庫,所以采集過程僅簡單介紹。如果要詳細了解采集過程,請參考以下資源:

火車用戶手冊:http://www.locoy.com/help

火車用戶論壇:http://bbs.locoy.com/

火車采集服務:http://www.locoy.com/Service/DataCrawl/

2.1下載入庫規則文件

火車采集器的入庫規則是可以自己制作的,為了便于理解和測試,本站已經做好資訊入庫規則,請通過以下地址下載:

http://download.destoon.com/tool/spider.zip

下載解壓后,將其中的DESTOON 3.0資訊.cwr 復制到火車采集器安裝目錄/Module目錄

2.3配置DESTOON采集入庫接口

DESTOON采集入庫接口位于您的站點目錄/api/spider.php。用Editplus或其他編輯軟件打開此文件。

注意:如果您的站點是UTF-8編碼,請不要使用記事本編輯PHP文件。

需要配置的參數,系統已經做了中文的注釋,請注意查看。

下面講一下常用的配置:

$verify_mode 一般設置為2,采用密鑰驗證

$spider_auth 設置一個最少6位的密鑰,為了配合已經配置好的Destoon 3.0資訊.cwr規則,暫時請設置為12345678,后面會詳細說明。

$spider_status 建議設置為2,這樣采集到的信息默認會發布為待審核狀態。

接口為了安全,默認需要修改一下spider.php文件名。為了方便測試,可以暫時刪除此限制。注釋掉以下代碼即可:

if(strpos($_SERVER['PHP_SELF'], '/spider.php') !== false) exit('為了系統安全,請修改接口文件名');

設置好的配置如下:

三、建立采集站點

本教程將以采集Destoon幫助文檔為例說明。

打開火車采集器主面板,點擊站點菜單,選擇新建站點:

四、新建采集任務

在建立的站點上點右鍵,從該站點新建任務:

五、設置采集網址規則

設置完成之后,點擊開始測試網址采集:

看到目標網址,說明網址規則設置成功

六、設置采集內容規則

打開任意一個目標網址,尋找標題、內容等字段匹配規則:

例一:設置標題規則

例二:設置內容規則

設置好字段后,再次測試:

此時已經采集到正確的內容了。

七、設置采集內容發布

7.1選擇Web在線發布方式發布

7.2 定義Web在線發布全局設置

點擊添加,可以看到本站提供的Destoon 3.0資訊采集規則

選擇一個分類并保存

7.3 選擇已保存的配置

返回到發布內容設置界面,在表格上點右鍵,選擇添加更多發布配置

選擇 DT文檔 點擊添加,然后選擇分類

7.4保存任務

填寫任務名稱,點擊保存按鈕

八、采集內容

在剛才建立的DT文檔任務上點右鍵,選擇開始任務采集

軟件提示內容發布成功。

進入網站后臺,資訊管理,審核資訊

可以看到采集到的資訊列表,說明發布成功。

九、采集發布規則

 

為了便于測試和理解,本教程默認提供了一個規則,下面講解如果修改或者建立規則。

在建立的任務DT文檔上點右鍵,編輯任務,進入發布內容設置,點擊定義web在線發布全局設置

如果需要新建一個發布規則,可以采用火車采集器自帶的發布模塊編輯器新建,也可以將火車采集器安裝目錄/Mdule目錄里的Destoon 3.0資訊.cwr復制一個新文件,例如Destoon 3.0供應.cwr,然后用火車采集器模塊編輯器編輯。

9.1文章發表參數

如果需要添加一個字段,例如作者,可以在Post數據里追加&author=[標簽:作者],其中author對應Destoon資訊表的字段,[標簽:作者]對應采集軟件采集的字段。

如果需要知道Destoon系統某個模塊具體有那些字段,例如資訊,可以在網站后臺添加資訊或者會員中心發布資訊點右鍵,查看網頁源代碼,形如name=”post[xxxx]”中的xxxx即為字段,和數據庫中表的字段名稱一致。

備注:本教程提供的規則定義了發布地址為/api/spider.php,所以在配置spider.php參數時,刪除了系統對文件名的設置。同時定義了發送的密鑰auth為12345678,所以在配置spider.php參數時設置了$spider_auth = '12345678';

9.2刷新列表設置

刷新列表設置用于獲取Destoon模塊的分類內容,各個模塊的設置是一致的,但是需要修改其中的moduleid參數。

十、小結

對于有PHP基礎的用戶,可以直接修改spider.php接口代碼,然后配合采集器發送的數據,實現更多內容的入庫。

網站起步階段,適量采集,并非有500G的空間就可以采集500G的數據,以免CPU和內存配置不匹配導致站點運行卡頓。

采集是一把雙刃劍,在帶來便利的同時也面臨被搜索引擎懲罰或版權糾紛的風險,請慎用。

火車采集器 火車頭 采集 入庫
以上內容是否對您有幫助?點擊反饋加群交流

 
公司簡介   |   聯系方式   |   合作代理   |   隱私政策   |   使用協議   |   意見反饋    
主站蜘蛛池模板: 人人澡人人澡人人澡 | 欧美精品免费在线 | 色资源网站| 色一区二区 | 日本韩国三级在线 | 精品视频一区二区三区四区 | 国产亚洲精品久久久久久线投注 | 天天操天天插天天干 | 91操美女 | 色综合精品久久久久久久 | 久久综合久久综合久久综合 | 久久99亚洲综合精品首页 | 日韩精品在线一区 | 91精品国产91久久久 | 日韩美女一区 | 久艹在线观看视频 | 人人干操 | 精品乱子伦一区二区三区 | 午夜影院在线免费观看视频 | 日韩卡1卡2 卡三卡2021老狼 | 日韩欧美在线一区二区三区 | 丁香婷婷成人 | 国产成人精品.一二区 | 日日操视频 | 在线观看国产日韩欧美 | 天天做天天爱夜夜爽女人爽宅 | 毛片性生活 | 日本精品a在线观看 | 99SE久久爱五月天婷婷 | 五月激情小说 | 91精品在线播放 | 国产小视频免费在线观看 | 三级理伦| 国产精品久久婷婷六月丁香 | 免费国产成人午夜在线观看 | av在线免费观看播放 | 成人亚洲A片V一区二区三区婷婷 | 国产欧美日韩一区二区三区四区 | 日本黄色免费看 | 国产在线自在拍91精品黑人 | 婷婷五 在线播放 |