一、安裝火車采集器
下載地址:http://www.locoy.com/download
下載后解壓至電腦任意目錄,例如D:\LocoySpider,雙擊D:\LocoySpider\LocoySpider.exe打開主程序,如下圖:
注意:運行火車采集器要求電腦安裝.NET2.0框架支持。如果主程序無法運行,很可能是因為您的電腦沒有安裝.NET2.0框架。.NET2.0框架可以通過以下地址下載:
http://download.microsoft.com/download/5/6/7/567758a3-759e-473e-bf8f-52154438565a/dotnetfx.exe
二、采集前的準備工作
2.1說明
由于本教程的重點是講解采集入庫,所以采集過程僅簡單介紹。如果要詳細了解采集過程,請參考以下資源:
火車用戶手冊:http://www.locoy.com/help
火車用戶論壇:http://bbs.locoy.com/
火車采集服務:http://www.locoy.com/Service/DataCrawl/
2.1下載入庫規則文件
火車采集器的入庫規則是可以自己制作的,為了便于理解和測試,本站已經做好資訊入庫規則,請通過以下地址下載:
http://download.destoon.com/tool/spider.zip
下載解壓后,將其中的DESTOON 3.0資訊.cwr 復制到火車采集器安裝目錄/Module目錄
2.3配置DESTOON采集入庫接口
DESTOON采集入庫接口位于您的站點目錄/api/spider.php。用Editplus或其他編輯軟件打開此文件。
注意:如果您的站點是UTF-8編碼,請不要使用記事本編輯PHP文件。
需要配置的參數,系統已經做了中文的注釋,請注意查看。
下面講一下常用的配置:
$verify_mode 一般設置為2,采用密鑰驗證
$spider_auth 設置一個最少6位的密鑰,為了配合已經配置好的Destoon 3.0資訊.cwr規則,暫時請設置為12345678,后面會詳細說明。
$spider_status 建議設置為2,這樣采集到的信息默認會發布為待審核狀態。
接口為了安全,默認需要修改一下spider.php文件名。為了方便測試,可以暫時刪除此限制。注釋掉以下代碼即可:
if(strpos($_SERVER['PHP_SELF'], '/spider.php') !== false) exit('為了系統安全,請修改接口文件名');
設置好的配置如下:
三、建立采集站點
本教程將以采集Destoon幫助文檔為例說明。
打開火車采集器主面板,點擊站點菜單,選擇新建站點:
四、新建采集任務
在建立的站點上點右鍵,從該站點新建任務:
五、設置采集網址規則
設置完成之后,點擊開始測試網址采集:
看到目標網址,說明網址規則設置成功
六、設置采集內容規則
打開任意一個目標網址,尋找標題、內容等字段匹配規則:
例一:設置標題規則
例二:設置內容規則
設置好字段后,再次測試:
此時已經采集到正確的內容了。
七、設置采集內容發布
7.1選擇Web在線發布方式發布
7.2 定義Web在線發布全局設置
點擊添加,可以看到本站提供的Destoon 3.0資訊采集規則
選擇一個分類并保存
7.3 選擇已保存的配置
返回到發布內容設置界面,在表格上點右鍵,選擇添加更多發布配置
選擇 DT文檔 點擊添加,然后選擇分類
7.4保存任務
填寫任務名稱,點擊保存按鈕
八、采集內容
在剛才建立的DT文檔任務上點右鍵,選擇開始任務采集
軟件提示內容發布成功。
進入網站后臺,資訊管理,審核資訊
可以看到采集到的資訊列表,說明發布成功。
九、采集發布規則
為了便于測試和理解,本教程默認提供了一個規則,下面講解如果修改或者建立規則。
在建立的任務DT文檔上點右鍵,編輯任務,進入發布內容設置,點擊定義web在線發布全局設置
如果需要新建一個發布規則,可以采用火車采集器自帶的發布模塊編輯器新建,也可以將火車采集器安裝目錄/Mdule目錄里的Destoon 3.0資訊.cwr復制一個新文件,例如Destoon 3.0供應.cwr,然后用火車采集器模塊編輯器編輯。
9.1文章發表參數
如果需要添加一個字段,例如作者,可以在Post數據里追加&author=[標簽:作者],其中author對應Destoon資訊表的字段,[標簽:作者]對應采集軟件采集的字段。
如果需要知道Destoon系統某個模塊具體有那些字段,例如資訊,可以在網站后臺添加資訊或者會員中心發布資訊點右鍵,查看網頁源代碼,形如name=”post[xxxx]”中的xxxx即為字段,和數據庫中表的字段名稱一致。
備注:本教程提供的規則定義了發布地址為/api/spider.php,所以在配置spider.php參數時,刪除了系統對文件名的設置。同時定義了發送的密鑰auth為12345678,所以在配置spider.php參數時設置了$spider_auth = '12345678';
9.2刷新列表設置
刷新列表設置用于獲取Destoon模塊的分類內容,各個模塊的設置是一致的,但是需要修改其中的moduleid參數。
十、小結
對于有PHP基礎的用戶,可以直接修改spider.php接口代碼,然后配合采集器發送的數據,實現更多內容的入庫。
網站起步階段,適量采集,并非有500G的空間就可以采集500G的數據,以免CPU和內存配置不匹配導致站點運行卡頓。
采集是一把雙刃劍,在帶來便利的同時也面臨被搜索引擎懲罰或版權糾紛的風險,請慎用。