神的祝褔資訊人生: 5月 2019

2019年5月29日星期三

[PHP]簡易爬蟲

這陣子一直遇到一些資訊需要固定去某些網站上擷取下來查看，但每次都要開瀏覽器去點及時在是有些麻煩，突然想到大家不是都說網路爬蟲，加上目前都在寫PHP得程式，就嘗試寫一支來試試看好了。

透過google大神搜尋了一下，知道了PHP中的CRUL函數可以幫我完成這項任務，因此寫了一點東西出來，雖然可以順利爬到資了，但還是要透過一些工具來解析結果，但今天這裡就不說解析那部份(太麻煩了，下次再說)。

網站傳輸還是要分清楚GET跟POST這些基本觀念，否則撰寫網頁時真的會常常不知到資料去哪了!!!

今天範例只是可以順利取回該網站的原始碼資訊(爬蟲就是爬這個而已)。
這個範例是我比較常使用的方式因此直接寫出來分享如下



$url = "目標網址";

$data_array = array(需要的參數);

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, $url);

curl_setopt($ch, CURLOPT_POST, true);

//文件方式回傳，而不是輸出

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

curl_setopt($ch, CURLOPT_POSTFIELDS, http_build_query($data_array));

$output = curl_exec($ch);

curl_close($ch);

echo $output;

其中的目標網址取得方式我個人會先去了解該網站的運行方式，
有些是我們看到的網址列上面的東西就是我們需要的網址，
但現在框架這麼多，又有好用的AJAX，所以我們都知道，搞不好好東西都是才在這邊喔~~~
至於怎麼看出這個資訊，相信需要撰寫爬蟲的夥伴們，我們心照不宣，今天就不多說廢話了~~

雖然我個人有偷懶，把這個麼多行的程式寫成一支物件，在到處使用中~~

神的祝褔資訊人生

2019年5月29日星期三

[PHP]簡易爬蟲

[工作心得]會議記錄撰寫原則

搜尋此網誌

2019年5月29日 星期三

[PHP]簡易爬蟲

[工作心得]會議記錄撰寫原則

2019年5月29日星期三