Semalt xülasəsi: Əyləncə və mənfəət üçün veb kəsmə

Bir API ehtiyac olmadan sayt qırıntılarını edə bilərsiniz. Sayt sahibləri qırıntıları dayandırmaqda aqressiv olsalar da, API-lərə daha az əhəmiyyət verirlər və bunun əvəzinə veb saytlara daha çox diqqət yetirirlər. Bir çox saytın avtomatik girişdən lazımi səviyyədə qorunmadığı faktlar, kazıyıcılar üçün bir yol açır. Bəzi sadə çalışmalar sizə lazım olan məlumatları yığmağa kömək edəcəkdir.
Sıxma ilə başlayın

Scraping sizə lazım olan məlumatların quruluşunu və əlçatanlığını başa düşməyi tələb edir. Bu, məlumatlarınızı almaqla başlayır. Lazımi məlumatları qaytaran URL-i tapın. Veb saytına nəzər yetirin və fərqli bölmələrdə gəzərkən URL-lərin necə dəyişdiyini yoxlayın.
Alternativ olaraq, saytda bir neçə termin axtarın və axtarış termini əsasında URL-lərin necə dəyişdiyini yoxlayın. Yeni bir termin axtardığınız zaman dəyişən q = kimi bir GET parametrini görməlisiniz. Verilənlərinizi yükləmək üçün lazım olan GET parametrlərini qoruyun və digərlərini çıxarın.
Paginasiya ilə necə məşğul olmaq olar
Səhifələşdirmə sizə lazım olan bütün məlumatları bir anda əldə etməyinizə mane olur. 2-ci səhifəyə kliklədikdə URL-ə ofset = parametr əlavə olunur. Bu ya səhifədəki elementlərin sayı, ya da səhifə nömrəsidir. Məlumatlarınızın hər səhifəsində bu rəqəmi artırın.
AJAX istifadə edən saytlar üçün Şəbəkə sekmesini Firebug və ya Müfəttişdən çəkin. XHR sorğularını yoxlayın, məlumatlarınızı çəkənləri müəyyənləşdirin və diqqət edin.
Səhifə işarələməsindən məlumat alın
Buna CSS qarmaqlarından istifadə etməklə nail olunur. Verilənlərinizin müəyyən bir hissəsini sağ vurun. Firebug və ya müfəttişini çəkin və DOM ağacını böyüdün, tək bir məhsulu bağlayan ən yaxşı <div> əldə edin. DOM ağacından düzgün node tapdıqdan sonra, elementlərinizin xam HTML-də olmasını təmin etmək üçün səhifə mənbəyinə baxın.
Sayt qırıntılarını müvəffəqiyyətlə yerinə yetirmək üçün, HTML-də oxuyan və lazım olanı əldə etməyinizə qədər onu təkrarlaya biləcəyiniz bir obyektə çevirən bir HTML təhlil kitabxanasına ehtiyacınız var. HTTP kitabxananızdan bəzi çərəzlər və ya başlıqlar təyin etməyinizi tələb edərsə, veb brauzerinizdə saytı gözdən keçirin və başlıqların brauzeriniz tərəfindən göndərildiyini əldə edin. Onları bir lüğətə qoyun və istəyinizlə irəli göndərin.
Scrape üçün bir giriş ehtiyacınız olduqda
İstədiyiniz məlumatları əldə etmək üçün bir hesab yaratmalı və giriş etməlisinizsə, girişləri idarə etmək üçün yaxşı bir HTTP kitabxananız olmalıdır. Scraper giriş sizi üçüncü tərəf saytlarına məruz qoyur.
Veb xidmətinizin dərəcəsi limiti IP adresindən asılıdırsa, veb xidmətini müştəri tərəfi Javascript-ə vuran bir kodu təyin edin. Sonra nəticələri hər bir müştəridən serverinizə geri göndərin. Nəticələr çox yerdən yaranacaq və heç biri nisbət həddini aşmayacaq.

Zəif formalaşmış işarə
Bəzi işarələrin təsdiqlənməsi çətin ola bilər. Belə hallarda səhvlərə dözümlülük parametrləri üçün HTML analizatorunuzu qazın. Alternativ olaraq, bütün HTML sənədinə uzun bir simli kimi baxın və sətir parçalanması edin.
Saytda hər cür məlumatları qıra bilsəniz, bəzi saytlar qırıntıları dayandırmaq üçün proqram təmin edir və digərləri veb qırıntılarını qadağan edir. Belə saytlar sizi məhkəməyə verə bilər və hətta məlumatlarını yığdığınız üçün həbsxanaya salmısınız. Beləliklə, bütün veb qırıntılarınızda ağıllı olun və bunu təhlükəsiz edin.