Reviżjoni ta 'Semalt: Web Scraping For Fun & Profit

Tista ' tinbarax is-sit mingħajr il-bżonn ta' API. Filwaqt li s-sidien tas-siti huma aggressivi dwar il-waqfien tal-brix, huma jimpurtahom inqas mill-APIs u minflok jagħmlu aktar enfasi fuq il-websajts. Il-fatti li ħafna siti ma jħarsux b'mod adegwat kontra l-aċċess awtomatiku joħolqu prospett għal barraxa. Xi soluzzjonijiet sempliċi jgħinek biex taħsad id-data li għandek bżonn.

Nibdew bil-Brix

Il-brix jeħtieġ li tifhem l-istruttura tad-data li għandek bżonn u l-aċċessibilità tagħha. Dan jibda billi jġib id-dejta tiegħek. Sib il-URL li jirritorna l-informazzjoni li għandek bżonn. Ibbrawżja permezz tal-websajt u iċċekkja kif l-URLs jinbidlu waqt li tinnaviga permezz ta 'sezzjonijiet differenti.

Alternattivament, tfittex diversi termini fuq is-sit u iċċekkja kif il-URLs jinbidlu skont it-terminu tat-tfittxija tiegħek. Għandek tara parametru GET bħal q = li tinbidel kull meta tfittex terminu ġdid. Żomm il-parametri GET meħtieġa għat-tagħbija tad-dejta tiegħek u neħħi l-oħrajn.

Kif Tittratta Bil-Paginazzjoni

Pagination iżommok milli taċċessa d-dejta kollha li għandek bżonn f'daqqa. Meta tikklikkja paġna 2, offset = parametru jiżdied mal-URL. Dan huwa jew in-numru ta 'elementi fuq paġna jew in-numru tal-paġna. Iżżid dan in-numru fuq kull paġna tad-dejta tiegħek.

Għal siti li jużaw AJAX, aqbad it-tab tan-netwerk fil-Firebug jew mill-Ispettur. Iċċekkja t-talbiet XHR, identifika u ffoka fuq dawk li jiġbdu d-dejta tiegħek.

Ikseb id-Dejta mill-Immarkar tal-Paġna

Dan jinkiseb bl-użu ta ’snanar CSS. Ikklikkja dritt fuq sezzjoni partikolari tad-dejta tiegħek. Iġbed il-Firebug jew l-Ispettur u żomm is-siġra DOM biex toħroġ l-iktar diviżjoni <div> li tgeżwer oġġett wieħed. Ladarba jkollok l-għoqda t-tajba mis-siġra DOM, ara s-sors tal-paġna biex tiżgura li l-elementi tiegħek ikunu aċċessibbli f'HTML mhux maħdum.

Biex tinbarax is-sit b'suċċess, għandek bżonn librerija tal-analiżi parsing li tinqara f'HTML u ddawwarha f'oġġett li tista 'iterat sakemm ikollok dak li għandek bżonn. Jekk il-librerija HTTP tiegħek teħtieġ li tissettja xi cookies jew intestaturi, ibbrawżja s-sit fuq il-web browser tiegħek u tikseb l-intestaturi mibgħuta mill-browser tiegħek. Poġġihom fid-dizzjunarju u ibgħat it-talba tiegħek.

Meta jkollok bżonn login biex tinbarax

Jekk trid toħloq kont u illoggja biex tikseb id-dejta li trid, jeħtieġ li jkollok librerija HTTP tajba biex timmaniġġa l-logins. Id-dħul ta 'Scraper jesponik għal siti ta' partijiet terzi.

Jekk il-limitu tar-rata tas-servizz tal-web tiegħek jiddependi mill-indirizz IP, issettja kodiċi li jolqot is-servizz tal-web fuq Javascript min-naħa tal-klijent. Imbagħad ibgħat ir-riżultati lura lis-server tiegħek minn kull klijent. Ir-riżultati jidhru li joriġinaw minn tant postijiet, u ħadd minnhom ma jaqbeż il-limitu tar-rata tagħhom.

Immarkar Fqir

Xi marki jistgħu jkunu diffiċli biex jiġu validati. F'każijiet bħal dawn, ħaffer fil-parser HTML tiegħek għal settings ta 'tolleranza ta' żball. Alternattivament, ittratta d-dokument HTML kollu bħala sekwenza twila u agħmel qsim ta 'spag.

Filwaqt li tista 'sit tinbarax kull tip ta' dejta fuq ix-xibka f'xi siti jimpjegaw softwer biex iwaqqfu l-brix, u oħrajn jipprojbixxu r -ruttam tal-web . Siti bħal dawn jistgħu jħarrkuk u saħansitra għamlu l-ħabs talli ħasad id-dejta tagħhom. Allura tkun intelliġenti fil-brix tal-web kollu tiegħek u agħmelha mingħajr periklu.