„Semalt“ ekspertas pateikia žiniatinklio duomenų rinkimo su „Javascript“ vadovą

Žiniatinklio duomenų rinkimas gali būti puikus kritinių duomenų, naudojamų sprendimų priėmimo procese bet kuriame versle, šaltinis. Todėl tai yra duomenų analizės pagrindas, nes tai yra tikras būdas patikimiems duomenims rinkti. Bet kadangi internetinio turinio, kurį galima išmesti iš apyvartos, kiekis nuolat auga, gali būti beveik neįmanoma kiekvieną puslapį išmesti rankiniu būdu. Tai reikalauja automatizavimo.

Nors ten yra daugybė įrankių, pritaikytų įvairiems automatizuotiems grandymo projektams, dauguma jų yra priemokos ir kainuos jums nemaža pinigų. Čia įsijungia „Puppeteer“ + „Chrome“ + „Node.JS“. Ši pamoka padės jums atlikti procesą, užtikrinant, kad galite lengvai automatiškai nuskaityti svetaines.

Kaip veikia sąranka?

Svarbu pažymėti, kad šiek tiek žinių apie „JavaScript“ bus naudinga įgyvendinant šį projektą. Pradedantiesiems turėsite įsigyti aukščiau nurodytas 3 programas atskirai. „Puppeteer“ yra mazgų biblioteka, kurią galima naudoti norint valdyti „Chrome“ be galvos. „Headless Chrome“ reiškia chromo veikimo procesą be jo GUI, kitaip tariant, nenaudojant chromo. Turėsite įdiegti „Node 8+“ iš jo oficialiosios svetainės.

Įdiegę programas, atėjo laikas sukurti naują projektą, kad būtų galima pradėti kurti kodą. Idealiu atveju tai yra „JavaScript“ įbrėžimas tuo, kad naudodami kodą įbrėžimo procesą naudosite kodu. Norėdami gauti daugiau informacijos apie „Puppeteer“, skaitykite jos dokumentaciją. Yra daugybė pavyzdžių, su kuriais galite žaisti.

Kaip automatizuoti „JavaScript“ įbrėžimą

Kurdami naują projektą, sukurkite failą (.js). Pirmoje eilutėje turėsite iškviesti priklausomybę nuo mokinių, kuriuos buvote įdiegę anksčiau. Po to eina pagrindinė funkcija „getPic ()“, kuri turės visą automatikos kodą. Trečioji eilutė iškvies funkciją „getPic ()“, kad ji būtų paleista. Atsižvelgiant į tai, kad funkcija getPic () yra „async“ funkcija, mes galime naudoti laukimo išraišką, kuri pristabdys funkciją laukdama, kol „pažadas“ išsispręs, prieš pereidami prie kitos kodo eilutės. Tai veiks kaip pagrindinė automatikos funkcija.

Kaip iškviesti chromą be galvos

Kita kodo eilutė: "const browser = wait for puppeteer.Launch ();" automatiškai paleis marionetę ir paleis chromo egzempliorių, nustatydamas jį į mūsų naujai sukurtą „naršyklės“ kintamąjį. Pereikite prie puslapio sukūrimo, kuris bus naudojamas naršant URL, kurį norite atsisakyti.

Kaip išsaugoti duomenis

„Puppeteer“ API leidžia žaisti su įvairiomis interneto įvestimis, tokiomis kaip laikrodžių nustatymas, formos pildymas ir duomenų skaitymas. Galite kreiptis į jį, norėdami iš arti pamatyti, kaip galite automatizuoti tuos procesus. „Scrape ()“ funkcija bus naudojama įbrėžimo kodui įvesti. Norėdami pradėti grandymo procesą, paleiskite „node scrape.js“ funkciją. Tada visa sąranka turėtų automatiškai pradėti išvesti reikiamą turinį. Svarbu nepamiršti perskaityti savo kodo ir patikrinti, ar viskas veikia pagal projektą, kad nekiltų klaidų.

send email