Semalt Review - skrāpēšanas skripta vadīšana

Gaisa plūsma ir Python plānotāja bibliotēka, ko izmanto, lai konfigurētu daudzsistēmu darbplūsmas, kuras tiek izpildītas paralēli jebkuram lietotāju skaitam. Vienu Airflow cauruļvadu veido SQL, bash un Python operācijas. Rīks darbojas, norādot uz atkarībām starp uzdevumiem, kas ir kritisks elements, kas palīdz noteikt uzdevumus, kas jāveic paralēli un kuri jāizpilda pēc pārējo funkciju pabeigšanas.

Kāpēc gaisa plūsma?

Gaisa plūsmas rīks ir uzrakstīts Python, dodot jums priekšrocību pievienot savus operatorus jau iestatītajai pielāgotajai funkcionalitātei. Šis rīks ļauj nokasīt datus, veicot pārveidi no vietnes uz labi strukturētu datu lapu. Gaisa plūsma izmanto virzītas cikliskās diagrammas (DAG), lai attēlotu konkrētu darbplūsmu. Šajā gadījumā darbplūsma attiecas uz uzdevumu kopumu, kas sastāv no virziena atkarībām.

Kā darbojas Apache Airflow

Airflow ir noliktavas pārvaldības sistēma, kas darbojas, lai definētu uzdevumus kā to galīgo atkarību, jo kods izpilda funkcijas grafikā un sadala uzdevumu izpildi visos darbinieka procesos. Šis rīks piedāvā lietotāja saskarni, kas parāda gan pašreizējo, gan iepriekšējo uzdevumu stāvokli.

Airflow lietotājiem parāda diagnostikas informāciju par uzdevuma izpildes procesu un ļauj tiešajam lietotājam manuāli pārvaldīt uzdevumu izpildi. Ņemiet vērā, ka novirzīta acikliska diagramma tiek izmantota tikai izpildes konteksta iestatīšanai un uzdevumu organizēšanai. Gaisa plūsmā uzdevumi ir izšķirošie elementi, kas palaiž skrāpēšanas skriptu. Nokasot, uzdevumi sastāv no divām garšām, kas ietver:

  • Operators

Dažos gadījumos uzdevumi darbojas kā operatori, ja tie veic darbības, kā norādījuši gala lietotāji. Operatori ir paredzēti, lai palaistu skrāpēšanas skriptu un citas funkcijas, kuras var izpildīt Python programmēšanas valodā.

  • Sensors

Tiek izstrādāti arī uzdevumi, kas darbojas kā sensori. Šādā gadījumā no viena otra atkarīgu uzdevumu izpildi var apturēt, līdz tiek izpildīts kritērijs, kurā darbplūsma norit vienmērīgi.

Gaisa plūsma tiek izmantota dažādos laukos, lai palaistu nokasīšanas skriptu. Zemāk ir rokasgrāmata par to, kā izmantot Airflow.

  • Atveriet pārlūkprogrammu un pārbaudiet lietotāja interfeisu
  • Pārbaudiet neizpildīto darbplūsmu un noklikšķina uz tās, lai redzētu nepareizi izpildītos uzdevumus
  • Noklikšķiniet uz "Skatīt žurnālu", lai pārbaudītu kļūmes cēloni. Daudzos gadījumos paroles autentifikācijas kļūme izraisa darbplūsmas kļūmi
  • Iet uz sadaļu admin un noklikšķiniet uz "Connections". Rediģējiet Postgres savienojumu, lai iegūtu jauno paroli un noklikšķiniet uz “Saglabāt”.
  • Atkārtoti apmeklējiet pārlūkprogrammu un noklikšķiniet uz neveiksmīgā uzdevuma. Noklikšķiniet uz uzdevuma un pieskarieties “Notīrīt”, lai nākamreiz uzdevums tiktu izpildīts veiksmīgi.

Citi Python plānotāji, kas jāņem vērā

Krons

Cron ir uz Unix balstīta operētājsistēma, ko izmanto, lai periodiski palaistu skriptus ar fiksētiem intervāliem, datumiem un laikiem. Šo bibliotēku galvenokārt izmanto programmatūras vides uzturēšanai un iestatīšanai.

Luigi

Luigi ir Python modulis, kas ļaus jums rīkoties ar vizualizāciju un atkarības izšķirtspēju. Luigi tiek izmantots, lai izveidotu sarežģītus darbu savākšanas cauruļvadus.

Airflow ir Python plānotāja bibliotēka, ko izmanto atkarības pārvaldības projektiem. Gaisa plūsmā uzdevumu izpildīšana ir atkarīga viena no otras. Lai iegūtu konsekventus rezultātus, varat iestatīt Airflow skriptu automātiski darboties ik pēc stundas vai divām.