Semalt шолуы - Скрапингті іске қосу

Ауа ағыны - бұл кез-келген қолданушы қатарына қатарлас орындалатын көп жүйелік жұмыс ағынын конфигурациялау үшін пайдаланылатын Python үшін жоспарлаушы кітапханалар. Бір ауа ағынының құбырына SQL, bash және Python операциялары кіреді. Құрал міндеттер арасындағы тәуелділікті, параллель орындалатын және басқа функциялар аяқталғаннан кейін орындалатын тапсырмаларды анықтауға көмектесетін маңызды элементті көрсету арқылы жұмыс істейді.

Ауа ағыны неге керек?

Ауа ағынының құралы Python-да жазылған, бұл сізге бұрыннан реттелетін функцияға операторларыңызды қосуға артықшылық береді. Бұл құрал сізге деректерді веб-сайттан жақсы құрылымдалған деректер кестесіне түрлендіруге мүмкіндік береді. Ауа ағындары белгілі бір жұмыс процесін көрсету үшін бағытталған ациклдік графиктерді (DAG) пайдаланады. Бұл жағдайда жұмыс үрдісі бағыттық тәуелділіктерден тұратын тапсырмалар жиынтығын білдіреді.

Apache Airflow қалай жұмыс істейді

Ауа ағымы - бұл қоймаларды басқару жүйесі, ол міндеттерді түпкілікті тәуелділік ретінде анықтайды, өйткені код функцияларды кесте бойынша орындайды және жұмыс процесінің барлық процестеріне таратады. Бұл құрал іске қосылған және өткен тапсырмалардың күйін көрсететін пайдаланушы интерфейсін ұсынады.

Ауа ағындары пайдаланушыларға тапсырмаларды орындау процесі туралы диагностикалық ақпаратты көрсетеді және соңғы пайдаланушыға тапсырмалардың орындалуын қолмен басқаруға мүмкіндік береді. Бағытталған ациклдік график тек орындау мазмұнын және тапсырмаларды ұйымдастыру үшін пайдаланылатынын ескеріңіз. Ауа ағынында тапсырмалар - бұл сценарийді іске қосатын маңызды элементтер. Қиыру кезінде тапсырмалар екі хош иістен тұрады, олар:

  • Оператор

Кейбір жағдайларда тапсырмалар оператор ретінде жұмыс істейді, онда олар соңғы пайдаланушылар көрсеткендей операцияларды орындайды. Операторлар Python бағдарламалау тілінде орындалатын скреперлер мен басқа да функцияларды іске қосуға арналған.

  • Сенсор

Тапсырмалар сенсор ретінде жұмыс істеу үшін де жасалады. Мұндай жағдайда, бір-біріне тәуелді тапсырмаларды орындау жұмыс процесі үздіксіз орындалатын критерий орындалғанға дейін кідіртілуі мүмкін.

Сығымдау сценарийін іске қосу үшін ауа ағыны әр түрлі өрістерде қолданылады. Төменде ауа ағынын пайдалану туралы нұсқаулық берілген.

  • Шолғышты ашып, пайдаланушы интерфейсін тексеріңіз
  • Қате болған тапсырмаларды көру үшін сәтсіз болған жұмыс процесін тексеріп, оны нұқыңыз
  • Қате себебін тексеру үшін «Журналды қарау» түймесін басыңыз. Көптеген жағдайларда парольді аутентификациялау сәтсіздігі жұмыс процесінің бұзылуына әкеледі
  • Админ бөліміне өтіп, «Байланыстар» түймесін басыңыз. Жаңа құпия сөзді алу үшін Postgres қосылымын өңдеңіз және «Сақтау» түймесін басыңыз.
  • Шолғышқа қайта кіріп, сәтсіз болған тапсырманы нұқыңыз. Тапсырманы нұқыңыз және келесі жолы сәтті орындалуы үшін «Тазалау» түймесін түртіңіз.

Қарауға болатын басқа Python жоспарлаушылары

Крон

Cron - сценарийлерді белгілі бір уақыт аралығында, күндер мен уақыттарда мезгіл-мезгіл орындау үшін пайдаланылатын Unix негізіндегі ОЖ. Бұл кітапхана көбінесе бағдарламалық ортаны қолдау және күйге келтіру үшін қолданылады.

Луиджи

Луиджи - бұл визуализация мен тәуелділікті шешуге мүмкіндік беретін Python модулі. Луиджи жұмыс орындарын жинаудың күрделі құбырларын құру үшін қолданылады.

Ауа ағыны - тәуелділікті басқару жобаларын орындау үшін пайдаланылатын Python үшін жоспарлаушы кітапхана. Ауа ағынында тапсырмаларды орындау бір-біріне байланысты. Тиісті нәтижелерге қол жеткізу үшін Airflow сценарийін әр сағат сайын немесе екі сағаттан кейін автоматты түрде іске қосылатын етіп орнатуға болады.