본문 바로가기
반응형

airflow dag3

GCP에서 Composer로 Dataproc 실행 목차 [ Composer ] Composer는 GCP에서 사용하는 서비스이다. Airflow인데 GCP 내에서는 Composer 로 Airflow를 구동시킨다. 결국 Composer == Airflow 와 동일하다고 볼 수 있다. GCP에서는 Composer로 작업을 스캐줄할 수 있다. 당연히 Airflow라서 DAG를 생성해야 한다. 이번 글에서는 GCP에서 Dataproc용 Dag를 구성하고 Spark 코드를 실행하는 것을 알아보겠다. [ DAG, Directed Acyclic Graph ] DAG는 비순환그래프(Directed Acyclic Graph) 라는 건데 이 구조를 통해서 Airflow 작업은 스케쥴된다. DAG는 Python으로 작성하면 된다. 이말은 Airflow도 Python으로 동작.. 2024. 3. 10.
AirFlow Manual on Docker (3) [ DAG, Directed Acyclic Graph ] DAG는 유향 비순환 그래프 라고 한다. 수많은 꼭짓점과 간선으로 구성된다. 꼭짓점은 Task이고 간선은 Flow 나 Branch 같이 조건에 의한 흐름으로 볼 수 있다. Airflow는 DAG를 정의해고 DAG 통해서 작업을 실행시켜서 작업(Task)을 진행한다. 그러므로 DAG를 잘 다룰 수 있다면 Airflow를 잘 다룰 수 있다고 보면 된다. [ BashOperator ] from airflow.operators.bash_operator import BashOperator from airflow.models import DAG from datetime import datetime, timedelta args = { 'owner': 'airf.. 2020. 12. 22.
AirFlow Manual on Docker (2) [ Airflow 용어 정리 ] Airflow를 이해하기 위해서는 아래와 같은 용어들을 잘 이해하고 있어야 한다. 그 중에 DAG와 Task 그리고 Operator를 이해하면 거의 다 이해했다고 보면 된다. DAG는 Airflow에서 동작하는 워크플로우라고 보면 된다. DAG 안에는 여러개의 Task가 있고 각각의 Task가 조건에 따라 순서대로 동작된다. Task 안에는 Operator가 있고 Operator에 따라 Bash shell, Python, DB 등으로 명령을 할 수 있다. 용어 내용 DAG : 유향 비순환 그래프 Directed Acyclic Graph. 실행하고 싶은 일(task)들의 실행 순서를 구조화하고 실행 context를 제공 Task Dag 안에 하나의 일(Task)의 단위 Ta.. 2020. 12. 21.
반응형