Python 实现定时任务的八种方案!(3)

发表于:2021-11-30 09:33

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:佚名    来源:菜鸟学Python

  使用分布式消息系统 Celery 实现定时任务
  Celery[6] 是一个简单,灵活,可靠的分布式系统,用于处理大量消息,同时为操作提供维护此类系统所需的工具,也可用于任务调度。Celery 的配置比较麻烦,如果你只是需要一个轻量级的调度工具,Celery 不会是一个好选择。
  Celery 是一个强大的分布式任务队列,它可以让任务的执行完全脱离主程序,甚至可以被分配到其他主机上运行。我们通常使用它来实现异步任务(async task)和定时任务(crontab)。异步任务比如是发送邮件、或者文件上传,图像处理等等一些比较耗时的操作 ,定时任务是需要在特定时间执行的任务。
  需要注意,celery 本身并不具备任务的存储功能,在调度任务的时候肯定是要把任务存起来的,因此在使用 celery 的时候还需要搭配一些具备存储、访问功能的工具,比如:消息队列、Redis 缓存、数据库等。官方推荐的是消息队列 RabbitMQ,有些时候使用 Redis 也是不错的选择。
  它的架构组成如下图:
  Celery 架构,它采用典型的生产者-消费者模式,主要由以下部分组成:
   Celery Beat,任务调度器,Beat 进程会读取配置文件的内容,周期性地将配置中到期需要执行的任务发送给任务队列。
   Producer:需要在队列中进行的任务,一般由用户、触发器或其他操作将任务入队,然后交由 workers 进行处理。调用了 Celery 提供的 API、函数或者装饰器而产生任务并交给任务队列处理的都是任务生产者。
   Broker,即消息中间件,在这指任务队列本身,Celery 扮演生产者和消费者的角色,brokers 就是生产者和消费者存放/获取产品的地方(队列)。
   Celery Worker,执行任务的消费者,从队列中取出任务并执行。通常会在多台服务器运行多个消费者来提高执行效率。
   Result Backend:任务处理完后保存状态信息和结果,以供查询。Celery 默认已支持 Redis、RabbitMQ、MongoDB、Django ORM、SQLAlchemy 等方式。
  实际应用中,用户从 Web 前端发起一个请求,我们只需要将请求所要处理的任务丢入任务队列 broker 中,由空闲的 worker 去处理任务即可,处理的结果会暂存在后台数据库 backend 中。我们可以在一台机器或多台机器上同时起多个 worker 进程来实现分布式地并行处理任务。
  Celery 定时任务实例:
  ·Python Celery & RabbitMQ Tutorial[7]
  · Celery 配置实践笔记[8]
  使用数据流工具 Apache Airflow 实现定时任务
  Apache Airflow[9] 是 Airbnb 开源的一款数据流程工具,目前是 Apache 孵化项目。以非常灵活的方式来支持数据的 ETL 过程,同时还支持非常多的插件来完成诸如 HDFS 监控、邮件通知等功能。Airflow 支持单机和分布式两种模式,支持 Master-Slave 模式,支持 Mesos 等资源调度,有非常好的扩展性。被大量公司采用。
  Airflow 使用 Python 开发,它通过 DAGs(Directed Acyclic Graph, 有向无环图)来表达一个工作流中所要执行的任务,以及任务之间的关系和依赖。比如,如下的工作流中,任务 T1 执行完成,T2 和 T3 才能开始执行,T2 和 T3 都执行完成,T4 才能开始执行。
  Airflow 提供了各种 Operator 实现,可以完成各种任务实现:
   BashOperator – 执行 bash 命令或脚本。
   SSHOperator – 执行远程 bash 命令或脚本(原理同 paramiko 模块)。
   PythonOperator – 执行 Python 函数。
   EmailOperator – 发送 Email。
   HTTPOperator – 发送一个 HTTP 请求。
   MySqlOperator, SqliteOperator, PostgresOperator, MsSqlOperator, OracleOperator, JdbcOperator, 等,执行 SQL 任务。
   DockerOperator, HiveOperator, S3FileTransferOperator, PrestoToMysqlOperator, SlackOperator…
  除了以上这些 Operators 还可以方便的自定义 Operators 满足个性化的任务需求。
  一些情况下,我们需要根据执行结果执行不同的任务,这样工作流会产生分支。如:
  这种需求可以使用 BranchPythonOperator 来实现。
  Airflow 产生的背景
  通常,在一个运维系统,数据分析系统,或测试系统等大型系统中,我们会有各种各样的依赖需求。包括但不限于:
   时间依赖:任务需要等待某一个时间点触发。
   外部系统依赖:任务依赖外部系统需要调用接口去访问。
   任务间依赖:任务 A 需要在任务 B 完成后启动,两个任务互相间会产生影响。
   资源环境依赖:任务消耗资源非常多, 或者只能在特定的机器上执行。
  crontab 可以很好地处理定时执行任务的需求,但仅能管理时间上的依赖。Airflow 的核心概念 DAG(有向无环图)—— 来表现工作流。
   Airflow 是一种 WMS,即:它将任务以及它们的依赖看作代码,按照那些计划规范任务执行,并在实际工作进程之间分发需执行的任务。
   Airflow 提供了一个用于显示当前活动任务和过去任务状态的优秀 UI,并允许用户手动管理任务的执行和状态。
   Airflow 中的工作流是具有方向性依赖的任务集合。
   DAG 中的每个节点都是一个任务,DAG 中的边表示的是任务之间的依赖(强制为有向无环,因此不会出现循环依赖,从而导致无限执行循环)。
  Airflow 核心概念
   DAGs:即有向无环图 (Directed Acyclic Graph),将所有需要运行的 tasks 按照依赖关系组织起来,描述的是所有 tasks 执行顺序。
   Operators:可以简单理解为一个 class,描述了 DAG 中某个的 task 具体要做的事。其中,airflow 内置了很多 operators,如 BashOperator 执行一个 bash 命令,PythonOperator 调用任意的 Python 函数,EmailOperator 用于发送邮件,HTTPOperator 用于发送 HTTP 请求, SqlOperator 用于执行 SQL 命令等等,同时,用户可以自定义 Operator,这给用户提供了极大的便利性。
   Tasks:Task 是 Operator 的一个实例,也就是 DAGs 中的一个 node。
   Task Instance:task 的一次运行。Web 界面中可以看到 task instance 有自己的状态,包括”running”, “success”, “failed”, “skipped”, “up for retry”等。
   Task Relationships:DAGs 中的不同 Tasks 之间可以有依赖关系,如 Task1 >> Task2,表明 Task2 依赖于 Task2 了。通过将 DAGs 和 Operators 结合起来,用户就可以创建各种复杂的 工作流(workflow)。
  Airflow 的架构
  在一个可扩展的生产环境中,Airflow 含有以下组件:
  ·元数据库:这个数据库存储有关任务状态的信息。
  · 调度器:Scheduler 是一种使用 DAG 定义结合元数据中的任务状态来决定哪些任务需要被执行以及任务执行优先级的过程。调度器通常作为服务运行。
  · 执行器:Executor 是一个消息队列进程,它被绑定到调度器中,用于确定实际执行每个任务计划的工作进程。有不同类型的执行器,每个执行器都使用一个指定工作进程的类来执行任务。例如,LocalExecutor 使用与调度器进程在同一台机器上运行的并行进程执行任务。其他像 CeleryExecutor 的执行器使用存在于独立的工作机器集群中的工作进程执行任务。
  · Workers:这些是实际执行任务逻辑的进程,由正在使用的执行器确定。
  Worker 的具体实现由配置文件中的 executor 来指定,airflow 支持多种 Executor:
  · SequentialExecutor: 单进程顺序执行,一般只用来测试
  · LocalExecutor: 本地多进程执行
  · CeleryExecutor: 使用 Celery 进行分布式任务调度
  · DaskExecutor:使用 Dask[10] 进行分布式任务调度
  · KubernetesExecutor: 1.10.0 新增,创建临时 POD 执行每次任务
  生产环境一般使用 CeleryExecutor 和 KubernetesExecutor。
  使用 CeleryExecutor 的架构如图:
  使用 KubernetesExecutor 的架构如图:

  本文内容不用于商业目的,如涉及知识产权问题,请权利人联系51Testing小编(021-64471599-8017),我们将立即处理
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号