目录

一、 背景

二、解决方案

三、实现操作

三、合并定时任务的例子

一、 背景

        随着业务的增长和时间的变化,ES 数据库的存储空间越来越大,存储数据多数为系统监控日志,保存的数据不需要长期保留,多数情况只需要保留几个月ES数据即可,既可以减轻ES服务器的负载和资源使用率,还可以节约更多的存储空间。

二、解决方案

      由于我的环境是k8s集群,ES 主要是为k8s集群内部应用服务,没有映射外部访问端口,所以不能直接使用Linux自带的crontab定时ES数据清理脚本。需要创建一个容器定时任务来定时清理ES历史数据。

        k8s定时任务,会根据你设置的时间,定时启动pod实例来执行任务,pod完成执行任务后,pod的状态会由 running 状态变成 Completed 状态。查看定时任务脚本执行日志,可通过查看pod日志实现。

       创建两个定时任务,一个定时任务在删除ES索引前执行,用于核对和审计定时任务删除的索引;另一个是关键的定时任务,用于删除ES历史数据。第一个定时任务可以根据实际情况选择性决定是否要创建。(当然你也可以直接把两个任务合并到一起,将两句curl命令完整内容作为command的参数,两句curl要使用分号 或者 && 连接)

三、实现操作

1、获取ES索引信息 

        获取ES索引定时任务编排文件:  elastic-get-indeices.yaml

apiVersion: batch/v1beta1

kind: CronJob

metadata:

annotations:

description: "先获取一次索引信息,然后再删除索引;以便核对每次删除的索引"

labels:

app: elastic-get-indeices

name: elastic-get-indeices

spec:

concurrencyPolicy: Forbid

failedJobsHistoryLimit: 5

schedule: "0 0 * * *"

jobTemplate:

metadata:

labels:

app: elastic-get-indeices

spec:

activeDeadlineSeconds: 360

backoffLimit: 3

completions: 1

parallelism: 1

template:

metadata:

annotations:

kubesphere.io/imagepullsecrets: '{}'

spec:

containers:

- command:

- /bin/sh

- -c

- curl -XGET -u ${esuser}:${espass} ${esurl}/_cat/indices | sort -k 3

env:

- name: esuser

value: "elastic" # ES 用户,使用默认用户即可

- name: espass

value: "ES密码" # 替换成 ES 真实的 密码

- name: esurl

value: "http://eshost:9200" # 替换成 ES 真实 url 地址

image: centos:7.9.2009 ## 使用任何一个带有 curl 命令的基础镜像都可以

imagePullPolicy: IfNotPresent

name: conjob

resources: {}

terminationMessagePath: /dev/termination-log

terminationMessagePolicy: File

volumeMounts:

- mountPath: /etc/localtime

name: host-time

readOnly: true

dnsPolicy: ClusterFirst

restartPolicy: Never

schedulerName: default-scheduler

securityContext: {}

serviceAccount: default

serviceAccountName: default

terminationGracePeriodSeconds: 30

volumes:

- hostPath:

path: /etc/localtime

type: ""

name: host-time

startingDeadlineSeconds: 30

successfulJobsHistoryLimit: 5

suspend: false

创建获取ES索引信息的定时任务:

# 创建 获取 ES 索引 信息定时任务

kubectl apply -f elastic-get-indeices.yaml

 2、删除 ES 30天之前的历史数据

        删除ES历史数据编排文件: elastic-delete-data.yaml

apiVersion: batch/v1beta1

kind: CronJob

metadata:

annotations:

description: "定时删除 ES 历史数据;保留30天的历史数据"

labels:

app: elastic-delete-data

name: elastic-delete-data

spec:

concurrencyPolicy: Forbid

failedJobsHistoryLimit: 5

schedule: "0 1 * * *" # 每天凌晨 1 点 自动动清理 ES 30天前的历史数据

jobTemplate:

metadata:

labels:

app: elastic-delete-data

spec:

activeDeadlineSeconds: 360

backoffLimit: 3

completions: 1

parallelism: 1

template:

metadata:

annotations:

kubesphere.io/imagepullsecrets: '{}'

spec:

containers:

- command:

- /bin/sh

- -c

- curl -XDELETE -u ${esuser}:${espass} ${esurl}/*$(date +%Y%m%d -d "30 days ago")*

env:

- name: esuser

value: "elastic" # ES 用户,使用默认用户即可

- name: espass

value: "ES密码" # 替换成 ES 真实的 密码

- name: esurl

value: "http://eshost:9200" # 替换成 ES 真实 url 地址

image: centos:7.9.2009 # 使用任何一个带有 curl 命令的基础镜像都可以

imagePullPolicy: IfNotPresent

name: conjob

resources: {}

terminationMessagePath: /dev/termination-log

terminationMessagePolicy: File

volumeMounts:

- mountPath: /etc/localtime

name: host-time

readOnly: true

dnsPolicy: ClusterFirst

restartPolicy: Never

schedulerName: default-scheduler

securityContext: {}

serviceAccount: default

serviceAccountName: default

terminationGracePeriodSeconds: 30

volumes:

- hostPath:

path: /etc/localtime

type: ""

name: host-time

startingDeadlineSeconds: 30

successfulJobsHistoryLimit: 5

suspend: false

# 创建 定时删除 ES 历史数据任务

kubectl apply -f elastic-delete-data.yaml

3、查看创建好的定时任务

# 注意命名空间,若不是当前默认命名空间 记得 指定命名空间

kubectl get cronjobs.batch

 4、已成功完成的定时任务

 5、通过删除前和删除后的索引情况来核对删除了那些索引

说明: 

        curl -X DELETE 删除ES索引是没有详细日志的,所以需要在删除前执行 curl -X GET 获取删除前索引信息,一旦出现异常就可以更好判断当次定时任务实际删除了那些内容,实际上是否成功按照保留天数执行了。

三、合并定时任务的例子

        1、一个定时任务执行多条命令,在删除ES历史数据前后分别获取一次ES索引情况;

        2、高级用法关键要点是:环境变量的互相依赖和引用,一定要注意环境变量的顺序和写法

        3、对于初学者,其实我更推荐第一种写法,简单明了,看着舒服,不易出错

        4、获取ES索引写法:curl -X GET -u ES用户:ES密码 http://127.0.0.1:9200/_cat/indices

        5、删除ES 索引参考:  curl -X DELETE -u ES用户:ES密码 http://127.0.0.1:9200/索引名字

         6、环境变量相互依赖和引用使用,可以参考官方文档:https://kubernetes.io/zh-cn/docs/tasks/inject-data-application/define-interdependent-environment-variables/https://kubernetes.io/zh-cn/docs/tasks/inject-data-application/define-interdependent-environment-variables/

---

apiVersion: batch/v1beta1

kind: CronJob

metadata:

annotations:

description: "分别输出删除ES历史索引操作前后的索引情况,以及完成删除历史数据操作"

labels:

app: delete-elastc-data

name: delete-elastc-data

spec:

concurrencyPolicy: Forbid

failedJobsHistoryLimit: 5

schedule: "0 1 * * *"

jobTemplate:

metadata:

labels:

app: delete-elastc-data

spec:

activeDeadlineSeconds: 360

backoffLimit: 3

completions: 1

parallelism: 1

template:

metadata:

annotations:

kubesphere.io/imagepullsecrets: '{}'

spec:

containers:

- command:

- /bin/sh

- -c

- $getes;echo "开始删除史数据:";$deles/*$(date +%Y%m%d -d "30 days ago")*;echo "删除后数据为:";$getes

env:

- name: esauth

value: "elastic:你的ES密码"

- name: esurl

value: "http://bk-elastic-elasticsearch-master.blueking:9200"

- name: getes

value: "curl -XGET -u $(esauth) $(esurl)/_cat/indices | sort -k 3"

- name: deles

value: "curl -XDELETE -u $(esauth) $(esurl)"

image: centos:7.9.2009

imagePullPolicy: IfNotPresent

name: conjob

resources: {}

terminationMessagePath: /dev/termination-log

terminationMessagePolicy: File

volumeMounts:

- mountPath: /etc/localtime

name: host-time

readOnly: true

dnsPolicy: ClusterFirst

restartPolicy: Never

schedulerName: default-scheduler

securityContext: {}

serviceAccount: default

serviceAccountName: default

terminationGracePeriodSeconds: 30

volumes:

- hostPath:

path: /etc/localtime

type: ""

name: host-time

startingDeadlineSeconds: 30

successfulJobsHistoryLimit: 5

suspend: false

---

参考阅读

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: