MySQL运维经验,来自Facebook的一些MySQL运维经验

作者: 澳门金莎娱乐网站  发布:2019-07-31

Schema设计及DB拆分等由性能优化团队负责。

2. 高可用机制

5.5-MySQL主从复制

基于多数派实现自动选主。

某个从库挂掉时,可以动态摘除。

复制监控

查询从库状态:

show slave statusG

关于备份的作用定位:

MyRocks项目地址:

5.7-MySQL参数调优

责任编辑:

DBA团队更多的是负责私有DB云平台的建设。

5.1-MySQL日志系统

上面提到,因为采用多实例、多DB结构,备份时可以多DB并行备份。当然了,也会控制并行备份的数量,避免影响在线业务性能。

数据库资源申请由质量服务团队负责,做到资源的合理分布、分配。如果某个业务需要小量DB实例,可以自行在私有DB云平台中申请部署;当数量比较大时,需要先经过质量服务团队评估通过才可以。

sync_binlog

  • 控制每次写入Binlog,是否都需要进行一次持久化

图片 1

另外,MariaDB 10.2版本也即将整合MyRocks引擎。

课程小结

  • 恢复是已经非常苦逼的差事,尽量避免做。我们要做数据卫士而不是救火队员。(线上应该严格把控权限,数据变更操作应事先测试,操作时做好备份)
  • 有效备份( binlog)是重中之重,对数据库定期备份是必须的
  • 备份是一切数据恢复的基础

另外,MariaDB 10.2版本也即将整合MyRocks引擎。

1. 概要

二进制日志binlog

  • binlog (binary log)
  • 记录数据引起数据变化的SQL语句或数据逻辑变化的内容
  • MySQL服务层记录,无关存储引擎
  • binlog的主要作用:
    • 基于备份恢复数据
    • 数据库主从同步
    • 挖掘分析SQL语句

DBA团队更多的是负责私有DB云平台的建设。


innodb_io_capacity

  • InnoDB每次刷多少个脏页,决定InnoDB存储引擎的吞吐能力。
  • 在SSD等高性能存储介质下,应该提高该参数以提高数据库的性能。

若个别情况下由于特殊原因,出现从库全部挂掉的情况,会将全部请求切到主库,由它扛起所有的业务服务压力。

可使用xtrabackup在现有存活的SLAVE实例上备份,也可在主库上发起备份,再利用WDT(或者是BT)协议传输到异地,用于拉起从库。

串行有哪些问题

  • SAS盘一般每秒只能有150~200个Fsync。
  • 换算到数据库每秒只能执行50~60个事务

5. 高度自动化

上面提到,因为采用多实例、多DB结构,备份时可以多DB并行备份。当然了,也会控制并行备份的数量,避免影响在线业务性能。

MySQL异步复制

./sorence.png

图片 2

异步复制

原标题:MySQL运维经验

关于备份的作用定位:

基本知识 - 备份周期

考虑因素:

  • 数据库大小(决定备份时间)
  • 恢复速度要求(快速or慢速)
  • 备份方式(全量or增量)

面对大规模的数据库实例,手工处理完全不现实。目前在facebook主要是利用Python开发内部DB运维平台,所以Python技能方面要求比较高。


主要影响MySQL写性能的两个参数

  • innoDB_flush_log_at_trx_commit
  • sync_binlog

6. 团队结构及技能树

  • 供数据分析环境拉数据

  • 供灾难恢复

innoDB_flush_log_at_trx_commit

  • 控制InnoDB事务的刷新方式,一共有三个值:0,1,2
    • N=0 - 每隔一秒,把事务日志缓存区的数据写到日志文件中,以及把日志文件的数据刷新到磁盘上(高效,但不安全)
    • N=1 - 每个事务提交时候,把事务日志从缓存区写到日志文件中,并且刷新日志文件的数据到磁盘上,优先使用此模式保障数据安全性(低效,非常安全)
    • N=2 - 每事务提交的时候,把事务日志数据从缓存区写到日志文件中;每隔一秒,但不一定刷新到磁盘上,而是取决于操作系统的调度(高效,但不安全)

数据库资源申请由质量服务团队负责,做到资源的合理分布、分配。如果某个业务需要小量DB实例,可以自行在私有DB云平台中申请部署;当数量比较大时,需要先经过质量服务团队评估通过才可以。返回搜狐,查看更多

若个别情况下由于特殊原因,出现从库全部挂掉的情况,会将全部请求切到主库,由它扛起所有的业务服务压力。

恢复误删表、库

case:业务被黑,表被删除了(drop teble user)

需求:将表恢复

前提:备份 备份以来完整binlog

innobackupex --apply-log /dbbackup/filename
# 查看binlog的位置点
cat xtrabackup_binlog_info
# 查看结束点
mysqlbinlog -vv filename

mysqlbinlog -vv --start-position=2556990 -- stop-position=2776338
mysqlbinlog -vv --start-position=2556990 -- stop-position=2776338 | mysql -uroot -p123456 --sock=/dbbackup/mysql_3309/mysqld.sock

基于配置中心实现切换,未使用VIP。

项目地址:

数据恢复的必要条件

  • 有效备份
  • 完整的数据库操作日志(binlog)

备份放在集中存储(HDFS)上, 据说已达EB级别容量。


常用工具及用法

  • mysqldump - 逻辑备份,热备
  • xtrabackup - 物理备份, 热备
  • Lvm/zfs snapshot - 物理备份
  • mydumper - 逻辑备份,热备
  • cp - 物理备份,冷备

某个从库挂掉时,可以动态摘除。

基于多数派实现自动选主。

小结

  • 日常工作比较简单,但是任何一个操作都可能影响线上服务
  • 结合不同环境,不同要求选择最合适的方法处理
  • 日常工作应该求稳不求快,保障线上稳定是DBA的最大责任
  • 供数据分析环境拉数据
  • 供灾难恢复

在认为semi-sync复制可保证主从数据一致性的假设前提下,发生故障切换时,利用上述的binlog server中的日志进行补全后再选新主、切换。

MySQL运维实践

  • 无需备份索引,只备份数据;
  • 备份文件压缩比高,更节省磁盘空间;
  • 改进了mysqldump,备份过程中还进行额外压缩;

详细示例讲解

  • 恢复某几条误删数据
  • 恢复误删表、库
  • 将数据库恢复到指定时间点

所有的备份都是基于mysqldump实现,之所以采用mysqldump逻辑备份好处有:

备份放在集中存储(HDFS)上, 据说已达EB级别容量。 

系统调优的依据:监控

  • 实时监控MySQL的slow log
  • 实时监控数据库服务器的负载情况
  • 实时监控MySQL内部状态值

4. 如何快速部署从库

6. 团队结构及技能树

如何保证事务的安全

  • innoDB_flush_log_at_trx_commit 和 sync_binlog都设为1
  • 事务要和Binlog保证一致性

(加锁)-> xa_prepare, Fsync -> Write And Fsync Binlog -> InnoDB Commit, Fsync ->(释放锁)

关于WDT项目:

所有的备份都是基于mysqldump实现,之所以采用mysqldump逻辑备份好处有:

innobackupex使用

主要示例:

  • 全量备份
innobackupex --user=root --password=123456 --defaults-file=/etc/mysql/my.cnf /dbbackup
  • 增量备份
innobackupex --user=root --password=123456 --defaults-file=/etc/mysql/my.cnf --incremental --incremental-dir /dbbackup/2016-4-3_13:24:32 /dbbackup
  • 流方式备份
innobackupex --user=root --password=123456 --defaults-file=/etc/mysql/my.cnf --stream=xbstream /dbbackup/ > /dbbackup/stream.bak
  • 并行备份
innobackupex --user=root --password=123456 --defaults-file=/etc/mysql/my.cnf --parallel=4 /dbbackup/
  • 限流备份
innobackupex --user=root --password=123456 --defaults-file=/etc/mysql/my.cnf --throttle=10 /dbbackup/
  • 压缩备份
innobackupex --user=root --password=123456 --defaults-file=/etc/mysql/my.cnf --compress --compress-thread 4 /dbbackup/

项目地址:

目前大部分核心业务已切换成MyRocks引擎,在机器硬件配置不变的情况,约可节省一半机器。

5.6-MySQL日常运维

采用基于GTID的一主多从结构,外加一个基于lossless semi-sync机制的mysqlbinlog实现的binlog server(可以理解为MySQL 5.7的loss zero replication)。

 

配置MySQL并行复制

并行复制

  • 社区版5.6中新增
  • 并行是指从库多线程apply binlog
  • 库级别并行应用binlog,同一个数据库更改还是串行的(5.7版并行复制基于事务组)

设置

set global slave_parallel_workers=10; 设置sql线程数为10

放在MyRocks上的核心业务主要有:Feed、Post、社交图谱等读写混合业务。


基本指数 - 备份用途

  • 数据备灾
    • 应对硬件故障数据丢失
    • 应对人为或程序bug导致数据删除
  • 制作镜像库以供服务
    • 需要将数据迁移、统计分析等用处
    • 需要为线上数据建立一个镜像

2. 高可用机制

 

为什么要调整参数

  • 不同服务器之间的配置、性能不一样
  • 不同业务场景对数据的需求不一样
  • MySQL的默认参数只是个参考值,并不适合所有的应用场合

目前大部分核心业务已切换成MyRocks引擎,在机器硬件配置不变的情况,约可节省一半机器。

关于WDT项目:

MySQL semi-sync(半同步复制)

半同步复制

  • 5.5集成到MySQL,以插件形式存在,需要单独安装
  • 确保事务提交后binlog至少传输到一个从库
  • 不保证从库应用完这个事务的binlog
  • 性能有一定的降低,响应时间更长
  • 网络异常或从库宕机,卡住主库,直到超时或从库恢复

3. 备份机制

 

服务器上需要关注哪些

  • 硬件情况
  • 操作系统版本
  • CPU、网卡节电模式
  • 服务器numa设置
  • RAID卡缓存

每台机器都使用多实例的模型。 每个机器放多个实例,每个实例放多个DB。

基于配置中心实现切换,未使用VIP。

RAID如何保证数据安全

  • BBU(Backup Battery Unit)
    • BBU保证在WB策略下,即使服务器发生掉电或者宕机,也能够将缓存数据写入到磁盘,从而保证数据的安全

在线表结构变更:数据库资源申请由质量服务团队负责,做到资源的合理分布、分配,如果某个业务只需要个位数级别的DB实例,可以自行在私有DB云平台中申请部署,当数量比较大时,需要先经过质量服务团队评估通过。

4. 如何快速部署从库

MySQL线上部署

考虑因素:

  • 版本选择, 5.1、5.5还是5.6?
  • 分支选择,官方社区版? percona server? Mariadb?
  • 安装方式,包安装?二进制包安装?源码安装?
  • 路径配置,参数配置(尽量模板化、标准化)
  • 一个实例多个库 or 多个实例单个库?

多实例之间没有进行资源隔离,这么做是让每个实例都能发挥最大性能。

 

恢复误删除数据

case:误操作,删除数据忘记带完整条件,执行delete from user where age > 30 [and sex=male]

需求:将被删除的数据还原

恢复前提:完整的数据库操作日志(binlog)

delete from user where sex='female';

# 首先需要找到binlog里的信息
mysqlbinlog -vv mysql-bin.000001
# 找出sql语句,然后写出反转sql语句

采用他们自已的osc工具执行Online DDL(也是本次DTCC大会上lulu的分享主题),它最早用PHP开发,虽早已开源,但实在不好用,所以几乎只在内部使用。这个工具不同于pt-osc,相对来说更有优势,比如可以避免使用pt-osc最常遇到的主从数据延迟问题。

面对大规模的数据库实例,手工处理完全不现实。目前在facebook主要是利用Python开发内部DB运维平台,所以Python技能方面要求比较高。

总结

  • MySQL主从复制是MySQL高可用性、高性能(负载均衡)的基础
  • 简单、灵活,部署方式多样,可以根据不同业务场景部署不同复制结构
  • MySQL主从复制目前也存在一些问题,可以根据需要部署复制增强功能来解决问题
  • 复制过程中应该时刻监控复制状态,复制出错或延时可能给系统造成影响
  • MySQL复制是MySQL数据库工程师必知必会的一项基本技能

1. 概要

 

RAID5 VS RAID10

  • RAID 5 - Block Striped. Distributed Parity.(至少三块盘,每块里有两个数据块和一个校验块)
  • RAID 10 - Block Mirrored.(每两块盘做RAID1,然后再按组做RAID0,至少四块盘)

可使用xtrabackup在现有存活的SLAVE实例上备份,也可在主库上发起备份,再利用WDT(或者是BT)协议传输到异地,用于拉起从库。

 

社区和官方的改进

  • MariaDB提出改进,即使这两个参数都是1也能做到合并效果,性能得到了大幅提高。
  • 官方吸收了MariaDB的思想,并在此基础上进行了改进,性能再次得到了提高

Tips:

  • 官方在MySQL5.6版本之后才做了这个优化
  • Percona和MariaDB版本在MySQL5.5已经包含了这个优化

在认为semi-sync复制可保证主从数据一致性的假设前提下,发生故障切换时,利用上述的binlog server中的日志进行补全后再选新主、切换。

每台机器都使用多实例的模型。 每个机器放多个实例,每个实例放多个DB。

慢查询日志

  • 记录执行时间超过一定阈值的SQL语句
  • 配置参数
slow_query_log = 1
slow_query_log_file = /data/mysql_data/node-1/mysql-slow.log
long_query_time = 5
  • 用于分析系统中可能存在性能问题的SQL

本文由金沙国际唯一官网发布于澳门金莎娱乐网站,转载请注明出处:MySQL运维经验,来自Facebook的一些MySQL运维经验

关键词:

上一篇:频繁降价提振业绩,3年内实现中日同价
下一篇:没有了