分类 Data 下的文章

云服务器中通过Docker镜像的方式使用Mysql数据库,数据安全考量定期备份数据库到阿里云OSS中

本文主要实现在阿里云ECS服务器中,通过脚本的方式实现将Docker中的Mysql数据库备份到阿里云OSS中。其他云服务商和其他环境的MySQL也可以使用类似的方式。具体方式不再赘述。

环境和工具

  1. 阿里云ECS服务器,安装Ubuntu或任何带有定时任务cron的Linux操作系统
  2. 阿里云OSS bucket和相应访问的账户
  3. 阿里云OSS命令行工具ossutil,可以到这里下载或查看详情
  4. MySQL镜像

具体步骤

开通OSS和相应子账号

  1. 进入阿里云OSS(对象存储)控制台,如果没有开通OSS服务可能会提示权限和开通确认。
  2. 创建bucket/存储桶,输入名字,比如xxxxbackup,记住这个名字以及界面中出现的Endpoint(地域节点),后续会用到。
    WX20220720-115411.png
  3. 创建一个有API的阿里云子账号,并赋予OSS读写权限。记住该账号的API和Secret,后续会用到。帮助文档
    WX20220720-115547.png

下载OSS命令行工具ossutil到本地系统

  1. 通过wget https://gosspublic.alicdn.com/ossutil/1.7.13/ossutil64下载到本地。这里是64位操作系统,32位可以去下载界面查看对应的下载地址。
  2. 增加运行权限:chmod +x ossutil64
  3. 移动到Path中:sudo mv ossutil64 /bin/

编写脚本

这里需要注意docker容器的名称,容器中应该有MYSQL用户名和密码的环境变量;示例中使用的是root作为用户名;另外备份临时文件夹也需要提前使用mkdir建好

脚本内容示例:

#!/bin/sh 

mysql_dump_path=备份文件临时目录,如/var/dbbackup/ 

#oss-config 
oss_endpoint="阿里云OSS Endpoint" 
oss_bucket="阿里云OSS bucket名称" 
oss_accesskeyid="子账号AccessKeyId" 
oss_accesskeysecret="子账号 AccessKey Secret" 
backup_name=`date +%Y%m%d%H%M%S`
cd ${mysql_dump_path} 

# 使用 mysqldump 备份整个数据库到临时文件夹中
# 注意docker修改docker镜像名称,这里是some-mysql
docker exec some-mysql sh -c 'mysqldump -uroot -p"$MYSQL_ROOT_PASSWORD" --all-databases' > ${backup_name}.sql

# 打包/pack 
tar zcf ${backup_name}.tar.gz ${backup_name}.sql 
rm -f ${backup_name}.sql 

# 备份到OSS
ossutil64 cp ${backup_name}.tar.gz oss://${oss_bucket}/mysql/backup/${backup_name}.tar.gz -f -e ${oss_endpoint} -i ${oss_accesskeyid} -k ${oss_accesskeysecret} 
rm -f ${backup_name}.tar.gz 
echo "备份完成"

将脚本保存至任意一个不错的位置,比如/var/backup/dbbackup.sh,赋予可执行权限:sudo chmod +x /var/backup/dbbackup.sh

试着运行一下脚本文件sudo /var/backup/dbbackup.sh,再去oss控制台该bucket下-文件管理处查看是否有备份文件存入。如果一切没有问题,则就可以加入cron了。

加入cron计划任务

注:如果脚本位置和临时备份文件夹位置是当前用户无法直接编辑的,则应使用一下方法,在系统级别运行计划任务;用户级别会因为权限问题出错

使用你喜欢的编辑器打开/etc/crontab文件,并在文件末尾加上这行:

23 2 * * * root /var/backup/dbbackup.sh

这表示在每天的02:23:00运行我们的备份脚本。

重新启动cron计划任务:sudo service cron reload

在次日2:23分之后检查OSS控制台后台,即可发现整个数据库已经备份到阿里云OSS。

参考

  1. 使用ossutil定时备份自建mysql数据库到阿里云OSS
  2. Cron介绍
  3. docker hub: mysql

Matlab与Excel混合编程其实早在2010年科学网左正伟博客就有一篇文章总结了,到现在(2015年)也不为过时。这里在简要引用一下,作者终结了四种(当时)主流的实现方式:

  • 利用Excel Link(最常用方法),具体参见Matlab帮助或Excel Link手册
  • 利用Excel生成器(Matlab作COM服务器)
  • 利用Active X控制(Matlab作COM客户端)
  • 文件导入方法(利用xlsreadxlswrite函数读写Excel文件)

路上这篇文章主要介绍最后一种方法,即利用xlsreadxlswrite函数去读写Excel文件,再用Matlab进行数据处理的思路。因为路上的需求非常简单(粗暴):统计一堆按照某种格式制作的Excel文件(工作簿)中每个工作表(工作表/Worksheet)中指定位置的内容,并返回统计结构。
Matlab去满足这两种需求也很简单:利用xlsread读取内容,处理后,利用xlswrite写入预定格式的Excel文件中。其中xlsread用的函数调用方法为:

[num,txt,raw] = xlsread(filename,sheet,xlRange)

xlswrite的调用方法为:

xlswrite(filename,A,sheet,xlRange)

同时我们使用

[satus,sheets] = xlsfinfo(filename)

得到每个工作表(worksheet)的名称,同时我们也可以通过numel(sheets)获得工作表数量信息。而为了去自动读取所有的Excel文件,我们将所有要处理的文件放在一个文件夹下,然后利用 file = dir('./*.xlsx') 命令将所有Excel文件存入一个结构数组中。

思路(步骤)总结

  1. 利用 dir 函数读取所有要处理的Excel文件信息
  2. 利用xlsfinfo函数获得Exce文件中的工作表(worksheet)信息(名称、数量等)
  3. 利用xlsread函数读取Excel文件中指定工作表(worksheet)指定位置数据
  4. Matlab 编程处理数据
  5. 利用xlswrite 函数将相关数据以存入预定格式的 Excel 文件中

注:文章基于python3,路上通过这篇文章中的内容,写了20多行代码,实现定时抓取某网页某几个数据的目标

准备工作

要使用python抓取网页,可以使用两个包:requests用于下载网页,而BeautifulSoup则对网页进行结构化解析。如果你在电脑上安装了pip,则可以使用下面的命令下载安装这两个包:

pip install requests beautifulsoup4

或者按照引用文章1将两个包安装到虚拟环境。
(实际上路上通过分析发现,在路上的需求里,第二个包没有用到。。)

抓取网页

抓取网页及其简单,假如我要抓取「https://pip.pypa.io/en/stable/」这个网页,则使用:

import requests
response = requests.get(‘https://pip.pypa.io/en/stable/')

在函数返回后,就能从response.text中获得这个页面的文本数据(html或者其他文本)。

抓取数据后,使用BeautifulSoup对文本数据处理,便会得结构化的HTML,然后就可以利用BeautifulSoup强大的HTML处理能力抓取相关内容了。但是路上经过分析发现需要抓取的内容位于某xx.js文件内,是json变量。所以BeautifulSoup没能使用的上。。

使用python处理JSON内容

python原生支持JSON,使用json.loads(JSONdata)将JSON转换为xml,然后使用xml相关技术得到相关数据。具体步骤略去。
python处理JSON可以参见这篇文章

数据科学是一门跨学科的专业,在「大数据」的背景(噱头)下,看起来很有前途

根据Drew Conway给出的数据科学的一个文氏图,可以看出数据科学是Hacking Skills, Math & Statistics Knowledge 以及Substantive Expertise的大交集。

  ![Data_Science_VD.png][2]

要学习数据科学,路上认为可以从上面的文氏图来推算应该的学习内容,它们应该包括:

  1. Hacking Skills (计算机知识)

    • 基本的编程语言和与数据处理相关的包/框架,例如python语言
    • 数据处理框架,比如处理大数据的利器:Hadoop
  2. Math & Statistics Knowledge (数理统计知识)

    • 统计学(概率统计)
    • (机器)学习理论
  3. 数据科学综合知识

    • 数据挖掘等