DataX环境配置

摘要:
//Www.blogs.com/bsn-huang/p/393442.htm 4。获取datax3.0 gitclone的源代码https://module&gt!streamwriter<插件rdbms-util<&书信电报;插件非结构化存储util</模块>6.修改插件模块文件夹中pom.xml中的版本;
摘要: DataX(3.0)配置过程

配置过程以及插件配置

1、DataX(3.0)地址:https://github.com/alibaba/DataX

官方提供的配置需求:本例使用了JDK1.8 Python使用了CentOS预装的版本。

System Requirements:
Linux、Windows
JDK(1.6以上,推荐1.6)
Python(推荐Python2.6.X) 
Apache Maven 3.x (Compile DataX)

2、配置Maven

   本文使用apache-maven-3.3.9版本

   安装过程:解压maven的tar包,配置环境变量、

export M3_HOME=/usr/local/apache-maven-3.3.9
export PATH=$PATH:$M3_HOME/bin

 在终端中输入mvn -v 确认是否安装成功。

3、配置git

 1)先更新一下开发工具,命令:yum  groupinstall "Development Tools"

  2)安装一些其他的依赖包:

sudo yum install gettext-devel openssl-devel perl-CPAN perl-devel zlib-devel

 3)查看git的最新版本:https://github.com/git/git/releases

运行wget https://Github.com/Git/Git/archive/v2.9.3.tar.gz 下载最新版本。

5)tar xvf v2.3.0.tar.gz 解压下载的tar包

6)进入git目录,运行make install 命令

      报错:找不到 curl.h expat.h

      运行 

yum  install curl-devel
yum  install expat-devel

      安装相应的开发包。

   7)配置SSH Key 用于从github上获取源码

      教程:http://www.cnblogs.com/bsn-huang/p/3933442.htm

 4、获取datax3.0的源码

git clone https://github.com/alibaba/DataX

5、配置DataX源码根目录中pom.xml

删除pom.xml中的不需要的reader和writer插件模块。

本例保留的模块如下mysqlreader、mysqlwriter、hdfsreader、hdfswriter  (streamreader、streamwriter为运行样例所需的,建议保留):

<!-- reader -->
<module>mysqlreader</module>      
<module>hdfsreader</module>
<module>streamreader</module>
<!-- writer -->
<module>mysqlwriter</module>
<module>hdfswriter</module>
<module>streamwriter</module>
<!-- some support module -->
<module>plugin-rdbms-util</module>
<module>plugin-unstructured-storage-util</module>

6、 修改插件模块文件夹中的pom.xml中版本。

1)mysqlreader和mysqlwriter中的mysql-connector-java的5.1.34可以保留。

2)本例将hdfsreader和hdfswriter中的hive.version和hadoop.version更换为此前安装的2.1.0版本号和2.7.2版本号。

如图:

DataX环境配置第1张

7、 打开终端,进入DataX源码根目录

   (打包官方教程:https://github.com/alibaba/DataX/wiki/compile-datax

输入如下命令打包:

mvn -U clean package assembly:assembly -Dmaven.test.skip=true

打包成功结果如下:

DataX环境配置第2张

8、 可在DataX源码根目录下找到target文件夹,其中有打包好的目录结构与压缩包。

DataX环境配置第3张

9、部署:(部署教程:https://github.com/alibaba/DataX/wiki/Quick-Start

解压打包好的datax至本地某个目录,修改权限为755,进入bin目录,即可运行样例同步作业:

$ tar zxvf datax.tar.gz
$ sudo chmod -R 755 {YOUR_DATAX_HOME}
$ cd  {YOUR_DATAX_HOME}/bin
$ python datax.py ../job/job.json

运行样例作业成功结果:

DataX环境配置第4张

原文地址:https://my.oschina.net/u/2478308/blog/757521

免责声明:文章转载自《DataX环境配置》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇C# WinForm在高分辨率下界面模糊问题的解决多数据源切换-Druid下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

TeeChart 8.01 With Source在Delphi 7.0中的安装(转)

转载自:http://www.360doc.com/content/10/1012/22/3572432_60499559.shtml TeeChart.v8.01安装日志. 为了安装teechart,可谓是煞费苦心,昨晚弄到深夜一点过,今天又弄了两个多小时.特将安装日志记录如下: 一、TeeChart Introduction: TeeChart Pro...

linux权限问题学习总结

寒假里看的权限问题,现在来总结一下。 文件权限除了r、w、x外还有s、t、i、a权限: 1、s:文件属主和组设置SUID和GUID,文件在被设置了s权限后将以root身份执行。在设置s权限时文件属主、属组必须先设置相应的x权限,否则s权限并不能正真生效(chmod命令不进行必要的完整性检查,即使不设置x权限就设置s权限,chmod也不会报错,当我们ls -...

jenkins + sonar 安装配置

最近把snoar 添加上了 [root@snoar data]#   wget https://sonarsource.bintray.com/Distribution/sonarqube/sonarqube-6.5.zip [root@snoar data]#  unzip sonarqube-6.5 [root@snoar data]#  mv  s...

SAPCAR 压缩解压软件的使用方法

  SAPCAR 是 SAP 公司使用的压缩解压软件,从 SAP 网站下载的补丁包和小型软件基本都是扩展名为 car 或 sar 的,它们都可以用 SAPCAR 来解压。下面是它的使用说明: 用法: 创建新档案:SAPCAR -c[vir][f archive] [-P] [-C directory]   [-A filename] [-T filena...

【C#日期系列(一)】--C#获取某月第一天0分0秒以及最后一天59分59秒

工作中可能会遇到很多不常见的需求,比如这次需要获取某个月的第一天和最后一天 #region 取得某月的第一天0分0秒 /// <summary> /// 取得某月的第一天0分0秒 /// </summary> /// <param name="datetime"&...

linux文件名乱码解决办法

1、linux解压压缩文件乱码 unzip -O CP936 xxx.zip 2、一般文件用convmv sudo convmv -f gbk -t utf-8 -r --notest /your_directory 就是将/your_directory目录下原来文件名是gbk编码方式的全部改为utf-8格式的。这里 -f 后面为原来的编码方式,-t 后...