大数据综合项目设计

陈志明、曾亮

目录

  • 1 案例概述
    • 1.1 案例目的
    • 1.2 适用对象
    • 1.3 时间安排
    • 1.4 预备知识
    • 1.5 硬件要求
    • 1.6 软件工具
    • 1.7 数据集
    • 1.8 案例任务
    • 1.9 实验步骤
  • 2 大数据实验环境搭建
    • 2.1 Linux系统及相关软件使用方法 
    • 2.2 JDK安装
    • 2.3 Scala安装
    • 2.4 Hadoop的安装和基本使用方法
    • 2.5 Spark的安装和基本使用方法
    • 2.6 MySQL数据库的安装和基本使用方法
  • 3 IntelliJ IDEA开发工具的安装和使用方法
    • 3.1 下载和安装IDEA
    • 3.2 下载Scala插件安装包
    • 3.3 启动IDEA
    • 3.4 为IDEA安装Scala插件
    • 3.5 配置项目的JDK
    • 3.6 使用IDEA开发WordCount程序
  • 4 ETL工具Kettle的安装和使用方法
    • 4.1 安装Kettle
    • 4.2 使用Kettle把数据加载到HDFS中 
  • 5 使用Spark SQL读写MySQL数据库的方法
    • 5.1 Spark SQL
    • 5.2 创建MySQL 数据库
  • 6 使用Spark MLlib实现协同过滤算法
    • 6.1 推荐系统概述 
    • 6.2 协同过滤算法 
    • 6.3 Spark MLlib中的协同过滤算法 
  • 7 Node.js的安装和使用方法
    • 7.1 Node.js的安装
    • 7.2 创建Node.js应用 
    • 7.3 使用Express框架和Jade模板引擎
    • 7.4 实例:采用Jade模板引擎实现用户注册登录功能 
  • 8 电影推荐系统(基础版)的实现过程
    • 8.1 数据分析整体过程
    • 8.2 把数据集加载到HDFS中
    • 8.3 编写Spark程序实现电影推荐
    • 8.4 使用Node.js在网页中展示结果
  • 9 电影推荐系统(升级版)的设计与实现
    • 9.1 系统概述
    • 9.2 系统总体设计
    • 9.3 数据库设计与实现
    • 9.4 spark程序设计与实现
    • 9.5 系统网站的设计与实现
  • 10 电信用户行为分析(基础版)的实现过程
    • 10.1 电信用户行为分析
  • 11 电信用户行为分析(升级版)
    • 11.1 电信用户行为分析(升级版)
安装Kettle

4.1 安装Kettle

—  Kettle是一款国外开源的ETL工具,纯java编写,可以在WindowLinuxUnix上运行,数据抽取高效稳定。

—  Kettle是“KettleE.T.T.L. Envirnonment“只取首字母的缩写,这意味着它被设计用来帮助你实现你的ETTL 需要:抽取、转换、装入和加载数据;翻译成中文名称应该叫水壶,名字的起源是开发者希望把各种数据放到一个壶里然后以一种指定的格式流出。

—  Spoon 是一个图形用户界面,它允许你运行转换或者任务,其中转换是用 Pan 工具来运行,任务是用 Kitchen来运行。

—  Pan 是一个数据转换引擎,它可以执行很多功能,例如:从不同的数据源读取、操作和写入数据。

—  Kitchen 是一个可以运行利用 XML 或数据资源库描述的任务。通常任务是在规定的时间间隔内用批处理的模式自动运行。

4.1下载并安装Kettle

1.下载Kettle安装包
登陆ubuntu系统,用ubuntu系统的浏览器打开Kettle官网下载最新稳定版kettle压缩包,这里我们下载7.1版本。点击下图中的链接开始下载(压缩包有接近900M),下载完成后文件默认保存在路径~/Downloads~/下载

2.新建文件夹/usr/local/kettle

为了把kettle安装在目录/usr/local/kettle,这里我们先新建文件夹,并修改属主权限,以便当前用户可以操作该文件夹。

3.解压zip

利用下列命令解压下载好的zip包,同时指定解压后的文件保存路径为/usr/local/kettle

$ unzip ~/下载/data-integration.zip -d /usr/local/kettle

4.复制MySQL驱动JAR

后续需要连接MySQL数据库,因此需要相关的驱动JAR包。首先从官网下载MySQL驱动JAR包(两种压缩格式均可,笔者下载的是zip压缩格式),下载完成默认保存在目录~/下载,利用下列命令将其解压,并将jar包复制到/usr/local/kettle/data-integration/lib

$ cd ~/下载

$ unzip mysql-connector-java-5.1.40.zip  #解压到当前文件夹

$ cp mysql-connector-java-5.1.40/mysql-connector-java-5.1.40-bin.jar/usr/local/kettle/data-integration/lib   

5.启动kettle

kettle的安装目录/usr/local/kettle下的文件夹data-integration里包含两个kettle工具启动的脚本命令,spoon.batspoon.sh,其中spoon.bat适用于windows系统,通过双击.bat文件来启动图形化界面,而spoon.sh适用于Linux系统,通过在终端执行下列命令来启动图形化界面。