大数据系统应用（广东开放大学）

主讲老师：余恒芳花罡辰丁慧洁

分类：个性化课程

课程可见性：公共

主页
课程标准
实施方案
课程概述视频

简介

本课程主要内容包括：数据采集选型和流程设计、数据采集系统环境搭建、数据采集、数据分析、数据可视化、数据采集及分析综合实例。本课程以由简到繁的项目为导向、采用任务驱动，形成“教、学、做”一体化教学模式，使学生掌握大数据技术与应用专业所需的知识与技能，培养学生职业能力和职业素养。

武汉软件工程职业学院+Hadoop大数据构建与应用+2018-2019-2课件

大数据系统运维-工信部考证

知识点拨

大数据系统应用

交互式练习

《大数据系统应用》课程标准

课程编码：课程类别：专业领域核心课程

适用专业：计算机信息管理专业授课单位：计算机学院

学时：64 编写执笔人及编写日期：杨雪峰 2021.5.20

学分：4 审定负责人及审定日期：余恒芳 2021.5.22

1、课程定位和课程设计

1.1课程性质与作用

课程的性质：本课程是计算机信息管理专业的专业学习领域核心课程，是培养学生运用Python语言进行大数据系统分析的专业核心课程。

课程的作用：本课程以企业人才标准作为依据和培养目标，以“高职院校学情分析”系统为项目原型，以任务驱动为主线，基于数据采集选型和流程设计、数据采集系统环境搭建、数据采集、数据分析、数据可视化、数据采集及分析综合实例。本课程以由简到繁的项目为导向、采用任务驱动，形成“教、学、做”一体化教学模式，使学生掌握大数据技术与应用专业所需的知识与技能，培养学生职业能力和职业素养。

本课程在软件技术专业的整个课程体系中处于承上启下的关键位置：

1.2课程基本理念

本课程根据大数据、软件开发岗位从业人员所必须具备的职业能力要求，以职业岗位需求为目标，以职业能力和职业素养培养为重点，按照工作过程系统化这条主线，产教深度融合，设计课程、组织和实施教学。本着以专业能力培养为主线、兼顾社会能力、方法能力培养的设计理念，着重发展学生的实践技能。整个课程教学设计紧紧围绕高技能人才培养的目标展开教学，精心选取和设计典型实例组织教学内容，将知识的讲解贯穿于典型实例“高职院校学情分析”的开发过程，激发学生的学习兴趣、促进教学效果。加大动手实践环节比例，尽量令学生能在做中学，更好地锻炼学生的实践能力。各教学模块中，根据实现典型实例所需的知识与技能规划教学内容和进度，组织课堂教学，确定学生实训任务，在循序渐进完成典型实例的同时实现教学目标，达到实践与理论的深度融合。

1.3课程设计思路

本课程侧重于培养学生的大数据综合能力，令学生掌握大数据系统应用开发的核心内容，故而课程设计围绕基于HADOOP大数据分析和Python语言的大数据分析及编程基本能力锻炼的方方面面展开，各个教学模块力求讲解透彻、训练到位，令学生为后续实际工作奠定坚实的知识和技能基础。各知识点的讲解以实际工作中案例开发的过程和步骤为出发点，将教学过程分为任务描述、计划、实施、测试四大步骤，分别对应大数据平台管理和大数据分析工作环节，使得学生除了学习必要的知识和技术外，还能在学习过程中自然而然的了解大数据分析的步骤和流程，为将来参加实际工作进行项目开发打下良好的基础。同时通过采用“教”、“学”、“做”三位一体法教学法，教师边示范、边讲解、边提问，学生边做、边学、边思考，从而实现在做中教，在做中学，通过计算机信息管理资源库平台辅助教学，提高学生的实践能力和专业水平。

2、课程目标

通过本课程的学习，以企业人才标准作为依据和培养目标，以“高职院校学情分析”系统为项目原型，以任务驱动为主线，基于HADOOP大数据平台，围绕大数据平台的搭建与运维、大数据的采集与存储、大数据的处理、数据的分析、数据的可视化等应用案例，学习HADOOP、MAPREDUCE、HDFS、HIVE和SQOOP等相关技术知识，通过实践训练强化使用Python进行程序设计的能力，使学生具备大数据分析能力，为后续实际工作奠定基础，同时在实践教学过程中培养学生的平台搭建能力、排错能力、编码能力、程序调试能力，团队合作与沟通能力、自主学习与创新能力等。

3、课程内容与要求

学习情境项目规划和学习情境设计

序号	项目名称	情景任务	课时
1	Hadoop平台及组件部署	任务1.1 hadoop平台及搭建步骤简介任务1.2 hdfs组件、Yarn组件、mapreduce主件任务1.3 Hive组件任务1.4 伪分布式	8
2	Spark组件部署	任务2.1 Spark组件任务2.2 hbase组件任务2.3 Zookeeper组件	8
3	数据采集	任务3.1 分析明确采集对象任务3.2 构建采集请求任务3.3 实现数据爬取任务3.4 日志数据采集	8
4	Python数据分析	任务4.1 Numpy数值分析任务4.2 Pandas统计分析	12
5	Python数据可视化	任务5.1 Matplotlib简介任务5.2 pyplot的plot函数任务5.3 基本图形绘制——饼图和直方图任务5.4 基本图形绘制——条形图和散点图任务5.5 python数据可视化实训	12
6	综合实例	任务6.1 数据采集系统设计与环境搭建任务6.2 用户行为分析系统设计与环境搭建任务6.3 用户购物数据采集及分析实例	16
合计			64

4、课程实施

4.1教学条件

4.1.1软硬件条件

硬件要求：

Intel及其兼容计算机，P5或者更高处理器；8G以上内存；100GB以上的硬盘空间。

软件要求：

（1）Windows 7以上操作系统

（2）JDK1.7

（3）Eclipse 3.2或以上版本

（4）Hadoop2.7

（5）Tomcat7.0.67

（6）Centos7

（7）XianDian-BigData-V2.2

（8）MYSQL5.0

4.1.2师资条件

教师队伍要求年龄层次清晰，梯队结构合理，要求教师教学经验丰富，具有较强的创新精神，要求具有“双师”结构的特点。

对任课教师的职业能力和知识结构的要求：

职业能力

知识结构

良好的个人素质

现代化的教育、教学理念

现代化的教学手段

较强的实践能力

Python应用开发，大数据分析及其相关课程知识

教学内容组织

教学方法与手段

课堂教学管理等

4.2教学方法建议

拥有先进的教学理念和教学方法是课程教学的重要保证。要采用先进的教学方法，充分利用现代化的教学方法和手段，以确保教学质量的提高。

Ø 案例教学法

围绕一定的教学目标，把实际中真实的情景加以典型化处理，形成典型案例，涵盖必要的知识和核心技术，先演示案例效果，吸引学生学习兴趣，再引导学生分析解决问题的思路和方案，最终带领学生完成案例，令学生能边学边做，既锻炼学生实践能力，也培养学生分析问题、解决问题的能力。

Ø 多媒体演示教学法

在课堂教学中，灵活运用多媒体教学软件，既可将教学相关重要资料共享给学生，又可将教学案例的分析、实现过程演示给学生，令学生能更直观地接收相关的知识和技术，达到较好的教学效果。

Ø 项目小组协作教学法

将学生组成一个个项目小组，分派一个具体的实践任务，让他们在限定的时间内通过讨论研究、编码实现、演示成果来完成整个任务，老师根据其完成的情况进行评价。这种教学方式可以锻炼学生的团队精神，加强教学的互动性，增强学生学习的主动性。

4.3教学评价、考核要求

课程的评价根据课程标准的目标和要求，实施对教学全过程和结果的有效监控。采用形成性评价与终结性评价相结合的方式，既关注结果，又关注过程。其中形成性评价注重平时表现和实践能力的考核。主要根据学生完成每个学习情境的情况，结合平时表现，进行综合打分，采用计算机信息管理资源库实施信息化教学，可跟踪学习轨迹。打分标准如下：

评价指标		所占比例（%）
课程的参与度	出勤情况	12%
	课堂表现情况	8%
	实践任务完成质量	20%
期末考核	课程设计	60%
总评成绩	100

5、课程资源开发与利用

（一）学习资料资源：

（1）推荐教材：

《Python数据分析与应用》，黄红梅，人民邮电出版社，ISBN9787115373045

（2）推荐参考书：

《Hadoop大数据处理》，刘军，人民邮电出版社，2013，ISBN 9787115323248

《Hadoop大数据挖掘从入门到进阶实战：视频教学版》，邓杰，机械工业出版社，2018，ISBN 978-7-111-60010-7

《Cloudera Hadoop大数据平台实战指南》，宋立桓、陈建平，清华大学出版社，2019，ISBN：9787302517535

（二）信息化教学资源：

计算机信息管理教学资源库（jsjxxglzyk.whvcse.edu.cn）

云计算云上实训系统

多媒体课件、网络课程、多媒体素材、电子图书和专业网站的开发与利用。

6、其他说明

课程教学实施方案

2020-2021 学年度第二学期

开课系计算机学院

课程名称大数据系统应用

授课班级 20大数据01，02，03，04班

任课教师杨雪峰、吴圭亮

填表日期： 2021年5月20日

填写说明

1．本方案由任课教师填写，教研室主任、院（部）负责人审核同意后，于每学期第二周交各院（部）教务科存档。

2．本方案一式二份：开课院（部）一份，教师本人一份。

3．所有栏目应填写完整，“理论教学进度安排” 表和“实践教学进度安排” 表的空格内可以按照教学内容分章、分节、分项的要求自行加画子栏目，并可加页或适当调整表格。

4．理论课程（A类）填写“理论教学进度安排” 表，理实一体化课程（B类）填写“理论教学进度安排” 表和“实践教学进度安排” 表，实践课程（C类）填写“实践教学进度安排” 表。

5. 理论课程（A类）一般按2学时为一个条目填写，理实一体化课程（B类）中的 “实践教学进度安排” 表和实践课程（C类）填写“实践教学进度安排” 表一般按半天为一个条目填写。

课程类别 B类、专业学习领域核心课程开课时间：第 1 周至第 18 周，周课时 6 本学期学分 6 考核要求：考核类型（考试 / 考查）考查考核方式课程设计成绩分配：期末考试成绩占总分比例 60 % 平时成绩占总分比例 40 % 其中：实践性环节占 50 % 考勤占 50 %
本课程授课总时数（总学分）	已完成学时数	本学期授课总学时数	理论教学时数			实践教学时数				复习	机动
			讲授	其它		单项技能训练		综合技能训练	课程设计
108（6）	0	64	32			32		0	0	2	2
课程教学目的和要求（分述）	目的：本课程是2020级计算机信息管理专业大数据方向的专业核心课程。通过学习本课程，使学生掌握数据采集选型和流程设计、数据采集系统环境搭建、数据采集、数据分析、数据可视化、数据采集及分析。本课程以由简到繁的项目为导向、采用任务驱动，形成“教、学、做”一体化教学模式，使学生掌握大数据技术与应用专业所需的知识与技能，培养学生职业能力和职业素养。要求：《大数据系统应用》课程实践性较强，学生接触过Python程序开发，有必要经过大量的练习、实训以牢固掌握基于Python语言的大数据分析。
教材和参考书	推荐教材1：《Python数据分析与应用》，黄红梅，人民邮电出版社，ISBN 9787115373045 参考书：《Hadoop大数据处理》，刘军，人民邮电出版社，2013，ISBN 9787115323248 《Hadoop大数据挖掘从入门到进阶实战：视频教学版》，邓杰，机械工业出版社，2018，ISBN 978-7-111-60010-7 《Cloudera Hadoop大数据平台实战指南》，宋立桓、陈建平，清华大学出版社，2019，ISBN：9787302517535
教研室审查意见	年月日				系主任审查意见		年月日

课堂教学进度安排

周次	章、节及内容	重、难点	教学类型时数		使用教学设备及软（课）件	作业
周次	章、节及内容	重、难点	讲授	实践教学	使用教学设备及软（课）件	作业
第1周	《Hadoop大数据构建与应用》课程简介：在教学计划中的地位课程主要内容概述开发环境要求	重点：开发环境要求难点：课程主要内容概述	2	0	64位win7以上操作系统，8G内存配置的机房 JDK1.7、 Eclipse、Tomcat7.0.67、MYSQL5.0、Hadoop2.7、大数据平台
	项目：认识大数据，实现学情分析系统设计与环境搭建任务1.1 设计学情分析系统	重点：掌握大数据的概念和特征；了解大数据处理与分析流程。难点：熟悉大数据分析与处理工具的使用。	1	1
	项目：认识大数据，实现学情分析系统设计与环境搭建任务1.2 构建学情分析系统开发环境	重点：学会学情分析系统架构的设计方法。难点：学会大数据开发环境的配置操作	1	1
第2周	项目：认识大数据，实现学情分析系统设计与环境搭建任务1.2 构建学情分析系统开发环境	重点：学会学情分析系统架构的设计方法。难点：学会大数据开发环境的配置操作。	0	2	64位win7以上操作系统，8G内存配置的机房 JDK1.7、 Eclipse、Tomcat7.0.67、MYSQL5.0、Hadoop2.7、大数据平台	搭建大数据开发环境
	项目：Hadoop大数据平台的构建任务2.1 搭建Ambari Hadoop系统	重点：掌握Hadoop大数据平台的基本内容，了解Hadoop各组件的功能与联系。难点：学会Hadoop大数据平台的搭建，学会使用Ambari管理大数据平台。	1	1
	项目：Hadoop大数据平台的构建任务2.1 搭建Ambari Hadoop系统	重点：掌握Hadoop大数据平台的基本内容，了解Hadoop各组件的功能与联系。难点：学会Hadoop大数据平台的搭建，学会使用Ambari管理大数据平台。	1	1
第3周	项目：Hadoop大数据平台的构建任务2.1 搭建Ambari Hadoop系统	重点：掌握Hadoop大数据平台的基本内容，了解Hadoop各组件的功能与联系。难点：学会Hadoop大数据平台的搭建，学会使用Ambari管理大数据平台。	0	2	64位win7以上操作系统，8G内存配置的机房 JDK1.7、 Eclipse、Tomcat7.0.67、MYSQL5.0、Hadoop2.7、大数据平台	搭建Ambari Hadoop系统
	项目：Hadoop大数据平台的构建任务2.2 使用Apache Ambari管理Hadoop集群	重点：掌握Hadoop大数据平台的基本内容，了解Hadoop各组件的功能与联系。难点：学会Hadoop大数据平台的搭建，学会使用Ambari管理大数据平台。	1	1
	项目：Hadoop大数据平台的构建任务2.2 使用Apache Ambari管理Hadoop集群	重点：掌握Hadoop大数据平台的基本内容，了解Hadoop各组件的功能与联系。难点：学会Hadoop大数据平台的搭建，学会使用Ambari管理大数据平台。	1	1
第4周	项目：Hadoop大数据平台的构建任务2.2 使用Apache Ambari管理Hadoop集群	重点：掌握Hadoop大数据平台的基本内容，了解Hadoop各组件的功能与联系。难点：学会Hadoop大数据平台的搭建，学会使用Ambari管理大数据平台。	0	2	64位win7以上操作系统，8G内存配置的机房 JDK1.7、 Eclipse、Tomcat7.0.67、MYSQL5.0、Hadoop2.7、大数据平台
	项目：Hadoop大数据平台的构建任务2.2 使用Apache Ambari管理Hadoop集群	重点：掌握Hadoop大数据平台的基本内容，了解Hadoop各组件的功能与联系。难点：学会Hadoop大数据平台的搭建，学会使用Ambari管理大数据平台。	1	1
	项目：Hadoop大数据平台的构建任务2.2 使用Apache Ambari管理Hadoop集群	重点：掌握Hadoop大数据平台的基本内容，了解Hadoop各组件的功能与联系。难点：学会Hadoop大数据平台的搭建，学会使用Ambari管理大数据平台。	0	2		Apache Ambari管理Hadoop集群创建
第5周	项目：就业岗位数据采集和存储任务3.1 使用网络爬虫采集岗位招聘数据	重点：掌握WebMagic的流程架构和HDFS的基础架构以及Hive的基本概念和特点。难点：学会使用WebMagic开发网络爬虫的步骤和方法，学会HDFS服务进程管理，学会HDFS属性配置管理。	1	1	64位win7以上操作系统，8G内存配置的机房 JDK1.7、 Eclipse、Tomcat7.0.67、MYSQL5.0、Hadoop2.7、大数据平台
	项目：就业岗位数据采集和存储任务3.1 使用网络爬虫采集岗位招聘数据	重点：掌握WebMagic的流程架构和HDFS的基础架构以及Hive的基本概念和特点。难点：学会使用WebMagic开发网络爬虫的步骤和方法，学会HDFS服务进程管理，学会HDFS属性配置管理。	1	1
	项目：就业岗位数据采集和存储任务3.1 使用网络爬虫采集岗位招聘数据	重点：掌握WebMagic的流程架构和HDFS的基础架构以及Hive的基本概念和特点。难点：学会使用WebMagic开发网络爬虫的步骤和方法，学会HDFS服务进程管理，学会HDFS属性配置管理。	1	1		使用网络爬虫采集岗位招聘数据
第6周	项目：就业岗位数据采集和存储任务3.2 将采集的数据上传到HDFS	重点：了解网络爬虫编程实现步骤和方法。难点：学会HDFS上传文件的方法。	1	1	64位win7以上操作系统，8G内存配置的机房 JDK1.7、 Eclipse、Tomcat7.0.67、MYSQL5.0、Hadoop2.7、大数据平台
	项目：就业岗位数据采集和存储任务3.2 将采集的数据上传到HDFS	重点：了解网络爬虫编程实现步骤和方法。难点：学会HDFS上传文件的方法。	1	1
	项目：就业岗位数据采集和存储任务3.2 将采集的数据上传到HDFS	重点：了解网络爬虫编程实现步骤和方法。难点：学会HDFS上传文件的方法。	0	2		将采集的数据上传到HDFS
第7周	项目：就业岗位数据采集和存储任务 3.3 使用Sqoop转换MySQL中的学生成绩数据到Hive中	重点：了解网络爬虫编程实现步骤和方法。难点：学会Sqoop上传文件至Hive中的方法。	1	1	64位win7以上操作系统，8G内存配置的机房 JDK1.7、 Eclipse、Tomcat7.0.67、MYSQL5.0、Hadoop2.7、大数据平台
	项目：就业岗位数据采集和存储任务 3.3 使用Sqoop转换MySQL中的学生成绩数据到Hive中	重点：了解网络爬虫编程实现步骤和方法。难点：学会Sqoop上传文件至Hive中的方法。	1	1
	项目：就业岗位数据采集和存储任务 3.3 使用Sqoop转换MySQL中的学生成绩数据到Hive中	重点：了解网络爬虫编程实现步骤和方法。难点：学会Sqoop上传文件至Hive中的方法。	0	2		使用Sqoop实现MySQL到Hive的数据导入
第8周	项目：就业岗位数据采集和存储任务 3.3 使用Sqoop转换MySQL中的学生成绩数据到Hive中	重点：了解网络爬虫编程实现步骤和方法。难点：学会Sqoop上传文件至Hive中的方法。	1	1	64位win7以上操作系统，8G内存配置的机房 JDK1.7、 Eclipse、Tomcat7.0.67、MYSQL5.0、Hadoop2.7、大数据平台
	项目：就业岗位数据采集和存储任务 3.3 使用Sqoop转换MySQL中的学生成绩数据到Hive中	重点：了解网络爬虫编程实现步骤和方法。难点：学会Sqoop上传文件至Hive中的方法。	1	1
	项目：就业岗位数据采集和存储任务 3.3 使用Sqoop转换MySQL中的学生成绩数据到Hive中	重点：了解网络爬虫编程实现步骤和方法。难点：学会Sqoop上传文件至Hive中的方法。	0	2		使用Sqoop实现MySQL到HDFS的数据导入
第9周	项目：岗位数据处理任务4.1 使用Hadoop MR对数据进行清洗	重点：掌握MapReduce技术框架。难点：熟悉MapReduce Java API代码规范。	1	1	64位win7以上操作系统，8G内存配置的机房 JDK1.7、 Eclipse、Tomcat7.0.67、MYSQL5.0、Hadoop2.7、大数据平台
	项目：岗位数据处理任务4.1 使用Hadoop MR对数据进行清洗	重点：掌握MapReduce技术框架。难点：熟悉MapReduce Java API代码规范。	1	1		HDFS分布式文件系统
	项目：岗位数据处理任务4.1 使用Hadoop MR对数据进行清洗	重点：掌握MapReduce技术框架。难点：熟悉MapReduce Java API代码规范。	0	2		使用Hadoop MR对数据进行清洗
第10周	项目：岗位数据处理任务4.2 使用命令行对Hive进行数据查询和过滤	重点：了解Hive内部读写流程。难点：学会Hive数据仓库基本操作命令。	1	1	64位win7以上操作系统，8G内存配置的机房 JDK1.7、 Eclipse、Tomcat7.0.67、MYSQL5.0、Hadoop2.7、大数据平台
	项目：岗位数据处理任务4.2 使用命令行对Hive进行数据查询和过滤	重点：了解Hive内部读写流程。难点：学会Hive数据仓库基本操作命令。	1	1
	项目：岗位数据处理任务4.2 使用命令行对Hive进行数据查询和过滤	重点：了解Hive内部读写流程。难点：学会Hive数据仓库基本操作命令。	0	2		使用命令行对Hive进行数据查询和过滤
第11周	项目：岗位数据处理任务4.3 使用Java API对Hive进行连接与操作	重点：了解Hive内部读写流程。难点：学会Java API 对Hive的读写操作。	1	1	64位win7以上操作系统，8G内存配置的机房 JDK1.7、 Eclipse、Tomcat7.0.67、MYSQL5.0、Hadoop2.7、大数据平台
	项目：岗位数据处理任务4.3 使用Java API对Hive进行连接与操作	重点：了解Hive内部读写流程。难点：学会Java API 对Hive的读写操作。	1	1
	项目：岗位数据处理任务4.3 使用Java API对Hive进行连接与操作	重点：了解Hive内部读写流程。难点：学会Java API 对Hive的读写操作。	0	2
第12周	项目：岗位数据处理任务4.3 使用Java API对Hive进行连接与操作	重点：了解Hive内部读写流程。难点：学会Java API 对Hive的读写操作。	1	1	64位win7以上操作系统，8G内存配置的机房 JDK1.7、 Eclipse、Tomcat7.0.67、MYSQL5.0、Hadoop2.7、大数据平台
	项目：岗位数据处理任务4.3 使用Java API对Hive进行连接与操作	重点：了解Hive内部读写流程。难点：学会Java API 对Hive的读写操作。	1	1		使用Java API对Hive进行连接与操作
	项目：岗位数据处理任务4.3 使用Java API对Hive进行连接与操作	重点：了解Hive内部读写流程。难点：学会Java API 对Hive的读写操作。	0	2
第13周	项目：岗位和技能数据分析任务5.1 使用Mahout 命令进行岗位聚类分析	重点：掌握Mahout算法库。难点：学会使用Mahout命令行实现文本聚类操作。	1	1	64位win7以上操作系统，8G内存配置的机房 JDK1.7、 Eclipse、Tomcat7.0.67、MYSQL5.0、Hadoop2.7、大数据平台
	项目：岗位和技能数据分析任务5.1 使用Mahout 命令进行岗位聚类分析	重点：掌握Mahout算法库。难点：学会使用Mahout命令行实现文本聚类操作。	1	1		部署Mahout
	项目：岗位和技能数据分析任务5.1 使用Mahout 命令进行岗位聚类分析	重点：掌握Mahout算法库。难点：学会使用Mahout命令行实现文本聚类操作。	0	2
第14周	项目：岗位和技能数据分析任务5.2 使用Mahout的 Java API进行岗位分析聚类开发	重点：掌握Mahout算法库。难点：学会使用Mahout命令行实现文本聚类操作，学会Mahout算法库中关于文本聚类的算法Java API。	1	1	64位win7以上操作系统，8G内存配置的机房 JDK1.7、 Eclipse、Tomcat7.0.67、MYSQL5.0、Hadoop2.7、大数据平台
	项目：岗位和技能数据分析任务5.2 使用Mahout的 Java API进行岗位分析聚类开发	重点：掌握Mahout算法库。难点：学会使用Mahout命令行实现文本聚类操作，学会Mahout算法库中关于文本聚类的算法Java API。	1	1		Mahout典型算法
	项目：岗位和技能数据分析任务5.2 使用Mahout的 Java API进行岗位分析聚类开发	重点：掌握Mahout算法库。难点：学会使用Mahout命令行实现文本聚类操作，学会Mahout算法库中关于文本聚类的算法Java API。	1	1
第15周	项目：岗位和技能数据分析任务5.3 使用Mahout推荐工作岗位	重点：了解文本-向量转换的原理和Kmeans+Canopy算法机制。难点：学会使用Mahout命令行实现文本聚类操作，学会Mahout算法库中关于向量举例相似度算法的Java API。	1	1	64位win7以上操作系统，8G内存配置的机房 JDK1.7、 Eclipse、Tomcat7.0.67、MYSQL5.0、Hadoop2.7、大数据平台
	项目：岗位和技能数据分析任务5.3 使用Mahout推荐工作岗位	重点：了解文本-向量转换的原理和Kmeans+Canopy算法机制。难点：学会使用Mahout命令行实现文本聚类操作，学会Mahout算法库中关于向量举例相似度算法的Java API。	0	2
	项目：岗位和技能数据分析任务5.3 使用Mahout推荐工作岗位	重点：了解文本-向量转换的原理和Kmeans+Canopy算法机制。难点：学会使用Mahout命令行实现文本聚类操作，学会Mahout算法库中关于向量举例相似度算法的Java API。	1	1
第16周	项目：岗位和技能数据分析任务5.3 使用Mahout推荐工作岗位	重点：了解文本-向量转换的原理和Kmeans+Canopy算法机制。难点：学会使用Mahout命令行实现文本聚类操作，学会Mahout算法库中关于向量举例相似度算法的Java API。	1	1	64位win7以上操作系统，8G内存配置的机房 JDK1.7、 Eclipse、Tomcat7.0.67、MYSQL5.0、Hadoop2.7、大数据平台	Mahout典型算法
	项目：岗位和技能数据分析任务5.3 使用Mahout推荐工作岗位	重点：了解文本-向量转换的原理和Kmeans+Canopy算法机制。难点：学会使用Mahout命令行实现文本聚类操作，学会Mahout算法库中关于向量举例相似度算法的Java API。	1	1
	项目：岗位和技能数据分析任务5.3 使用Mahout推荐工作岗位	重点：了解文本-向量转换的原理和Kmeans+Canopy算法机制。难点：学会使用Mahout命令行实现文本聚类操作，学会Mahout算法库中关于向量举例相似度算法的Java API。	0	2
第17周	项目：数据的可视化任务6.1 使用Excel可视化数据	重点：掌握数据可视化流程。难点：学会使用Excel进行数据可视化操作。	1	1	64位win7以上操作系统，8G内存配置的机房 JDK1.7、 Eclipse、Tomcat7.0.67、MYSQL5.0、Hadoop2.7、大数据平台	使用Excel进行数据可视化
	项目：数据的可视化任务6.2 使用ECharts可视化数据	重点：掌握数据可视化流程。难点：学会使用ECharts进行数据可视化操作。	1	1		使用ECharts进行数据可视化
	项目：数据的可视化任务6.3 使用D3.js可视化数据	重点：了解数据可视化的图形选择。难点：学会使用D3.js进行数据可视化操作。	1	1		使用D3.js进行数据可视化
第18周	机动		2	2	64位win7以上操作系统，8G内存配置的机房
第18周	复习		2	0	64位win7以上操作系统，8G内存配置的机房

暂未设置课程概述视频信息

教师团队

余恒芳
课程编辑者

余恒芳
主讲教师

花罡辰
主讲教师

丁慧洁
主讲教师

评价

239人在学习该课程