admin管理员组

文章数量:1532440

2024年2月7日发(作者:)

大数据技术实验报告

大数据技术实验一

Hadoop大数据平台安装实验

1 实验目的

在大数据时代,存在很多开源的分布式数据采集、计算、存储技术,本实验将在熟练掌握几种常见Linux命令的基础上搭建Hadoop(HDFS、MapReduce、HBase、Hive)、Spark、Scala、Storm、Kafka、JDK、MySQL、ZooKeeper等的大数据采集、处理分析技术环境。

2 实验环境

个人笔记本电脑Win10、

Oracle VM VirtualBox 5.2.44、

CentOS-7-x86_

3 实验步骤

首先安装虚拟机管理程序,然后创建三台虚拟服务器,最后在虚拟服务器上搭建以 Hadoop 集群为核心的大数据平台。

3.1快速热身,熟悉并操作下列Linux命令

·创建一个初始文件夹,以自己的姓名(英文)命名;进入该文件夹,在这个文件夹下创建一个文件,命名为。

·查看这个文件夹下的文件列表。

·在中写入“Hello Hadoop!”,并保存

·在该文件夹中创建子文件夹”Sub”,随后将文件移动到子文件夹中。

·递归的删除整个初始文件夹。

3.2安装虚拟机并做一些准备工作

3.2.1安装虚拟机

下载系统镜像, CentOS-7-x86_。

虚拟机软件使用 Oracle VM VirtualBox 5.2.44。

3.2.2准备工作

关闭防火墙和 Selinux,其次要安装perl 、libaio、ntpdate 和screen。然后检查网卡是否开机自启,之后修改 hosts,检查网络是否正常如图:

然后要创建hadoop用户,之后多次用,并且生成 ssh 密钥并分发。

最后安装 NTP 服务。

3.3安装MYSQL

3.3.1安装

3.3.2测试

3.4安装JDK。

3.4安装ZooKeeper。

3.5安装kafka。

3.6安装 Hadoop

3.7安装HBase

3.8安装Hive

3.9 安装Scala

3.10安装 Spark

3.11安装Storm

4 所遇到的问题及解决方式。

4.1 文件传输问题。

再用FilZilla传文件时,出现下图情况:

通过查阅网络资料,最终知道需要修改为关于ssh的协议

4.2 virtalBox版本问题

文件中提供的老板在win10上并不能用,刚开始下载的最新版,但没找到设置only-host网络地方,经过查找,最终确定用5.2.44。

4.3 Permission Denied问题。

在操作过程中由于root和hadoop用户来回切换,是不是就会出现hadoop用户不能操作一些文件。通过报错中的提示,找到文件名,由于路径太长,报错日志中并不会给全路径,可以先用find / -name 查找到确切位置,再用chown修改权限。

4.4 kafka启动问题。

由于节点没有全部启动zookeeper,启动kafka是总是有问题,多次尝试解决问题。

4.5 配置Hadoop问题。

配置 文件时是新文件,觉得有问题,查阅得知默认情况下,/usr/local/hadoop/etc/hadoop/文件夹下有te文件,需要复制该文件,并命名为,该文件用于指定MapReduce使用的框架。

4.6 关于启动hadoop的问题。

如图:

jps中并没有journalnode相关程序,也没有报错,日志文件也没有,经过仔细对比分析,发现是配置文件打错字了。

4.7 关于配置文件的

很多次配置文件没有source导致程序出问题,在配置完文件后source一下,.xml不需要source。有时修改项是用‘#’注释的,修改后需要删除‘#’。

4.8 启动Storm问题。

启动时报错信息是关于:

: “/home/hadoop_files/hadoop_tmp/storm/tmp”

仔细比对分析,该配置文件中所有命令前都有空格,在‘s’最左边也加上空格,包括下面‘cluster’也是。

5 实验心得体会。

先总结一下实验遇到的问题,本次实验遇到最多的问题就是权限问题,‘非root用户’权限问题、文件及文件夹‘read-only’而问题、只有特定用户才能操作该文件问题等等。另外就是打错字导致程序崩溃问题也不少,尤其是配置文件,有时候一个空格都能导致错误。经过本次大数据平台搭建实验,让我学到了很多linux的技巧,比如文件中快速定位单词、快速定位行数、查找文件目录、移动文件夹、screen中的一些快捷键等等。本次实验也让我学到了,程序报错并不可怕,关键还是冷静分析问题,bug最终都会解决的。

6 致谢。

感谢各位老师辛苦修订的操作文档!

感谢耐心帮我解决问题的小组成员!

感谢网络上纠错文章的作者!

本文标签: 文件问题实验文件夹