admin管理员组

文章数量:1638627

7. Hive

Hive 这边,我选用的是 Hive-3.1.3,Hive 与 Hadoop 也有一定的依赖关系,各位可以通过下载并解压缩包来安装Hive的稳定版本,也可以下载源代码并使用 Maven(0.13版及更高版本)或 Ant(0.12版及更早版本)构建Hive,鉴于大家并不是特别需要懂源码编译安装,所以这边选择稳定版本的安装就可以,如果有想深入了解安装配置等的可以选择点这儿Home - Apache Hive - Apache Software Foundation查看 Hive 的文档。

以下是一定的依赖关系说明:

  1. Java 版本选择:Java 1.7(首选)
    注意:Hive 1.2版本以上需要Java 1.7或更高版本。Hive版本0.14到1.1可以与Java 1.6兼容,但更喜欢1.7。强烈建议用户开始迁移到Java 1.8(参见HIVE-8607)。
  2. Hadoop 版本选择:Hadoop 2.x(首选),1.x(不受Hive 2.0.0以上版本支持)。
    Hive 0.13之前的版本也支持Hadoop 0.20.x、0.23.x。
  3. Hive通常用于生产Linux和Windows环境。Mac是一种常用的开发环境。本文档中的说明适用于Linux和Mac。在Windows上使用它需要稍微不同的步骤。
Hive 3.0.0Hive 3.1.xHive 4.0.0-alpha-1Hive release 4.0.0-alpha-2
Hadoop 3.x.y

上面的依赖关系仅仅是列出了有限的一部分,邮箱深入了解的可以自行学习,这里就不一一列举了。

Hive 安装包选择:apache-hive-3.1.3-bin.tar.gz

下载链接:apache-hive-3.1.3-bin.tar.gz

二、系统安装

安装 VMware 的部分,在下就不在这里过多赘述了,大家根据提示下载安装好即可,当然安装完后也可能会有其他问题,在这部分我尽量对目前我已知的问题进行一些说明,希望能帮助大家解决一些简单的配置上的问题。

1. 虚拟网络编辑器

用于 Workstation Pro 提供桥接模式网络连接、网络地址转换 (NAT)、仅主机模式网络连接和自定义网络连接选项,用于为虚拟机配置虚拟网络连接。在安装 Workstation Pro 时,已在主机系统中安装用于所有网络连接配置的软件,想深入了解的可以到VMware Workstation Pro 文档查看官方文档。

提到这个部件是因为在 Workstation Pro 的网络配置中会有三种模式,桥接模式、NAT模式和仅主机模式,这三种模式都有一定的区别,他们将会在系统创建两个以太网适配器(如下图所示),如果大家计算机网络还有印象,应该知道以太网适配器是计算机中的硬件设备,也称为网络接口卡(Network Interface Card,NIC)。它的主要作用是使计算机能够连接到局域网(LAN)或广域网(WAN),并通过以太网协议进行通信。简单来说,如果没有它,那么计算机之间将不能进行通信,就是断网了。

其中我们可能会用到的是桥接模式和NAT模式,通过下表,大家可以了解一下它们的作用:

选项说明
桥接模式通过使用主机系统上的网络适配器将虚拟机连接到网络。虚拟机在网络中具有唯一标识,与主机系统相分离,且与主机系统无关。
NAT虚拟机和主机系统共享一个网络标识,此标识在外部网络中不可见。当虚拟机发送请求以访问网络资源时,它会充当网络资源,就像请求来自主机系统一样。

这个我们不详细说明,大家稍微有点了解即可,有兴趣的同学可以自行学习。

写这么多,只是希望大家能确保这两个以太网适配器存在且可用,否则将无法进行后续的学习和操作!!!

  1. 打开 VMware Workstation,请大家点击 编辑(E) --> 虚拟网络编辑器(N)

  1. 打开后,请大家点击 更改设置(C)


3. 然后可以看见出现了三种网络模式的选项,我们需要分别点击 VMnet1VMnet8,并且确保下方红色框中的内容已被勾选,这样可以确保上述提到的两个以太网适配器存在且可用。

2. 操作系统安装

这部分将会给大家讲解操作系统安装的一些细节,纯属个人见解,只能保证大家能顺利渡过这门课程,不能保证大家工作生活自定义的时候不会产生冲突,这里先叠个甲。

  1. 打开 VMware Workstation,点击 创建新的虚拟机,或者使用快捷键 Ctrl + N


2. 为了保证我们见到的东西都差不多,所以请大家选择 自定义(高级)(C) --> 下一步(N)>,选择 典型(推荐)(T) 会让大家省很多事情,但是为了保证大家以后售后简单一些,这边还是选择自定义安装。


3. 硬件的兼容性大家可以不用管,无论是 15 还是 17 都不重要,反正虚拟机只在你的电脑上运行,又不用拿到别人那里,所以没有关系的,如果需要移动虚拟机到其他电脑上,可以根据两台电脑中 VMware Workstation 的版本,选择较低版本的进行兼容,左边的 兼容产品 栏会显示可兼容的版本号(注意选择较低的版本进行兼容)。


4. 接下来各位的各种出现的顺序不能保证,我只能根据我这边的顺序给大家写,大家如果发现图对不上,可以往下面翻一翻,会有一样的;如果没有,又拿不定主意的可以私信我或者私信老师或者查找搜索引擎寻找一定的办法。这里需要大家选择稍后安装操作系统(S),如果大家打开了变成驱动光盘了,请选择第一个安装程序光盘(D),也不是说打开了不能选择其他两种方式安装,大家自己看着来就好,然后就可以点击下一步(N)>


5. 到这里我们需要选择操作系统,CentOS 7 是 Linux 的其中一个发行版,也就是俗称的分支,所以这里我们选择 Linux(L),在版本上,我们选择是 CentOS 7 64 位,现在的个人 PC 机器的芯片架构一般都是 X86_64,所以我们选择的是 64 位的操作系统,具体可以到系统配置中查看自己的 CPU 是多少位的,现在已经很少见 32 位的了,最后点击 下一步(N)>


6. 这部分是为你的虚拟机命名以及选择虚拟机文件存储在计算机中的位置,名称并不是虚拟机里面的主机名,而是一个标记的名称,只要自己能够认出来即可;再次提醒!!!不是虚拟机的主机名,只是一个普通的名称而已,都选择好之后就可以点击下一步(N)>


7. 这部分需要选择分配给虚拟机的处理器个数以及每个处理器中的内核个数;这部分我想了好一会,还是决定给大家讲清楚一些,这里我们尽量简单一些,只关注最后的数字,也就是处理器的内核总数,计算方式就是

处理器的数量

×

每个处理器的内核数量

=

处理器的内核总数

处理器的数量 × 每个处理器的内核数量 = 处理器的内核总数

处理器的数量×每个处理器的内核数量=处理器的内核总数;这里各位在安装的时候尽量保证处理器的内核总数不要超过

本机

C

P

U

内核总数的

2

3

本机 CPU 内核总数的 \frac{2}{3}

本机CPU内核总数的32​即可;这里以Windows 11 为例,使用快捷键 Win + i 打开控制面板,找到系统 --> 系统信息,在设备规格中我们可以找到处理器型号

然后需要复制处理器的型号并且上网处理器的信息,这里可以清楚找到 CPU 的内核总数

然后各位只要大概设置一下数量,尽量不要超出

本机

C

P

U

内核总数的

2

3

本机 CPU 内核总数的 \frac{2}{3}

本机CPU内核总数的32​,这样减少对本机运行时产生的影响,因为大家并不需要学习并使用所有大数据的组件,所以大概估算下来,内核大概 3~4 个即可流畅运行本课程所有内容,当然不是说 1 个不行,1 个核心也可以,时间上慢一点而已,不会说产生什么问题,所以大家可以完全放心;选配完后请大家点击下一步(N)>


8. 这部分大家需要选择分配给虚拟机的内存,VMware 会根据大家的电脑配置给大家推荐内存量,请大家不要超过最大推荐的内存量,否则将会影响本机的运行;选择上,建议大家尽量 1 个内核分配 1G,这样能更好的保证运行的流畅度;当然,如果大家不安装图形化界面,则可以 2 个内核分配 1G 内存;当然以上纯属个人见解,大家根据实际情况进行选配;选配可以点击左侧红色框内的数字进行快速选择,也可以在黄色方框输入内存值,选配好后请点击下方蓝色方框进入下一步(N)>


9. 这部分涉及的是网络类型,大家做的是单机模式,也就是只需要一台虚拟机即可,为了方便,请大家选择 使用网络地址转换(NAT)(E),当然选择桥接火鹤仅主机不是不可以,只是没那么方便,后续可能在售后方面会有一定的问题存在,如果大家使用了桥接模式遇到了一定的问题,也可以私信我、私信老师或者上网查询;仅主机模式出问题的家人们请不要找到小生,小生对仅主机模式网络无能为力,建议多烦烦老师,谢谢各位;选配好后即可点击下一步(N)>进入下一个配置的选择。


10. 这部分是I/O控制器的选择,默认就好,不多说了,推荐什么选什么,这个不会有太大的影响,当然大家对客制化感兴趣,也可以深入了解;选好后请点击下一步(N)>


11. 这部分是磁盘类型的选择,我的建议是,推荐就很好,也不会太大的影响,当然各位有兴趣对硬件进行了解,也是可以去查询然后再进行安装选配的,但是毕竟是虚拟机,跟真正装机天差地别,所以没必要现在纠结这个;选好后请各位点击下一步(N)>


12. 这部分我们需要选择已有磁盘或者创建一个新的磁盘,不建议使用物理磁盘,会有一定的风险;如果需要使用现有磁盘,则需要选择已有的虚拟机磁盘文件进行导入,但是我们是新建的虚拟机,所以我们选择创建新虚拟磁盘,选择好后请各位点击下一步(N)>


13. 这部分我们需要为虚拟机分配存储大小,请各位根据需要使用的软件大小进行调整,一般建议是 20G,如果需要完成本课程,在我看来大概需要 30~40G,左右的内存容量,大家可以适当进行调整,不够再加也是可以的,不一定非得刚开始就固定好;然后根据提示,如果大家需要移动虚拟机,则请大家尽量选择拆分成多个文件,如果不需要移动虚拟机到其他电脑上使用,则请大家尽量选择存储为单个文件,可以提升一定的性能,如果大家还记得操作系统一些知识,应该就很好解释这一部分。


14. 这部分需要我们指定磁盘文件存储到哪一个虚拟磁盘中,该虚拟磁盘在 VMware Workstation 中是 .vmdk 的形式进行存储,并且大家并不是特别熟悉,所以这里我们选择默认即可,然后点击下一步(N)>


15. 看到下图的界面说明我们的虚拟机选配已经完成了,大家根据自己电脑进行适当的选配即可,不一定要抄作业,我的说法是,没必要。最后我们还有一步,还记得上面我们还没选择光盘映像吗?这里我们需要点击自定义硬件(C)...,在里面进行光盘映像文件的选择。


16. 这里我们需要点击左边栏目中的新 CD/DVD (IDE);然后将设备状态中的启动时连接(O)进行勾选(默认已经是勾选状态了),因为我们需要通过该功能进行安装操作,待后续安装完毕后我们可以将其关闭;最后需要再连接板块中选择使用 ISO 映像文件(M): 并且点击浏览(B)...进行光盘映像的选择,最后点击关闭即可。


17. 这部分中的其他设备跟我上面那张图是有点区别的,因为我把那几个我觉得没必要的东西给删掉了,如果大家需要使用这几种虚拟设备,请不要像我一样删了,如果不太明白,就请保留即可,最后点击完成即可完成虚拟机的创建。


18. 如果没有开创建完毕自动开启,请在主页面手动点击开启虚拟机进行开启。
19. 打开后,会自动读取光盘映像,然后会看见如下的界面,可能大家显示的不一定有那么清楚,因为 VMware 默认的是 BIOS 启动,所以请大家尽量点击一下键盘 键,会有一点变化,当然如果时间足够的话,选择第二种启动方式也是可以的,然后需要再键盘上按 Enter 键进入安装界面。

  1. 进入安装界面后,需要选择系统语言,这里我选择美式英文,当然大家选择中文也是可以的,但建议尽量选择英文,因为英文会更合适系统一些,中文可能会在某些时候产生乱码,为避免问题的产生,我采用的是美式英文,选择好后,点击下方蓝蓝的按钮continue,进入下一步。


21. 这部分需要配置的有点多,这边我们先从网络和主机名开始,请根据下图选择NETWORK & HOST NAME


22. 进入之后我们需要根据下图,打开网卡的开关,然后修改下面的主机名称,当然,主机名称也可以不改,这个映像并不是特别大,这里我改成了Hadoop,跟课程贴合,这个大家想改什么改什么,没有讲究;完成后即可点击完成配置;不过这里插个眼,需要大家记一下下面蓝色方框的东西,最主要的是第一行的 IP Address,这是虚拟机的 IP 地址,待会配置网卡文件的时候会用上,当然这个没有硬性要求,到时候改个网关一样的 ip 也是一样的。


23. 接下来我们点击 DATE & TIME,调整时区


24. 可以看见有一幅世界地图,比起韩国的世界地图我直呼内行;如图点击标记地方,只要上面红色框中 Region 改变成 Asia,也就是亚洲,City 改变成 Shanghai,如果上面网卡设置一切正常的话,这里的 Network Time 选项应该是 ON 的才对,配置好后,点击 Done 退出该设置。


25. 接下来开始选配软件,大家软件工程的朋友们应该对软件的了解稍微会深那么一点点的吧…开个玩笑嘿嘿;点击 SOFTWARE SELECTION,进入软件选配界面


26. 接下来各位应该选择的是图形化界面,这边建议选择下图的 GNOME Desktop

然后这边给出翻译,右边的至少请大家勾选开发工具,勾选GNOME应用程序,要是全部勾选也可以,看大家的需求来选择吧,选择好后点击Done,退出软件的选配


27. 下面还需要选配最后一个 INSTALLATION DESTINATION,进行分区的配置。


28. 这个进去就可以直接点击 Done 退出了,如果大家后续想自定义分区的话,可以后面再进行配置,这里我就不跟大家过多赘述了。


29. 搞完这个应该就没有黄色的感叹号了,然后就可以点击下面蓝色的按键Begin Installation,开始安装了。


30. 看下图,我们先给 root 用户设置密码,点击 ROOT PASSWORD 进入设置


31. 输入密码,并且确认密码正确,然后就可以点击 Done 退出了


32. 然后我们再点击 USER CREATION 创建一个新的普通用户


33. 这里的用户名设置也没什么讲究,其实用不用 hadoop 当做用户名都对后续操作没有影响,因为这个并不是特定的,哪怕是另外名字的账户也是可以进行实验的,所以后面没必要再重新创建一个用户,所以大家看着来就好,这里我就设置一个我熟悉的用户名哈,各位自己也整一个熟悉的就可以了;然后下图红色方框和蓝色方框的建议大家勾选上,sudo 这个指令还是很有用的,密码登录也是,虽然我们到时候也需要配置免密登录,但是没密码的用户其实没那么安全,我是不建议的,当然头铁的兄弟们另算哈;配置完后就可以点击 Done 退出了。


34. 然后就是漫长的等待时间了,等待安装完毕后,即可点击下面的蓝色按钮 Restart,进行系统重启即可。


35. 重启之后会有一个授权认证,需要点进去


36. 然后勾选上下面的那个同意协议的方框,然后就可以退出了


37. 如果网络配置没有问题的话,就会像下面一样,显示 connected,然后我们点击 FINISH CONFIGURATION,完成配置即可。


38. 然后系统将会出现登录界面(如下图),到这儿就和 Windows 差不多像了,也说明我们安装完成了。

三、结尾

这一篇主要给软工的兄弟姐妹介绍一下本门课程需要的一些组件和下载的方式,以及系统的安装,可能大家已经安装好了,也可能有些覆盖不到的地方,也请大家多多包涵;还是希望这篇文章能够帮助到大家一些地方的。如果大家学习过程中有什么问题可以一起交流,能联系到我的话,在下也很乐意为大家排忧解难。



既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

[外链图片转存中…(img-HDxpNVx1-1714791109804)]
[外链图片转存中…(img-1HoMkhFz-1714791109804)]
[外链图片转存中…(img-8BCyW22R-1714791109804)]

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

本文标签: 数据师大序章原理最新