大数据之指标计算（6） -- 编写Hive SQL代码，根据dwd层dwd.fact_environment_data表，统计检测设备的每月平均湿度与厂内检测结果做对比存入Mysql数据库中|电子爱好者

admin管理员组
文章数量:1536090

前言

本题来源于全国职业技能大赛之大数据技术赛项工业数据处理赛题 - 离线数据处理 - 指标计算

注：由于个人设备问题，代码执行结果以及最后数据显示结果将不会给出。

题目：

提示：以下是本篇文章正文内容，下面案例可供参考（使用Scala语言编写）

一、读题分析

涉及组件：Hive

涉及知识点：

HiveSQL语法的使用
...

二、处理过程

本题给出两种参考方法一种是编写HiveSQL代码，另外一种是编写Scala代码使用spark处理框架去写，本质上差不多，调用的是SparkSQL。

但需注意的是：本题两种代码，作者均为测试证实，仅供参考。

1.HiveSQL

-- 在mysql端建表
create table machine_humidityAVG_compare
(
    base_id        int,
    machine_avg    varchar(255),
    factory_avg    varchar(255),
    comparison     varchar(255),
    env_date_year  varchar(255),
    env_date_month varchar(255)
);



with temp as
         (select base_id,
                 machine_avg,
                 avg(machine_avg) over () as factory_avg,
                 case
                     when machine_avg > avg(machine_avg) over () then '高'
                     when machine_avg < avg(machine_avg) over () then '低'
                     else '相同' end        as comparison,
                 env_date_year,
                 env_date_month
          from (select t.BaseID              base_id,
                       avg(t.Humidity)    as machine_avg,
                       year(t.InPutTime)  as env_date_year,
                       month(t.InPutTime) as env_date_month
                from fact_environment_data t
                group by t.BaseID, year(t.InPutTime), month(t.InPutTime)))
insert
overwrite
table
shtd_industry.machine_humidityAVG_compare
select *
from temp;
-- 不能导入，需要用sqoop导入mysql

select * from shtd_industry.machine_humidityAVG_compare order by base_id desc limit 5;

2.SparkSQL


import org.apache.spark.sql.SparkSession

import java.util.Properties

object answer_No6 {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("MachineAvgProduceTime").master("local[*]").enableHiveSupport()
      .getOrCreate()

    val df = spark.sql(
      """
        |
        |select base_id,
        |                 machine_avg,
        |                 avg(machine_avg) over () as factory_avg,
        |                 case
        |                     when machine_avg > avg(machine_avg) over () then '高'
        |                     when machine_avg < avg(machine_avg) over () then '低'
        |                     else '相同' end        as comparison,
        |                 env_date_year,
        |                 env_date_month
        |          from (select t.BaseID              base_id,
        |                       avg(t.Humidity)    as machine_avg,
        |                       year(t.InPutTime)  as env_date_year,
        |                       month(t.InPutTime) as env_date_month
        |                from dwd.fact_environment_data t
        |                group by t.BaseID, year(t.InPutTime), month(t.InPutTime))
        |
        |""".stripMargin)
    val url = "jdbc:mysql://192.168.59.100:3306/shtd_industry"
    val prop = new Properties()
    prop.setProperty("user", "root")
    prop.setProperty("password", "123456")

    df.write.mode("overwrite").jdbc(url, "machine_humidityAVG_compare", prop)

  }


}

三、重难点分析

每个设备的每月平均湿度与厂内所有检测设备每月检测结果的平均湿度做比较（结果值为：高/低/相同），在这里实现起来还是有点难度的。使用了case配对。

本期为指标计算第6篇，后续应该还会出2篇。

总结

这是一个关于使用Hive SQL统计检测设备每月平均湿度并将结果存储在MySQL数据库中，并与厂内所有检测设备每月检测结果的平均湿度做比较，然后在Linux的MySQL命令行工具中查询前五条检测设备ID倒序排列的数据的问题。下面是具体的要求和表结构：

在dwd层fact_environment_data表中，统计每个检测设备（BaseID）每月的平均湿度（Humidity），得到base_id、env_date_year、env_date_month和每月平均湿度字段。
将每个检测设备的每月平均湿度与厂内所有检测设备每月检测结果的平均湿度做比较，得到设备id（base_id）、单设备每月检测平均值（machine_avg）、厂内所有设备每月检测平均值（factory_avg）和比较结果（comparison，取值为“高”、“低”或“相同”）字段。
将比较结果存储在MySQL数据库shtd_industry的表machine_humidityAVG_compare中，表结构包含base_id、machine_avg、factory_avg、comparison、env_date_year和env_date_month字段。
通过Linux的MySQL命令行工具查询出前5条检测设备ID倒序排列的数据，将SQL语句和执行结果截图粘贴到报告中。

注意：这个题目需要掌握Hive SQL和MySQL数据库以及Linux命令行工具的使用。

请关注我的大数据技术专栏大数据技术作者: Eternity.Arrebol

请关注我获取更多与大数据相关的文章Eternity.Arrebol的博客

Q-欢迎在评论区进行交流-Q

本文标签：湿度数据库中检测设备厂内平均

版权声明：本文标题：大数据之指标计算（6） -- 编写Hive SQL代码，根据dwd层dwd.fact_environment_data表，统计检测设备的每月平均湿度与厂内检测结果做对比存入Mysql数据库中内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1726916998a1090230.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

温度、湿度与电气绝缘的影响

8月前

温度、湿度与电气绝缘的影响

天气预报中的湿度预报会不会取消?

5月前

天气预报中的湿度预报会不会取消?

服务器的工作环境

5月前

服务器的工作环境

【精品推荐】机房新风系统的作用是什么

5月前

【精品推荐】机房新风系统的作用是什么

24寸显示器是多少厘米

4月前

24寸显示器是多少厘米

电子干燥箱工作原理

3月前

年月日发(作者：)电子干燥箱工作原理电子干燥箱是一种广泛应用于实验室、制造业和科研领域的设备，用于去除物体中的水分或湿度，以确保产品的质量和性能。那么，电子干燥箱是如何工作的呢？本文将从原理和机制两个层面介绍电子干燥箱的工作原理。工作原理电

烟丝太干的处理方法

2月前

年月日发(作者：)烟丝太干的处理方法.使用烟斗湿化剂：烟斗湿化剂是一种专门用于增加烟丝湿度的产品，可以通过向烟丝中加入少量湿化剂来恢复其湿度。注意，使用湿化剂时要确保剂量适中，避免使烟丝过湿。.使用喷水方法：可以使用喷壶或喷雾器，轻轻地向烟

英文天气单词

2月前

年月日发(作者：)英文天气单词天气对我们的日常生活有着重要的影响，所以英文天气单词的掌握是很有必要的。从以下几个方面来讲解英文天气单词：一、天气类型天气类型指的是一天当中的基本气象状况。英文天气类型包括：.：晴天.：多云.：有雨.：下雪.：

基于土壤湿度信息的智能农田灌溉系统设计

22天前

自己淋过雨，想为你撑把伞之所以会把自己三年前的本科毕业设计发布至平台上，其主要原因是对自己以前的过往再做个总结。人生嘛，只有一路走来回头再看的时候，才会感慨万千，触目良多，时不时会想，到底什么样的结局才配得上我这二十几年

python如何读取数据库中的数据_python中如何读取数据库数据库《Python核心编程》笔记基础...

21天前

春节终于over了，回归充实的学习研究生活。打开久违的CSDN博客，看到官方推送的『博客Markdown编辑器上线啦』，让我顿时有了写作的欲望，真是程

分布式天梯图算法在 Redis 图数据库中的应用

21天前

分布式天梯图算法在 Redis 图数据库中的应用一、简介1 天梯图算法2 天梯图算法在Redis的应用二、Redis分布式天梯图算法设计与优化1 基于天梯图的分布式算法设计2 多节点扩展与负载均衡优化3 数据存储方案与压缩策略三、技术

翻译功能，根据传入的字符串翻译数据库中的英文字段

15天前

翻译功能 *** 翻译词根，根据模型那边传入的中文字符串参数，翻译出对应的英文词根。参数可能为两种情况单个字符串，多个字符串用下划线连接。* 采用最大匹配算法，尽可能匹配最大长度的数据翻译。** @param input* @retur

计算机检测设备及型号,检测笔记本屏幕型号和电脑配置的方法

14天前

笔记本也好台式机也好，新电脑到手了终归是很令人高兴的一件事情。但是假如被坑了事后很久才发现，那就有点恶心了。所以有必要对到手的电脑进行一部分内容的检测，哪怕只是为了了解一下基

解决数据库中查出时间多一个.0的解决办法

13天前

如数据库查询时间为：2018-9-28 10:33:20.0 SimpleDateFormat formatnew SimpleDateFormat("yyyy-MM-dd HH:mm:ss"

读取数据库中的二进制byte[]数据并通过浏览器下载图片

9天前

因为数据库的改变，将文件图片等以二进制存在mongodb中。需要使用则通过浏览器访问进行下载。 result是通过数据接口访问取得图片的byte[]数据：byte[] resultnul

oracle数据库中的回收站,Oracle回收站的清理方法

8天前

purge DBA_RECYCLEBIN用于删除Oracle数据库回收站的所有数据，需要sys登录执行。[more] -bash-3.00# su - oracle [oraclerpt]$ sqlplusas

oracle数据库中的回收站,Oracle回收站介绍

8天前

本帖最后由 zhenghaishu 于 2014-9-19 15:32 编辑 Oracle回收站介绍从Oracle 10g开始，Oracle数据库引入了一个回收站(Recycle Bin)的数据库对象。回收站(Rec

阿里云rds数据库导出到windows本地数据库中

6天前

1、首先进入RDS管理控制台在搜索框中输入MySQL，然后选中RDS版，进入控制台前首先要关闭数据库连接，否则找不到实例。下面的实例任意选中一个点击进入2、下载数据

一文带你了解开源数据库中的佼佼者 TOP 10

4天前

当今，大多数应用程序都需要在某个地方存储数据。对于 Web 应用程序，数据库是关键的“齿轮”。很多企业和开发者在选择数据库时，会主要考虑的几个因素——一是它的成本&