使用Pyspark 运行lightgbm的预测函数时遇到 expected zero arguments for construction of ClassDict (for numpy.dtype)|电子爱好者

admin管理员组
文章数量:1602097

运行Pyspark,出现：net.razorvine.pickle.PickleException: expected zero arguments for construction of ClassDict (for numpy.dtype)

流程

使用将模型预测功能封装成udf,供spark使用，udf 填入的是各个列名，但udf使用的函数是处理成一行的数据，如

数据样例：

      col_1  col_2  col_3  col_4  col_5  col_6  col_7  col_8  col_9  col_10  \
0       1.0    1.0    1.0    1.0    1.0    1.0    1.0   1.00    1.0     1.0   
1       1.0    1.0    1.0    1.0    1.0    1.0    0.0   1.00    1.0     1.0   
2       1.0    1.0    1.0    1.0    1.0    1.0    1.0   1.00    1.0     1.0   
3       1.0    1.0    1.0    1.0    1.0    1.0    1.0   1.00    1.0     1.0   
4       1.0    1.0    1.0    1.0    1.0    1.0    0.0   1.00    1.0     1.0   
...     ...    ...    ...    ...    ...    ...    ...    ...    ...     ...   
1110    1.0    1.0    1.0    1.0    1.0    1.0    0.0   1.00    1.0     1.0   
1111    1.0    1.0    1.0    1.0    1.0    1.0    0.0   1.00    1.0     1.0   
1112    1.0    0.0    0.0    1.0    1.0    1.0    0.0   0.04    1.0     1.0   
1113    1.0    1.0    1.0    1.0    1.0    0.0    1.0   1.00    1.0     1.0   
1114    1.0    1.0    1.0    1.0    1.0    1.0    0.0   1.00    1.0     1.0

predct_multicase 处理的是其中的一行数据：

gbm.predict()入参是个二维list，所以，x_test 对原始数据改为list。

def predict_multicase(df_columns):
    '''
     预测得分并排序
    :param x_test:
    :return:
    '''
    x_test = [df_columns]
    ypred = gbm.predict(x_test)
    return ypred[0]
udf_predict_multicase = F.udf(predict_multicase, T.DoubleType())
# df1 为pandas 格式数组
df = spark.createDataFrame(df1)
df_colums = df.columns
df2 = df.withColumn("rank_score",udf_predict_multicase(F.struct([df[col] for col in df_colums])))
df2.show()

运行报错：

Job aborted due to stage failure: Task 0 in stage 5.0 failed 4 times, most recent failure:: net.razorvine.pickle.PickleException: expected zero arguments for construction of ClassDict (for numpy.dtype)
	at net.razorvine.pickle.objects.ClassDictConstructor.construct(ClassDictConstructor.java:23)
	at net.razorvine.pickle.Unpickler.load_reduce(Unpickler.java:707)
	at net.razorvine.pickle.Unpickler.dispatch(Unpickler.java:175)
	at net.razorvine.pickle.Unpickler.load(Unpickler.java:99)
	at net.razorvine.pickle.Unpickler.loads(Unpickler.java:112)
	at org.apache.spark.sql.execution.python.BatchEvalPythonExec$$anonfun$doExecute$1$$anonfun$apply$6.apply(BatchEvalPythonExec.scala:156)
	at org.apache.spark.sql.execution.python.BatchEvalPythonExec$$anonfun$doExecute$1$$anonfun$apply$6.apply(BatchEvalPythonExec.scala:155)
	at scala.collection.Iterator$$anon$12.nextCur(Iterator.scala:434)
	at scala.collection.Iterator$$anon$12.hasNext(Iterator.scala:440)
	at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
	at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator.processNext(Unknown Source)
	at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
	at org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$8$$anon$1.hasNext(WholeStageCodegenExec.scala:395)
	at org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:234)
	at org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:228)
	at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$25.apply(RDD.scala:834)
	at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$25.apply(RDD.scala:834)
	at org.apache.spark.rdd.MapPartitionsRDDpute(MapPartitionsRDD.scala:43)
	at org.apache.spark.rdd.RDDputeOrReadCheckpoint(RDD.scala:323)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
	at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:89)
	at org.apache.spark.scheduler.Task.run(Task.scala:112)
	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:388)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
	at java.lang.Thread.run(Thread.java:745)

Driver stacktrace:

发现主要是数据类型没有对应上，将predict的结果转成float类型,将udf中的数据返回参数改为T.FolatType

def predict_multicase(df_columns):
    '''
     预测得分并排序
    :param x_test:
    :param comments:
    :param model_input_path:
    :return:
    '''
    x_test = [df_columns]
    ypred = gbm.predict(x_test)


    return float(ypred[0])


udf_predict_multicase = F.udf(predict_multicase, T.FloatType())

运行结果：

	col_1	col_2	col_3	col_4	col_5	col_6	col_7	col_8	col_9	col_10	col_11	col_12	col_13	rank_score
0	1.0	1.0	1.0	1.0	1.0	1.0	1.0	1.00	1.0	1.0	0.200000	0.0	1.0	0.018608
1	1.0	1.0	1.0	1.0	1.0	1.0	0.0	1.00	1.0	1.0	0.200000	0.0	0.0	-0.014879
2	1.0	1.0	1.0	1.0	1.0	1.0	1.0	1.00	1.0	1.0	0.166667	0.0	1.0	0.015165
3	1.0	1.0	1.0	1.0	1.0	1.0	1.0	1.00	1.0	1.0	0.166667	0.0	0.0	-0.012573
4	1.0	1.0	1.0	1.0	1.0	1.0	0.0	1.00	1.0	1.0	0.333333	0.0	0.0	-0.017949
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
1110	1.0	1.0	1.0	1.0	1.0	1.0	0.0	1.00	1.0	1.0	0.250000	0.0	0.0	-0.018355
1111	1.0	1.0	1.0	1.0	1.0	1.0	0.0	1.00	1.0	1.0	0.250000	0.0	0.0	-0.018355
1112	1.0	0.0	0.0	1.0	1.0	1.0	0.0	0.04	1.0	1.0	0.200000	0.0	1.0	0.008962
1113	1.0	1.0	1.0	1.0	1.0	0.0	1.0	1.00	1.0	1.0	0.250000	0.0	1.0	0.010648
1114	1.0	1.0	1.0	1.0	1.0	1.0	0.0	1.00	1.0	1.0	0.333333	0.0	1.0	0.009966

本文标签：函数 expected pyspark lightgbm arguments

版权声明：本文标题：使用Pyspark 运行lightgbm的预测函数时遇到 expected zero arguments for construction of ClassDict (for numpy.dtype) 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1728397118a1157137.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

记录一次激活函数导致的LeNet不收敛

6天前

环境：PyTorch-1.7.1 问题描述：LeNet在MNIST上的loss不收敛，训练集和测试集准确率始终在10%上下。不论如何调整learning rate都无济于事。

深度学习——激活函数ReLu

6天前

通常意义下，线性整流函数指代数学中的斜坡函数，即其中是输入特征，经过线性变化之后的输出结果，比较其与0之间的大小关系，作为ReL

Keras中使用如Leaky ReLU等高级激活函数的方法

6天前

在用Keras来实现CNN等一系列网络时，我们经常用ReLU作为激活函数，一般写法如下： from keras import layersfrom keras impor

c语言factors函数的意思,factors是什么意思_factors的翻译_音标_读音_用法_例句_爱词霸在线词典...

6天前

全部四级六级高考考研 In recent years, a growing body of research has shown that our appetite and food intake are influenced by

在使用计算机时可以用什么键关机,函数计算器的功能有哪些关机是哪个键

5天前

2019-10-07阅读(161) 您好！一、8位数计算器一般都有种特殊的关机方法(都是组合键)：1、按住数字键5和6不要松，此时去按开机键，你会发现计

《Linux操作系统编程》第六章 Linux中的进程监控: fork函数的使用，以及父子进程间的关系，掌握exec系列函数

4天前

🌷🍁 博主 libin9iOak带您 Go to New World.✨🍁 🦄 个人主页——libin9iOak的博客🎐

NHANES数据(复杂调查数据)COX回归亚组交互函数1.8尝鲜版（P for interaction）发布

3天前

写在前面的话，本函数仅适用于NHANES数据的COX回归亚组交互分析，不适用于其他情况，请注意甄别。电子产品，售出不能退换。在SCI文章中&

NHANES数据(复杂调查数据)亚组交互函数1.7（P for interaction）发布-纠正了目前的一个问题

3天前

大家好，有粉丝私信我说NHANES数据(复杂调查数据)亚组交互函数1.版本交互函数有点问题，我查看了一下，有个代码调用失效了。就是下面这个，本来我是这样

R语言使用aov函数进行双因素方差分析（Two-way factorial ANOVA）、使用HH包中的interaction2wt函数为任何阶的双因素方差分析可视化主效应和交互作用图、箱图显示主效应

3天前

R语言使用aov函数进行双因素方差分析（Two-way factorial ANOVA）、使用HH包中的interaction2wt函数为任何阶的双因素方差分析可视化主效应和交互作用图（Main effects and two-way in

个人永久性免费-Excel催化剂功能第42波-任意字符指定长度随机函数

2天前

日常做表过程中，难免会有一些构造数据的场景，构造数据最好是用随机的数据，如随机密码，随机英文字母、数字等。在Excel原生的随机函数Rand中&

个人永久性免费-Excel催化剂功能第56波-获取Excel对象属性相关自定义函数

2天前

之前零散开发过一些自定义函数获取Excel对象属性，此次再细细地把有价值的属性都一一给开发完成，某些场景下，有这些小函数还是可以比较方便地实现一些通过Excel界面没法轻松获

个人永久性免费-Excel催化剂功能第38波-比Vlookup更好用的查找引用函数

2天前

谈起Excel的函数，有一个函数生来自带明星光环，在表哥表姐群体中无人不知，介绍它的教程更是铺天盖地，此乃VLOOKUP函数也。今天Excel催化剂在这

视频教程-Excel函数教程（下）-OfficeWPS

2天前

Excel函数教程（下） 毕业于中国人民大学，从事网络营销推广多年，网络营销讲师，有丰富的SEM、微博微信营销培训经验&#

MySQL中的DATEDIFF()、PERIOD_DIFF()和TIMESTAMPDIFF()函数使用

1天前

DATEDIFF() 函数返回两个日期之间的天数用法：DATEDIFF(date1,date2) date1 和 date2 参数是合法的日期或日期时间表达式。注意：只有值的日期部分参与

函数周期表丨时间智能丨表丨SAMEPERIODLASTYEAR（修订）

1天前

SAMEPERIODLASTYEAR函数 SAMEPERIODLASTYEAR函数属于“表函数”，看起来比较冗长，但是用途却简单明了。用途：返回去年同期&#xf

Expected { after ‘if‘ condition

22小时前

if 后面要加括号

mysql 1337_mysql存储过程（自定义函数）1337-Variable or condition declaration after cursor or handler declaratio...

22小时前

创建mysql自定义函数时，提示错误[Err] 1337 - Variable or condition declaration after cursor or handler declaration 原因&#

目标检测算法——YOLOv5YOLOv7改进之更换FReLU激活函数

17小时前

深度学习Tricks，第一时间送达论文地址：https:arxivpdf2007.11824.pdf 代码地址：https:githubmegvii-mod

[UE4]C++改写蓝图Construction构造函数

2小时前

最近要写一个插件，希望尽量傻瓜化不需要用户操作任何，但是在蓝图构造函数下要执行某些函数想在C中把这一步做了找了半天没找到地方最终发现了OnConstruction这个函数&#x