发布于2024-11-23 21:37 阅读(8) 评论(0) 点赞(16) 收藏(0)
我有几个如下所示的数据框:
name_df:
| id | name |
| -- | ---- |
| 1 | Mark |
| 2 | Lisa |
| 2 | Josh |
age_df:
| name | age |
| -- | --- |
| Mark | 20 |
| John | 25 |
| Lisa | 35 |
prescription_df
| name | prescription |
| -- | ------------ |
| Lisa | True |
| Mark | False |
因此,我在这里尝试猜测的是,是否有年龄超过 30 岁且处方设置为 True 的姓名。最后,如果满足这些条件,我必须返回 true 或 false。
我目前正在做两个不同的连接语句,如下所示:
df_1 = name_df.alias('main').join(
age_df.alias('a'),
(col('main.name') == col('a.name')) & col('a.age') > '30'
)
df_2 = df_1 alias('main').join(
prescription_df.alias('b'),
col('main.name') == col('b.name')) & col('b.prescription') == True
)
如果它是空的或者不是空的,我将返回 true 或 false :
return False if df_2.isEmpty() else True
我想知道是否有“更好”的方法来做到这一点,或者更有效的方法来做到这一点。
根据设计,PySpark 仅在您执行需要收集数据的操作时才执行您的任何代码。但在执行此操作之前,它会分析您之前的所有命令,并在提取数据之前创建优化的执行计划。您可以使用以下命令验证实际会发生什么.explain()
name_df.alias('main').join(
age_df.alias('a'),
(col('main.name') == col('a.name'))
).where(col('a.age') > 30).explain()
和
name_df.join(age_df.where(age_df.age > 30), on="name").explain()
和
name_df.join(age_df, on="name").where(age_df.age > 30).explain()
最终都会在运行时执行相同的代码
解释向你展示了物理计划
== Physical Plan ==
AdaptiveSparkPlan isFinalPlan=false
+- SortMergeJoin [name#613], [name#643], Inner
:- Sort [name#613 ASC NULLS FIRST], false, 0
: +- Exchange hashpartitioning(name#613, 200), ENSURE_REQUIREMENTS, [plan_id=2294]
: +- Filter isnotnull(name#613)
: +- Scan ExistingRDD[name#613,id#614L]
+- Sort [name#643 ASC NULLS FIRST], false, 0
+- Exchange hashpartitioning(name#643, 200), ENSURE_REQUIREMENTS, [plan_id=2295]
+- Filter ((isnotnull(age#644L) AND isnotnull(name#643
出于个人喜好,我可能会这样写,因为这样理解起来非常直观。
prescription_df.where(prescription_df.prescription == True).join(
age_df.where(age_df.age > 30), on="name"
).join(name_df, on="name").isEmpty()
作者:黑洞官方问答小能手
链接:https://www.pythonheidong.com/blog/article/2045466/9ac41b0063cd6da4e04e/
来源:python黑洞网
任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任
昵称:
评论内容:(最多支持255个字符)
---无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事,而不是让内心的烦躁、焦虑,坏掉你本来就不多的热情和定力
Copyright © 2018-2021 python黑洞网 All Rights Reserved 版权所有,并保留所有权利。 京ICP备18063182号-1
投诉与举报,广告合作请联系vgs_info@163.com或QQ3083709327
免责声明:网站文章均由用户上传,仅供读者学习交流使用,禁止用做商业用途。若文章涉及色情,反动,侵权等违法信息,请向我们举报,一经核实我们会立即删除!