Boole Flow
spark数据倾斜解决方案 spark数据倾斜解决方案
多数 task 都执行得非常快,但个别 task 执行非常慢,导致整个任务不能结束。
2022-05-04
HiveSQL性能调优 HiveSQL性能调优
数据量大对于Hive SQL(或Spark SQL)来说并不是主要挑战,最怕的是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等。
2021-09-04
数据预处理的套路 数据预处理的套路
在数据挖掘之前使用,用以提高数据挖掘模式的质量,降低实际挖掘所需要的时间。
2020-11-21
描述性数据分析 描述性数据分析
对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。
2020-11-07
像读故事一样了解PySpark 像读故事一样了解PySpark
Spark是一个开源、强大的分布式查询和处理引擎,Python作为机器学习和深度学习主流语言,PySpark终究还是不错的选择。
2020-10-31