spark数据倾斜解决方案 多数 task 都执行得非常快,但个别 task 执行非常慢,导致整个任务不能结束。 2022-05-04 DS&DM 算法 大数据 spark HiveSQL性能调优 数据量大对于Hive SQL(或Spark SQL)来说并不是主要挑战,最怕的是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等。 2021-09-04 DS&DM 大数据 数据库 性能优化 数据预处理的套路 在数据挖掘之前使用,用以提高数据挖掘模式的质量,降低实际挖掘所需要的时间。 2020-11-21 DS&DM 数据分析 统计学 数据模型 描述性数据分析 对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。 2020-11-07 DS&DM 数据分析 统计学 数据模型 像读故事一样了解PySpark Spark是一个开源、强大的分布式查询和处理引擎,Python作为机器学习和深度学习主流语言,PySpark终究还是不错的选择。 2020-10-31 DS&DM 大数据 spark pyspark