标签：spark

基于大数据的儿童出生体重和妊娠期数据系统 | 这套基于Hadoop+Spark的儿童出生体重数据系统，究竟有什么神奇之处？

文章浏览阅读626次，点赞27次，收藏16次。本文介绍了一个基于大数据的儿童出生体重和妊娠期数据系统。该系统采用Hadoop、Spark等大数据技术，结合Pyt...

2025-08-16阅读(87)

文章浏览阅读713次，点赞27次，收藏14次。2006年MapReduce推动了Hadoop批处理生态，但受限于高延迟和频繁落盘。2013年Spark以RDD内...

2025-08-14阅读(55)

文章浏览阅读1k次，点赞23次，收藏15次。同样是计算机毕设：为什么他的医学生健康数据分析系统用了Hadoop+Spark就能脱颖而出？

2025-08-13阅读(65)

文章浏览阅读55次。摘要：PySpark累加器是用于分布式计算中安全聚合数据的共享变量，支持数值型和集合型内置累加器，也可通过继承AccumulatorV2类实...

2025-07-30阅读(59)

文章浏览阅读237次。yarn任务筛选spark任务，判断内存/CPU使用超过限制任务。

2025-05-20阅读(98)

文章浏览阅读677次，点赞5次，收藏17次。Spark on YARN 是 Apache Spark 的一种部署模式，允许 Spark 应用程序在 Hadoop...

2025-05-15阅读(155)

文章浏览阅读1.1k次，点赞26次，收藏13次。Spark Streaming 用于流式数据的处理Spark Streaming 支持的数据输入源很多，例如：K...

2025-04-24阅读(145)

文章浏览阅读6.6k次，点赞78次，收藏72次。HistoryServer服务可以让用户通过Spark UI界面，查看历史应用（已经执行完的应用）的执行细节，比...

2025-04-18阅读(132)