Hantering av gnistminne

Denna minnespool hanteras av Spark. Detta är ansvarigt för att lagra mellanliggande tillstånd medan du utför uppgiften som joins eller för att lagra sändningsvariablerna. All cachad/kvarhållen data kommer att lagras i detta segment, specifikt i lagringsminnet för detta segment.

Hur fungerar gnistminne?
Kan gnista ta slut på minnet?
Hur är minnet uppdelat i gnista?
Hur ställer jag in mitt gnistminne?

Hur fungerar gnistminne?

Apache Spark är en klusterberäknande plattform som tillhandahåller ett API för distribuerad programmering som liknar MapReduce-modellen, men är utformad för att vara snabb för interaktiva frågor och iterativa algoritmer. Den uppnår detta främst genom att cacha data som krävs för beräkning i minnet av noderna i klustret.

Kan gnista ta slut på minnet?

Har slut på minne på förarnivå

En drivrutin i Spark är JVM där programmets huvudkontrollflöde körs. Oftare misslyckas föraren med ett OutOfMemory -fel på grund av felaktig användning av Spark.

Hur är minnet uppdelat i gnista?

På Heap Memory

Som standard använder Spark endast On-memory-hög. On-heap-minnesområdet i Executor kan grovt delas in i följande fyra block: Lagringsminne: Det används huvudsakligen för att lagra Spark-cachedata, till exempel RDD-cache, Unroll-data och så vidare.

Hur ställer jag in mitt gnistminne?

Här är några sätt att göra detta:

Om RAM -storleken är mindre än 32 GB bör JVM -flaggan vara inställd på –xx:+ UseCompressedOops. ...
Kapslade strukturer kan undvikas med hjälp av flera små föremål samt tips.
Istället för att använda strängar för nycklar kan du använda numeriska ID och uppräknade objekt.