Gestión de memoria Spark

Este grupo de memoria está administrado por Spark. Esto es responsable de almacenar el estado intermedio mientras se realiza la ejecución de tareas como uniones o de almacenar las variables de difusión. Todos los datos almacenados en caché / persistentes se almacenarán en este segmento, específicamente en la memoria de almacenamiento de este segmento.

¿Cómo funciona la memoria de chispa??
Puede quedarse sin memoria?
¿Cómo se divide la memoria en chispas??
¿Cómo sintonizo mi memoria de chispa??

¿Cómo funciona la memoria de chispa??

Apache Spark es una plataforma de computación en clúster que proporciona una API para programación distribuida similar al modelo MapReduce, pero está diseñada para ser rápida para consultas interactivas y algoritmos iterativos. Esto se logra principalmente almacenando en caché los datos necesarios para el cálculo en la memoria de los nodos del clúster.

Puede quedarse sin memoria?

Memoria insuficiente a nivel del conductor

Un controlador en Spark es la JVM donde se ejecuta el flujo de control principal de la aplicación. La mayoría de las veces, el controlador falla con un error OutOfMemory debido al uso incorrecto de Spark.

¿Cómo se divide la memoria en chispas??

En memoria de montón

De forma predeterminada, Spark solo usa el montón en memoria. El área de memoria en pila en el Ejecutor se puede dividir aproximadamente en los siguientes cuatro bloques: Memoria de almacenamiento: se usa principalmente para almacenar datos de caché Spark, como caché RDD, datos de desenrollado, etc.

¿Cómo sintonizo mi memoria de chispa??

A continuación, se muestran algunas formas de hacer esto:

En caso de que el tamaño de la RAM sea inferior a 32 GB, el indicador JVM debe establecerse en –xx: + UseCompressedOops. ...
Las estructuras anidadas se pueden esquivar utilizando varios objetos pequeños, así como punteros.
En lugar de utilizar cadenas para las claves, puede utilizar ID numéricos y objetos enumerados.