Preguntas con etiqueta 'pyspark'

Numero de resultados: 1141

1 voto
2 respuestas
Cómo ignorar comillas dobles al leer el archivo CSV en Spark?

Tengo un archivo CSV como: col1,col2,col3,col4 "A,B","C", D" Quiero leerlo como una trama de datos de chispa, donde los valores de cada campo son exactamente como e...

0 votos
0 respuestas
Pivotante en pyspark sin proporcionar una lista de valores distintos

Error al tratar de pivote usando una lista en la trama de datos pyspark Los valores distintos en mi columna que quiero pivote también tiene 'nulo' como value.I estoy ...

0 votos
0 respuestas
Spark ML regresión logística vs Sklearn: Diferentes coeficientes e intercepta

Me puede faltar algunos parámetros de inicialización o algo por el estilo. He creado un LR pyspark y luego uno usando Scikit. Entrené a continuación, utilizando los m...

0 votos
1 respuesta
chispa presentar --master locales [n] no puede crear múltiples hilos

Escribo código pyspark para hacer frente a algunos datos de chispa-SQL. El mes pasado, funcionó perfectamente cuando me encontré spark-submit --master local[25]. Des...

2 votos
3 respuestas
Spark stand alone instalación no puede conectarse al maestro

Tengo Spark 2.3.1 se ejecuta en mis ventanas locales 10 de la máquina. No he jugado con un poco con la configuración de la spark-env o spark-defaults. Como estoy inten...

1 voto
0 respuestas
Spark desencadenar automáticamente la partición

Estoy funcionando con un clúster de EMR siguiente configuración: 1 maestro, 4 esclavos. Recuento total ejecutor: 11, cada ejecutor tiene 5 núcleos y la memoria de 34GB...

0 votos
0 respuestas
¿Cómo consigo la primera fecha de la semana de la columna Fecha en PySpark?

Tengo una columna de marca de hora normal, en mi trama de datos PySpark. Quiero obtener la fecha de inicio de la semana de la fecha dada en una nueva columna.

1 voto
0 respuestas
La lectura de salida JSON de base de datos en PySpark

Estoy tratando de leer algunos salida de una base de datos SQL Server en PySpark. El formato de los datos es el siguiente: { "var1": 0, "var2": 0, "var3": 1, ...

-1 voto
3 respuestas
Spark algoritmo de superposición usando tramas de datos

Dada una fuente de datos con los campos: product_id - product - start_time - end_time Estoy tratando de construir la lógica para la captura de superposición de regist...

2 votos
1 respuesta
GroupBy y unirse frente a la ventana en pyspark

Tengo una trama de datos en pyspark que tiene cientos de millones de filas (aquí es una muestra ficticia de él): import datetime import pyspark.sql.functions as F fro...

3 votos
1 respuesta
Cassandra 'No se puede conectar a cualquier servidor' con código de error 10061

Tengo Cassandra en mi red privada local y estoy tratando de acceder desde un ordenador diferente, pero mientras se conecta al servidor de Cassandra estoy recibiendo es...

5 votos
1 respuesta
asignación Latent Dirichlet (LDA) en Spark - modelo duplicado

Quiero salvar el modelo LDA del paquete pyspark ml-agrupamiento y aplicar el modelo a la formación y las pruebas conjunto de datos después de guardar. Sin embargo los ...

1 voto
1 respuesta
Seleccionar la codificación al escribir un archivo CSV en pyspark

Estoy tratando de establecer la codificación adecuada al guardar un archivo CSV comprimido usando pyspark. Aquí mi prueba: # read main tabular data sp_df = spark.rea...

1 voto
1 respuesta
aplicación PySpark presentar error en el modo de clúster Hilados

Estoy tratando de presentar mi solicitud PySpark en el modo de clúster, y yo estoy recibiendo el siguiente error al presentar la solicitud. Nota: No tengo ninguna dep...

5 votos
1 respuesta
Usando .donde() en pyspark.sql.functions.max(). Sobre (ventana) en Spark 2.4 lanza excepción de Java

He seguido un post en Desbordamiento de pila de volver el máximo de una columna agrupados por otra columna, y tiene una excepción inesperada Java. Aquí está la prue...

2 votos
1 respuesta
¿Cómo pyspark RDD countByKey() contar?

Antes de la publicación de esta pregunta He buscado en la Comunidad, en lo docs pyspark, pero todavía no soy capaz de entender cómo su conteo. sc.parallelize((('1',11...

0 votos
1 respuesta
Cómo combinar eficientemente PySpark trama de datos?

Tengo dos tramas de datos en Pyspark que han sido fusionan durante unos dos días. La primera es de aproximadamente 6.000.000 características x 2600 filas y el segundo ...

8 votos
2 respuestas
Como llegar a la definición del esquema de una trama de datos en PySpark?

En PySpark se puede definir un esquema y leer fuentes de datos con este esquema predefinido, e. sol.: Schema = StructType([ StructField("temperature", DoubleType(), T...

-2 votos
2 respuestas
¿Cómo se crea una nueva columna de cada elemento en una cadena con chispa/pyspark

Estoy tratando de tener una columna en Spark (usando pyspark) que tiene valores de cadena como 'A1', 'C2', y 'B9' y crear nuevas columnas con cada elemento de la caden...

1 voto
2 respuestas
Spark Streaming mejores prácticas de programación

Tenemos un trabajo chispa de streaming que se ejecuta cada 30 minutos y tarda 15 segundos para completar el trabajo. ¿Cuáles son las mejores prácticas en esta hipótesi...

0 votos
0 respuestas
Error al intentar utilizar un método de recuento en rdd con pyspark

Estoy tratando de ejecutar el siguiente código: lst = [25, 90, 81, 37, 776, 3320] testData = sc.parallelize(lst) testData.count() Pero estoy consiguiendo el error s...

0 votos
0 respuestas
El uso de chispa para leer un archivo de Amazon con EFS

Me gustaría leer en un archivo almacenado en la SSC en una trama de datos pyspark. Puedo leer la EFI archivo usando los pandas con el siguiente código. filepath = '/...

0 votos
1 respuesta
PySpark UDF funcione con trama de datos de consulta?

Tengo otra solución, pero yo prefiero usar PySpark 2,3 a hacerlo. Tengo una trama de datos PySpark de dos dimensiones de esta manera: Date | ID ---------- | --...

0 votos
0 respuestas
Spark estructurado Streaming - Ventana operación en datos antiguos

Soy nuevo en el Spark Streaming. He recogido alrededor de algunos GBs de tweets de octubre a diciembre de 2018. Escribí un programa que lee los archivos de un direct...

0 votos
1 respuesta
pyspark trama de datos "condición debe ser de cadena o columna"

soy incapaz de utilizar un filtro en una trama de datos. me siguen dando error "TypeError (" condición debe ser de cadena o de columna ")" He intentado cambiar el fil...

1 voto
1 respuesta
Contraseña de inicio de sesión en copo de nieve menos de pyspark

Soy nuevo en el copo de nieve. Estoy creando un trabajo de ETL en el que necesitamos para tener acceso a la base de datos de copo de nieve. Estoy intentando conectar ...

0 votos
0 respuestas
¿Cómo puedo actualizar una variable de difusión en Python streaming de chispa?

Necesito actualizar una variable de difusión a través del tiempo (digamos en un intervalo definido) en Spark estructurado en streaming usando Python. Yo sé que hay una...

1 voto
0 respuestas
AWS Pegamento: Comando falló con el código de salida 1

Mi trabajo está fallando el pegamento con el "Comando falló con el código de salida 1". Cuando traté de buscar en los registros de errores, no encuentro nada útil... ...

0 votos
1 respuesta
realizar combinaciones en pyspark en múltiples llaves, con sólo la duplicación de nombres de columna no idénticos

Quiero combinación externa con dos tramas de datos Spark: df1 columns: first_name, last, address df2 columns: first_name, last_name, phone_number Mis llaves están ...

1 voto
2 respuestas
Aplicar una función a todas las células en Spark trama de datos

Estoy tratando de convertir un código pandas de chispa para escalar. myfunc es una envoltura de un API compleja que toma una cadena y devuelve una nueva cadena (lo que...

0 votos
1 respuesta
PySpark desde_json Esquema para ArrayType sin nombre

Estoy tratando de utilizar desde_json con la siguiente cadena JSON y necesidad de especificar un esquema. Lo que coincide con este esquema JSON? [{"key": "value1"}, {...

0 votos
0 respuestas
comparación de fechas entre las tramas de datos - usando pyspark

Tengo 2 tramas de datos, uno contiene las transacciones y tiene los siguientes atributos: trxId, publishedDate and many other columns Hay otra trama de datos denomi...

0 votos
1 respuesta
Cómo utilizar DataFrame.withColumn con una condición

Quiero saber cómo crear una nueva columna en la trama de datos completa, pero cuyos valores se basan en sólo un subconjunto de la trama de datos (es decir, alguna func...

1 voto
1 respuesta
PySpark tratar de aplicar el esquema del campo anterior al siguiente campo

Tener este problema extraño con PySpark. Parece que se trata de aplicar el esquema para el campo anterior, al siguiente campo, ya que está procesando. Más simple c...

7 votos
2 respuestas
detección sufijo cadena eficiente

Estoy trabajando con PySpark en un gran conjunto de datos, donde quiero filtrar la trama de datos basado en cadenas en otra trama de datos. Por ejemplo, dd = spark.cr...

0 votos
0 respuestas
¿Por qué no está en sc = SparkContext (conf = conf) no funciona

from pyspark import SparkContext, SparkConf import initspark ` conf = SparkConf().setAppName("SimpleExample").setMaster("local") sc = SparkContext(conf=conf) Estoy...

0 votos
0 respuestas
Pyspark - Lanzar un col cadena con espacios iniciales o finales en un entero crea la columna de valores nulos

Estoy teniendo una trama de datos que tiene una columna value en string formato. Hay espacios vacíos en esta columna cadena. Deseo para convertirlo en número entero. ...

-2 votos
1 respuesta
PySpark - Cómo filtrar un trozo consecutivo de filas de una trama de datos basado en dos valores de una columna

Tengo una trama de datos y quiero crear otra trama de datos en base a unos valores de columna utilizando pyspark. Por ejemplo: a continuación es mi principal trama de ...

1 voto
1 respuesta
Pyspark: Columna Convertir de Tipo String a tipo timestamp

He estado usando pyspark 2.3. Tengo trama de datos que contiene la columna 'tiempo' en formato de cadena de valores de fecha y hora. donde las miradas de columna como:...

0 votos
0 respuestas
Cómo forzar a los puestos de control NameNode HDFS durante los trabajos de streaming de carreras de larga estructurados

Estoy funcionando con alguna chispa de larga data estructurada Streaming trabajos con varias consultas en paralelo y agregaciones, puestos de control se almacenan en H...

0 votos
0 respuestas
preparar formato jerárquico json de trama de datos

Estoy tratando de convertir la trama de datos a JSON (jerárquica en forma de árbol) de formato. Necesito mostrar porcentaje de registros en cada categoría de todas las...

1 voto
1 respuesta
Excepción se ha dado: pyspark.sql.utils.AnalysisException 'Las consultas con fuentes de transmisión deben ser ejecutados con writeStream.start() ;; \ nkafka'

en el código de si no df.head (1) .isEmpty: Tengo excepción, Exception has occurred: pyspark.sql.utils.AnalysisException 'Queries with streaming sources must be exe...

0 votos
2 respuestas
StorageLevel chispa en modo local no funciona?

La ejecución en modo local Memoria de la computadora: 16GB Espacio disponible en disco del equipo: 500 GB Tamaño del archivo de entrada: 50 GB Mensaje de error: esp...

3 votos
0 respuestas
AWS pegamento no copiar Identificación columna (int) para Redshift - Está en blanco

Tener un problema muy raro con pegamento. El uso que se ejecute alguna ETL en los datos que estoy en movimiento a partir de MySQL RDS para corrimiento al rojo. Utiliza...

2 votos
1 respuesta
Combinar intervalos de fecha en la trama de datos de chispa

Tengo un problema similar a la de abajo. Combinar intervalos de fecha en la trama de datos pandas Sin embargo estoy tratando con un gran conjunto de datos. Estaba t...

1 voto
1 respuesta
Filtro trama de datos por valores en una lista de diccionarios en pyspark

En pyspark, ¿Cómo filtrar un dataframe que tiene una columna que es una lista de los diccionarios, basado en el valor de una clave de diccionario específico? Es decir...

0 votos
0 respuestas
Implementar el registro en tuberías de EMR

Tengo una tubería de datos que extrae datos de fuente HDFS, que hace la limpieza y transformación de datos de menor importancia antes de que se carga en nuestro equipo...

0 votos
2 respuestas
Desciframiento pegamento AWS sin memoria y métricas

Estoy tratando de averiguar lo que mis medidas de trabajos de AWS pegamento significan y cuál es la causa probable del fracaso A partir de la segunda tabla Tomo ...

0 votos
2 respuestas
Cómo conectarse a un hdfs kerberoized de chispa en Kubernetes?

Estoy intentando conectar con hdfs que se kerberizado la que se produce el error org.apache.hadoop.security.AccessControlException: autenticación simple no está h...

1 voto
2 respuestas
Pyspark: tarea Serialized excede máximo permitido. Considere aumentar spark.rpc.message.maxSize o el uso de variables de transmisión para valores grandes

Estoy haciendo cálculos en un clúster y al final cuando pido un resumen estadístico en mi trama de datos de chispa con df.describe() show() Me aparece un error.: tare...

1 2 3 4 5 6 7 8 ... 22 23 right