Preguntas con etiqueta 'apache-spark'

Numero de resultados: 2502

0 votos
0 respuestas
PySpark en AWS Pegamento: Contenedor de código de salida 52 cuando se escribe la salida a csv

Soy nuevo en Spark/PySpark, y yo estoy tratando de utilizar PySpark para automatizar el proceso de ETL (en AWS) para un modelo ML producción que requiere una serie de ...

0 votos
3 respuestas
Necesito crear una trama de datos chispa de un archivo JSON anidada en Scala

Tengo un archivo JSON que tiene este aspecto { "tags": [ { "1": "NpProgressBarTag", "2": "userPath", "3": "screen", "4": 6, "12":...

1 voto
1 respuesta
sql chispa: cómo optimizar múltiples enormes tablas de la colmena se unen

Hay trabajo chispa SQL: spark.sql(s"""SELECT * FROM ( select * from default.table1 where created_dt between date '2018-01-01' and '2018-01-02' group by 1,2)...

0 votos
0 respuestas
¿Cómo construir una trama de datos de chispa en base a un JSON anidada?

Estoy tratando de crear una nueva trama de datos utilizando chispa scalabased en un JSON.I anidada han definido la clase caso para mapear el JSON entrante. JSON Muest...

0 votos
0 respuestas
Paralelismo con spark.read mediante JDBC restablece al azar conexión

Actualmente estoy usando la nube de Google. Aquí siguen los comandos: iniciar clúster: gcloud beta dataproc clusters create my-test --project my-project --subnet p...

0 votos
1 respuesta
La forma de cargar los tipos de datos de colección mediante conector chispa Cassandra en modo batch

Estoy tratando de cargar una trama de datos chispa que tiene dos atributos con los tipos de datos de recogida en una tabla Cassandra. En el archivo de la alimentació...

1 voto
0 respuestas
¿Cuál es la diferencia entre livy.rsc.jars y livy.repl.jars?

Estoy trabajando en Jupyter Cuadernos uso de kernel sparkmagic (chispa Scala) que se basa en Apache Livio para ejecutar los trabajos de chispa. Actualmente estoy trat...

0 votos
0 respuestas
Los registros de compleja trama de datos PySpark desaparecen cuando el filtro y persisten

Entrada: PySpark DF leer desde un archivo JSON (salida del trabajo ETL anterior) con la estructura de datos compleja (muchos campos anidados). Archivo contiene 100.00...

0 votos
1 respuesta
Cómo establecer la ruta a los archivos de chispa Apache independiente Cluster?

Necesito algunos consejos acerca de la definición de una ruta a un directorio con una gran cantidad de archivos en Spark. He creado un clúster independiente con una so...

0 votos
0 respuestas
Apache convertido chispa conjunto de datos

Mi objetivo es combinar 2 mesas. ¿Cómo puedo hacer que en Java? Estoy consiguiendo error durante el uso de este código. public class App { public static void ma...

0 votos
0 respuestas
¿Cómo puedo crear una trama de datos de mensajes codificados protobuf?

Estoy tratando de escribir una serie de mensajes codificados protobuf como archivo de parquet en el disco utilizando pyspark. He genetated archivos PB2 para el esquema...

0 votos
1 respuesta
Spark 2.2 está utilizando la versión antigua biblioteca com.google.guava: 14 pero necesito utilizar la versión de guayaba 18 y por encima en el proyecto SBT

código: var queryJob: Trabajo = bigquery.create (JobInfo.newBuilder (QueryConfig) .setJobId (jobId) .build()) error: Causado por: java.lang.NoSuchMethodError: com.goo...

0 votos
0 respuestas
Chispa y Zeppelin: Problema ejecución de una nota a través z.runNote que también contiene otra llamada a z.runNote

Usando el intérprete de chispa en el Zeppelin, cuando una nota A ejecuta nota B usando z.runNote función, y la nota B utiliza para ejecutar z.runNote nota C, el intérp...

0 votos
1 respuesta
la memoria caché cuota de chispa entre diferentes puestos de trabajo en un mismo contexto

En servidor de tareas de chispa, podemos crear un contexto y compartido este contexto entre los diferentes puestos de trabajo. Actualmente Quiero correr mismo trabajo ...

0 votos
1 respuesta
Cómo calcular TP, TN, FP y FN con la chispa y la Scala cuando tengo predicciones y archivo de la verdad de tierra (gráfico original)?

Tengo una trama de datos que representa un gráfico. Tiene la siguiente estructura: a, bantes de Cristob, d Este gráfico representa una red co-autoría. He funcionad...

0 votos
1 respuesta
Cómo convertir varios archivos de parquet en archivos TFrecord usando SPARK?

Me gustaría producir archivos TFrecord estratificadas de una gran trama de datos basado en una determinada condición, para el que yo uso write.partitionBy(). También e...

1 voto
0 respuestas
Zeppelin tirar Excepción de puntero nulo al configurar

Estoy intentando fijar Zeppelin-0.8.0 en mis Windos 8 r2 OS. Ya he correr chispa en mi consola es decir SPARK_HOME y JAVA_HOME, HADOOP_HOME configurado y funcionando b...

0 votos
0 respuestas
¿Cómo puedo lograr la transmisión de la agregación de datos por lotes utilizando Spark Transmisión estructurado?

Estoy usando Spark estructurado Transmisión de leer de un montón de archivos que entra en mi sistema a una carpeta específica. Quiero ejecutar una consulta en streami...

0 votos
1 respuesta
Cómo dar nombre de alias para las columnas posexplode en SQL Spark?

La siguiente declaración genera "POS" y "col", como nombres predeterminados cuando uso posexplode() función en SQL Spark scala> spark.sql(""" with t1(select to_dat...

0 votos
1 respuesta
Cómo utilizar TestHiveContext usando Spark 2.2

Estoy tratando de actualizar a Spark Spark 2.2 desde 1.6. Las pruebas de unidad existentes están dependiendo de una definida HiveContext que fue inicializado usando Te...

0 votos
1 respuesta
Cómo conectarse a bases de datos de la colmena de la chispa Uso de Java

Soy capaz de conectarse a la colmena utilizando hive.metastore.uris en Sparksession. Lo que quiero es para conectarse a una base de datos particular de la colmena con ...

0 votos
3 respuestas
Apache cubo kyline streaming de acumulación de errores no caballetes de trabajo

Estoy siguiendo el tutorial para la generación de cubos de corriente Kylin Cubo de Transmisión (Kafka) Toda la propiedad se establece como se ha dicho en la página ...

3 votos
1 respuesta
partido de expresiones regulares PySpark entre las tablas

Estoy tratando de extraer patrones de expresiones regulares de una columna usando PySpark. Tengo una trama de datos que contiene los patrones de expresiones regulares ...

0 votos
0 respuestas
Chispa de los consumidores no lee los mensajes Kafka Scala

He definido consumidor chispa y la aplicación productor de Kafka. Sin embargo, los mensajes no fluyen en Spark. Así que no estoy seguro de dónde exactamente un problem...

0 votos
1 respuesta
Chispa y Cassandra en la misma ventana acoplable

Estoy descomprimir un archivo tar en JSON y luego guardar estos archivos JSON en Cassandra usando chispa (2.4.0) y Cassandra (3.11). Me postulo pyspark usando un recip...

1 voto
2 respuestas
Cómo cambiar los tipos de columna en Spark (en Java) trama de datos de SQL?

Estoy tratando de convertir un tipo de datos de columna de largo a int en SQL chispa usando Java, he visto algunos de ejemplo en la Scala y probar, pero, no es wotking...

-1 voto
3 respuestas
¿Es seguro para definir transformaciones chispa en una función y devolver una nueva trama de datos en bigdata?

Tengo una trama de datos df1. Tengo la intención de dividirlo en dos tramas de datos - df2 y df3. El flujo de código existente tiene casi la misma secuencia de transfo...

0 votos
0 respuestas
Como instalar chispa en EC2 usando la nube de formación/Lambda

Quiero forma automatizada de crear instancia EC2 con los grupos de VPC/seguridad por defecto y luego Instalación de chispa en su interior.

0 votos
0 respuestas
Transmisión estructurada: no se puede extraer valor de marca de tiempo # 3: necesidad tipo de estructura, pero tiene marca de tiempo;

Tengo un error al ejecutar el StructuredNetworkWordCountWindowed ejemplo. Error: org.apache.spark.sql.AnalysisException: Can't extract value from timestamp#3: need...

3 votos
1 respuesta
tamaño de archivo parqué correcta cuando se almacenan en S3?

He estado leyendo algunas preguntas con respecto a este tema y también varios foros, y en todas ellas que parecen ser mencionar que cada uno de los archivos resultante...

1 voto
0 respuestas
Ejecutar modelo basado en Python programa de Secuencia chispa estructurado basado Scala

Tengo un programa de streaming estructurado basado Scala que necesita para ejecutar un modelo basado en Python. En la versión anterior de chispa (1.6.x), que solía h...

0 votos
0 respuestas
Encuentra el área de MultiPolygon con Spark

Cuando trato de calcular un área del polígono representa como WKT POLYGON((35.76171875 62.01049597765239,47.5390625 62.01049597765239,47.5390625 56.54652371918996,35....

1 voto
2 respuestas
Spark SQL Clasificación de cadenas Unicode anulables

Estamos trabajando en SQL chispa. Estamos haciendo la clasificación de uso de algunos campos de cadena anulables. El problema es: En SQL Spark, null los valores son ...

1 voto
1 respuesta
contenedor trabajador pudo conectarse de nuevo a Spark controlador

Hice el Dockerfile como: # Copyright (c) Jupyter Development Team. # Distributed under the terms of the Modified BSD License ARG BASE_CONTAINER=jupyter/scipy-notebook...

0 votos
0 respuestas
Kafka + Pyspark: Configuración fue suministrado pero no es una configuración conocida

Estoy tratando de leer una secuencia estructurada, la corriente se compone de estadísticas de ping: 64 bytes from vas.fractalanalytics.com (192.168.30.26): icmp_seq=1...

1 voto
0 respuestas
Sql chispa de streaming con Kafka en los datos JSON: desde_json función no es capaz de analizar JSON de varias líneas procedente de tema kafka

Aquí, estoy enviando los datos JSON para kafka del tema "prueba", dará el esquema para JSON, hacer alguna transformación e imprimirla en la consola. Aquí está el códig...

1 voto
0 respuestas
Spark conductor termina con código 137 y ningún mensaje de error. ¿Cual es la causa?

Mi programa de chispa está fallando y ni el planificador, el conductor o ejecutores están proporcionando cualquier tipo de error útil, además de la condición de salida...

0 votos
3 respuestas
Cómo incluir el valor de marca de tiempo kafka como columnas en la chispa estructuran en streaming?

Busco a la solución de agregación de valor de marca de tiempo de kafka a mi chispa esquema de streaming estructurado. He extraído el campo de valor de kafka y haciendo...

0 votos
1 respuesta
Cómo obtener información detallada acerca de Spark Etapas Tareas

He configurado un clúster Spark Apache con un maestro y un trabajador y lo uso Python con Spyder como IDE. Todo funciona bien hasta ahora, pero necesito información de...

3 votos
1 respuesta
pyspark múltiple "ventana()" llamadas muestra de error al hacer un "GroupBy()"

Esta pregunta es un seguimiento de esta respuesta. Spark está mostrando un error cuando se presenta la siguiente situación: # Group results in 12 second windows of "f...

1 2 3 4 5 6 7 8 ... 62 63 right