Blog | Perardua Consulting

Iceberg apache

https://medium.com/data-engineer-things/apache-iceberg-the-hadoop-of-the-modern-data-stack-c83f63a4ebb9

hace 3 días1 Min. de lectura

Uso de la biblioteca Python Dask para computación paralela

Dask is a flexible library for parallel computing in Python. It is designed to scale from a single machine to a cluster of machines seamlessly. By using Dask, you can manage and manipulate large datasets that are too big to fit into memory on a single machine.

Claude Paugh

hace 4 días3 Min. de lectura

Apache Spark Data Engineering: Mejores prácticas y casos de uso

In today's data-driven world, organizations are generating vast amounts of data every second. This data can be a goldmine for insights when processed and analyzed effectively. One of the most powerful tools in this realm is Apache Spark.

Claude Paugh

hace 4 días5 Min. de lectura

ETF, fondos mutuos y análisis de datos de activos: Introducción

Hace varios años, comencé un proyecto paralelo que pensé que sería divertido: agregar y cargar presentaciones mensuales ante la SEC de ETF y fondos mutuos.

Claude Paugh

hace 4 días5 Min. de lectura

Datos de ETF, fondos de inversión y accionariado: Recuperar contenido

If you're a software engineer, there are various SDK's and connectors available. On the other hand if you just want to look at document content, either the built-in "Query" section on the Couchbase console, or a third-party tool that has a driver to connect.

Claude Paugh

hace 4 días2 Min. de lectura

Datos de ETF, fondos mutuos y tenencia: recuperar contenido analítico

The analytics console looks very much like the query console with the exception of the panels on the right. This is where you can map data structures from the local or remote Couchbase collections as sources. The analytics service makes a copy of the original data, and provides the ability to index it separately from the original source.

Claude Paugh

hace 4 días2 Min. de lectura

Recopilación de estadísticas de datos con PySpark: un análisis comparativo con Scala

El procesamiento de datos y la recopilación de estadísticas son tareas esenciales en el mundo actual impulsado por los datos. Los ingenieros a menudo se ven obligados a elegir entre herramientas como PySpark y Scala cuando se embarcan en estas tareas.

Claude Paugh

hace 4 días5 Min. de lectura

Mejores prácticas de Apache Spark: optimice el procesamiento de datos

Apache Spark es un potente sistema de computación distribuida de código abierto que destaca en el procesamiento de big data. Es reconocido por su velocidad y facilidad de uso, lo que lo convierte en uno de los favoritos entre ingenieros de software y científicos de datos.

Claude Paugh

hace 4 días4 Min. de lectura

Iceberg apache

Uso de la biblioteca Python Dask para computación paralela

Apache Spark Data Engineering: Mejores prácticas y casos de uso

ETF, fondos mutuos y análisis de datos de activos: Introducción

Datos de ETF, fondos de inversión y accionariado: Recuperar contenido

Datos de ETF, fondos mutuos y tenencia: recuperar contenido analítico

Recopilación de estadísticas de datos con PySpark: un análisis comparativo con Scala

Mejores prácticas de Apache Spark: optimice el procesamiento de datos

Privacy Policy