top of page


Iceberg apache
https://medium.com/data-engineer-things/apache-iceberg-the-hadoop-of-the-modern-data-stack-c83f63a4ebb9
Linked Article
hace 3 días1 Min. de lectura
0

Uso de la biblioteca Python Dask para computación paralela
Dask is a flexible library for parallel computing in Python. It is designed to scale from a single machine to a cluster of machines seamlessly. By using Dask, you can manage and manipulate large datasets that are too big to fit into memory on a single machine.
Claude Paugh
hace 4 días3 Min. de lectura
0


Apache Spark Data Engineering: Mejores prácticas y casos de uso
In today's data-driven world, organizations are generating vast amounts of data every second. This data can be a goldmine for insights when processed and analyzed effectively. One of the most powerful tools in this realm is Apache Spark.
Claude Paugh
hace 4 días5 Min. de lectura
0

ETF, fondos mutuos y análisis de datos de activos: Introducción
Hace varios años, comencé un proyecto paralelo que pensé que sería divertido: agregar y cargar presentaciones mensuales ante la SEC de ETF y fondos mutuos.
Claude Paugh
hace 4 días5 Min. de lectura
0

Datos de ETF, fondos de inversión y accionariado: Recuperar contenido
If you're a software engineer, there are various SDK's and connectors available. On the other hand if you just want to look at document content, either the built-in "Query" section on the Couchbase console, or a third-party tool that has a driver to connect.
Claude Paugh
hace 4 días2 Min. de lectura
0

Datos de ETF, fondos mutuos y tenencia: recuperar contenido analítico
The analytics console looks very much like the query console with the exception of the panels on the right. This is where you can map data structures from the local or remote Couchbase collections as sources. The analytics service makes a copy of the original data, and provides the ability to index it separately from the original source.
Claude Paugh
hace 4 días2 Min. de lectura
0


Recopilación de estadísticas de datos con PySpark: un análisis comparativo con Scala
El procesamiento de datos y la recopilación de estadísticas son tareas esenciales en el mundo actual impulsado por los datos. Los ingenieros a menudo se ven obligados a elegir entre herramientas como PySpark y Scala cuando se embarcan en estas tareas.
Claude Paugh
hace 4 días5 Min. de lectura
0

Mejores prácticas de Apache Spark: optimice el procesamiento de datos
Apache Spark es un potente sistema de computación distribuida de código abierto que destaca en el procesamiento de big data. Es reconocido por su velocidad y facilidad de uso, lo que lo convierte en uno de los favoritos entre ingenieros de software y científicos de datos.
Claude Paugh
hace 4 días4 Min. de lectura
0
bottom of page