Blog | Perardua Consulting

Apache Iceberg

https://medium.com/data-engineer-things/apache-iceberg-the-hadoop-of-the-modern-data-stack-c83f63a4ebb9

il y a 3 jours1 min de lecture

Bonnes pratiques Apache Spark : Optimisez le traitement de vos données

Apache Spark est un puissant système informatique distribué open source, excellent dans le traitement du Big Data. Reconnu pour sa rapidité et sa simplicité d'utilisation, il est plébiscité par les ingénieurs logiciels et les data scientists.

Claude Paugh

il y a 4 jours4 min de lecture

Analyse des données sur les ETF, les fonds communs de placement et la richesse : une introduction

Several years ago, I started a side project that I thought would be fun: collecting and loading SEC filings for ETF and Mutual Fund Holdings on a monthly basis. I wanted to essentially automate the collection of the SEC filings

Claude Paugh

il y a 4 jours5 min de lecture

Collecte de données statistiques avec PySpark : analyse comparative avec Scala

Data processing and statistics gathering are essential tasks in today's data-driven world. Engineers frequently find themselves choosing between tools like PySpark and Scala when embarking on these tasks.

Claude Paugh

il y a 4 jours6 min de lecture

Données sur les ETF, les fonds communs de placement et les actionnaires : Récupérer le contenu

If you're a software engineer, there are various SDK's and connectors available. On the other hand if you just want to look at document content, either the built-in "Query" section on the Couchbase console, or a third-party tool that has a driver to connect.

Claude Paugh

il y a 4 jours2 min de lecture

Spark Data Engineering : bonnes pratiques et cas d'utilisation

In today's data-driven world, organizations are generating vast amounts of data every second. This data can be a goldmine for insights when processed and analyzed effectively. One of the most powerful tools in this realm is Apache Spark.

Claude Paugh

il y a 4 jours5 min de lecture

Avantages de l'ingénierie des données et son impact sur les coûts de l'entreprise

Data architecture refers to the design and organization of data structures and systems within an organization. It defines how data is collected, stored, and used, serving as a blueprint for managing data assets.

Claude Paugh

il y a 4 jours5 min de lecture

Données sur les ETF, les fonds d'investissement et les actions : accédez à du contenu analytique

The analytics console looks very much like the query console with the exception of the panels on the right. This is where you can map data structures from the local or remote Couchbase collections as sources. The analytics service makes a copy of the original data, and provides the ability to index it separately from the original source.

Claude Paugh

il y a 4 jours2 min de lecture

Calcul parallèle à l'aide de la bibliothèque Python Dask

Dask is a flexible library for parallel computing in Python. It is designed to scale from a single machine to a cluster of machines seamlessly. By using Dask, you can manage and manipulate large datasets that are too big to fit into memory on a single machine.

Claude Paugh

il y a 4 jours3 min de lecture

Apache Iceberg

Bonnes pratiques Apache Spark : Optimisez le traitement de vos données

Analyse des données sur les ETF, les fonds communs de placement et la richesse : une introduction

Collecte de données statistiques avec PySpark : analyse comparative avec Scala

Données sur les ETF, les fonds communs de placement et les actionnaires : Récupérer le contenu

Spark Data Engineering : bonnes pratiques et cas d'utilisation

Avantages de l'ingénierie des données et son impact sur les coûts de l'entreprise

Données sur les ETF, les fonds d'investissement et les actions : accédez à du contenu analytique

Calcul parallèle à l'aide de la bibliothèque Python Dask

Privacy Policy