top of page


Então, use Python Dask para análise e análise de dados
Com a Biblioteca Python Dask, você pode facilmente executar cálculos complexos em big data usando Python. Isso também pode ser alcançado usando CPUs e GPUs econômicas. Portanto, é importante distinguir entre manipulação e pré-processamento de dados, que podem ser realizados na CPU, e operações algorítmicas e processamento de imagem e vídeo, que são mais adequados para a GPU.
Claude Paugh
há 2 dias6 min de leitura
2 visualizações


Como otimizei os trabalhos do Apache Spark para evitar embaralhamento excessivo
Ao trabalhar com o Apache Spark, frequentemente me deparei com um problema de desempenho comum, porém desafiador: embaralhamento excessivo. O embaralhamento pode tornar sua aplicação drasticamente lenta, tornando vital para os engenheiros de software encontrar maneiras eficazes de otimizar as tarefas do Spark.
Claude Paugh
há 4 dias3 min de leitura
0 visualização


Como otimizar o acesso a dados para Apache Spark RDD
Otimizar o acesso a dados nos Conjuntos de Dados Distribuídos Resilientes (RDDs) do Apache Spark pode aumentar significativamente o desempenho de aplicações de big data. O uso de estratégias eficazes pode levar a tempos de processamento mais rápidos e melhor utilização de recursos. Neste post, compartilharei técnicas práticas e exemplos reais que me ajudaram a otimizar o acesso a dados ao trabalhar com RDDs.
Claude Paugh
há 4 dias4 min de leitura
2 visualizações


Explorando casos de uso do Apache Iceberg e HDF5 no gerenciamento de dados moderno
No mundo de gerenciamento de dados em rápida evolução, as empresas enfrentam o desafio de lidar com eficiência com quantidades cada vez maiores de dados. É aqui que duas poderosas soluções de armazenamento são úteis: Apache Iceberg e HDF5.
Claude Paugh
há 6 dias4 min de leitura
3 visualizações


Descubra o potencial do Apache Iceberg para estratégias de engenharia de dados baseadas em nuvem
No mundo digital em rápida evolução de hoje, os dados se tornaram um ativo valioso para as empresas. Com o crescente volume de dados, as empresas precisam de soluções inovadoras para processar com eficiência essa vasta quantidade de informações. Entre essas tecnologias pioneiras está o Apache Iceberg.
Claude Paugh
há 6 dias5 min de leitura
0 visualização


Coleta de dados estatísticos com PySpark: uma análise comparativa com Scala
O processamento de dados e o armazenamento de estatísticas são tarefas essenciais no mundo atual, orientado a dados. Ao se depararem com essas tarefas, os engenheiros geralmente precisam escolher entre ferramentas como PySpark e Scala.
Claude Paugh
18 de abr.4 min de leitura
0 visualização


Benefícios da engenharia de dados e seu impacto nos custos empresariais
No cenário digital atual, as empresas dependem fortemente de dados precisos para gerenciar suas operações. No entanto, muitas organizações ignoram a importância de estruturar esses dados de forma eficaz.
Claude Paugh
17 de abr.5 min de leitura
0 visualização


Dados de ETFs, fundos mútuos e ações: acesso a conteúdo analítico
Mencionei em um post anterior que um dos motivos pelos quais experimentei o Couchbase foi seu serviço de análise integrado. O acesso é feito pelo menu esquerdo da interface do usuário, logo abaixo da opção “Pesquisar”
Claude Paugh
17 de abr.2 min de leitura
0 visualização


Dados de ETF, fundos mútuos e acionistas: recuperar conteúdo
Como você pode ver no conjunto de resultados acima, as “colunas” representam as chaves do documento JSON subjacente e os valores correspondem aos dados na grade. As referências são as mesmas ao usar uma consulta DataGrid ou Couchbase UI.
Claude Paugh
17 de abr.2 min de leitura
0 visualização


Spark Data Engineering: Melhores Práticas e Casos de Uso
No mundo atual, orientado por dados, as empresas geram enormes quantidades de dados a cada segundo. Quando processados e analisados de forma eficaz, esses dados se tornam uma fonte valiosa de informações. O Apache Spark é uma das ferramentas mais poderosas neste campo.
Claude Paugh
17 de abr.5 min de leitura
0 visualização


ETFs, fundos mútuos e análise de dados de ativos: introdução
Há alguns anos, comecei um projeto paralelo que achei que seria divertido: agregar e enviar registros mensais da SEC para ETFs e fundos mútuos. Eu queria automatizar o processo de compilação de registros da SEC usando registros de índice enviados por empresas e atualizá-los conforme eles eram registrados.
Claude Paugh
17 de abr.5 min de leitura
0 visualização
bottom of page