AWS vs Azure vs Google vs Snowflake, cual es el mejor Data Warehouse en la nube

Un Data Warehouse (DWH) es una de las herramientas de ciencia de datos más importante para cualquier compañía hoy en día, ya que provee una forma de centralizar la información corporativa y desde ahí ejecutar analítica que permita mejorar la toma de decisiones.

Por flexibilidad en el crecimiento y costos las compañías actualmente estan privilegiando soluciones de Data Warehouse en la nube por sobre sistemas locales. Otra razón muy importante es que los sistemas en la nube permiten acceso seguro a través de usuarios distribuidos en diferentes locaciones geográficas y sin necesidad de incorporar tecnología adicional.

Cual es el mejor Data Warehouse en la nube

Hoy existen una gran variedad de Data Warehouse disponibles, todas ellas con diferentes características, costos y funcionalidades. Este articulo permite diferenciar a los cuatro proveedores de soluciones en la nube más populares y con mayor presencia en el mercado; Amazon, Microsoft Azure, Google y Snowflake. Estos proveedores comparten varias similitudes, pero también varias diferencias que a la hora de seleccionar una plataforma de Data Warehouse pueden generar una gran diferencia.

Que es Amazon Redshift

Redshift es una solución de DWH y analítica en la nube y es parte de la plataforma de servicios cloud de Amazon Web Services (AWS). Este servicio proporciona una plataforma donde los usuarios pueden almacenar sus datos y extraer métricas que permiten mejorar la visualización del negocio. Para conocer más sobre Redshift accede a su documentación en español.

Que es Azure Synapse

Azure Synapse es la plataforma de Data Warehouse en la nube perteneciente a Microsoft, la cual permite a los usuarios crear un almacén de datos moderno y muy fácil de usar. Con Synapse usted puede consultar los datos a través de usuarios dedicados o recursos en modo Serverless a gran escala. Esta plataforma provee las tecnologías SQL de Microsoft para la creación de DWH, Data Explorer para simplificar la visualización y completa integración con otros servicios de Microsoft como AzureML, Power BI y CosmosDB. Para conocer mas sobre Azure Synpase accede a su documentación en español.

Que es Google BigQuery

BigQuery es un Data Warehouse en la nube y es parte de Google Cloud Platform. En este servicio los usuarios pueden crear reportes con ayuda del motor de datos analíticos, el cual también permite ejecutar consultas SQL sobre Pentabytes de datos y obtener resultados en minutos. Este DWH se basa en infraestructura Serverless por lo que su escalabilidad y alta disponibilidad se encuentran aseguradas. Para conocer mas sobre Google BigQuery accede a su documentación en español.

Que es Snowflake

Snowflake es un DWH con modelo Solución como Servicio (SAAS) diseñado específicamente para la nube. Con respecto a su arquitectura de datos, utiliza Azure Blob como motor de almacenamiento interno y Azure Data Lake para almacenar datos estructurados y no estructurados. Snowflake brinda seguridad a los datos por medio de controles de políticas de seguridad de AWS S3, tokens de Azure, SSO y permisos de acceso de Google cloud Storage. Para conocer mas sobre Snowflake en español accede a su documentación en español.

Continua Leyendo: Porqué utilizar la tecnología de Change Data Capture en un Data Warehouse

Arquitectura

Amazon Redshift: Este data warehouse es basado en clusters y cada cluster puede alojar múltiples bases de datos. Cada base de datos contiene múltiples objetos como tablas, vistas, procedimientos almacenados, etc. Como este servicio es distribuido en modo cluster, este se encuentra compuesto por nodos y slides, por lo cual los datos se encuentran almacenados en múltiples nodos.

Con respecto a la conectividad con las aplicaciones utiliza JDBC y ODBC.

Azure Synapse: Este servicio utiliza una arquitectura de crecimiento horizontal (scale-out) para distribuir el procesamiento de datos entre los distintos nodos. Como toda arquitectura Azure, lo que es procesamiento está separado del almacenamiento, lo que permite mayor escalamiento de los datos en el sistema.

Con respecto a la conectividad con las aplicaciones utiliza ADO.NET, ODBC, PHP y JDBC.

Google BigQuery: Este DWH como servicio está construido sobre tecnología Dremel, la cual ha sido utilizada por Google desde 2006 y es el motor de ejecución de BigQuery. El sistema almacena datos en forma columnar, leyendo datos desde un sistema de archivos llamado Colossus y a través de una poderosa red de datos llamada Jupiter.

Con respecto a la conectividad con las aplicaciones utiliza ODBC y JDBC.

Snowflake: Esta tecnología fue creada exclusivamente para la nube combinando el poder de la plataforma cloud más el motor de consultas SQL. El sistema utiliza un sistema hibrido de discos compartidos y arquitectura distribuida donde cada nodo es independiente (Shared-nothing). Las consultas son procesadas utilizando procesamiento MPP (Procesamiento masivo en modo paralelo).

Con respecto a la conectividad con las aplicaciones utiliza .NET, JDBC, ODBC y PHP.

Integración

Icono Redshift Data Warehouse Amazon Redshift: Redshift soporta integración con todo el ecosistema de Amazon Web Services, incluyendo DynamoDB, Amazon RDS, Amazon S3, AWS Data Pipeline o AWS EMR. También permite integración con soluciones de terceros.

Icono Synapse Data Warehouse Azure Synapse: Este Data Warehouse cuenta con varias herramientas de integración, como logic apps, APIs, Service Bus y Event Grid las cuales permiten conectarse en forma muy simple con soluciones de terceros.

Icono BigQuery Data Warehouse Google BigQuery: BigQuery provee varias soluciones propietarias para integración, a través de RestAPIs, Cloud Data Fusion o soluciones de terceros.

Icono Snowflake Data Warehouse Snowflake: Ofrece conectividad nativa con múltiples herramientas de BI, integración y análisis de datos, como Azure Data Factory, IBM Cognos, Oracle Analytics Cloud, Google cloud y muchas más.

Tanto Azure Synapse, como AWS Redshift, Google BigQuery y Snowflake pueden integrarse con sistemas de bases de datos relacionales, sistemas analíticos o sistemas de big data a través de tecnología Change Data Capture, permitiendo integrar estas tecnologías en forma transaccional. Continue leyendo sobre Syniti Data Replication.

Seguridad

Icono Redshift Data Warehouse Amazon Redshift: La seguridad es compartida entre el usuario y AWS, el usuario es responsable de la seguridad de acceso, y transmisión de datos, mientras que AWS se preocupa de la seguridad de la nube. AWS permite conexiones SSL, cifrado del cluster, control de acceso por columnas o filas y VPC.

AWS Data Warehouse Redshift
Imagen: Original de AWS Seguridad

Icono Synapse Data Warehouse Azure Synapse: Azure ofrece varios niveles de protección de datos tanto para cargas de datos locales como en la nube. Estos servicios incluyen administración de acceso, autenticación, seguridad de la red y protección contra amenazas.

Azure Data Warehouse Synapse
Imagen: original de Microsoft Azure Seguridad

Icono BigQuery Data Warehouse Google BigQuery: Google provee autenticación de acceso vía IAM (Identity and Access Manager), permitiendo asignar políticas de seguridad a las diferentes identidades al interior de Google. Encriptación en forma automática de todos los datos antes de escribirlos en el disco, desencriptándolos cuando son requeridos por el usuario.

Google Data Warehouse BigQuery
Imagen: Original de Google BigQuery Seguridad

Icono Snowflake Data Warehouse Snowflake: Los datos almacenados en las tablas de Snowflake son encriptados utilizando AES-256, así como los archivos almacenados en archivos temporales. Soporta SSO, MFA (Multifactor Authentication) y Key Pair Authentication para acceso seguro. Gestion de roles a través de SCIM y validación con estándares Soc 1 Tipo II y Soc 2 tipo II.

Imagen: Original de Snowflake Community

2 thoughts on “AWS vs Azure vs Google vs Snowflake, cual es el mejor Data Warehouse en la nube”

  1. Gracias Alejandro, a través de tu artículo es mucho más fácil comprender lo que está ocurriendo en el mundo de los datos. ¡Muy interesante!

    Responder

Leave a Comment