La nueva arquitectura Microsoft Flat Network Storage para
datacenters con Windows Azure permite la utilización de clústeres de almacenamiento
datos binarios de gran tamaño o blobs (de las siglas en inglés Binary Large
Object) preparados para big data. Microsoft anunció que esta es una de las
actualizaciones más grandes que se han realizado del servicio HDInsight desde
la incorporación de la plataforma Hortonworks Hadoop Data Platform v1.1.0 en el
mes de marzo. Las nuevas características incluyen mejoras para que los desarrolladores
tengan interacción mucho más fácil con las suscripciones de Windows Azure,
permitiéndoles crear clústeres de cómputo de alta performance a través del
Windows Azure Management Portal.
La nueva versión del grupo de SQL Server incluye los
siguientes componentes Apache Hadoop de código abierto y un redistribuible
Microsoft Java Database Connectivity (JDBC) para SQL Server:
- Apache Hadoop, Versión 1.0.3
- Apache Hive, Versión 0.9.0
- Apache Pig, Versión 0.9.3
- Apache Sqoop, Versión 1.4.3
- Apache Oozie, Versión 3.2.0
- Apache H.Catalog, Versión 0.4.1
- Apache Templeton, Versión 0.1.4
- SQL Server JDBC Driver, Version 3.0
- Windows Azure management portal in HDInsight
Los desarrolladores utilizan Windows Azure Management
Portal para especificar el número de nodos de cómputo para un clúster HDInsight
Data Services. Un clúster consiste de un nodo extra-large que tiene un costo de
u$s 0.48 por hora de utilización y uno large un poco más pequeño de u$s 0.24
por hora. De esta forma, un clúster de pequeña escala con cuatro nodos de
cómputo daría un total de u$s 1.44 por hora, lo que equivale a unos u$s 1000
mensuales. El primer clúster Hadoop en Windows Azure en su versión Preview
vendrá constará de tres nodos con una vida útil de 24 horas renovables. Una
actualización posterior incrementará el tiempo de uso a 5 días pero eliminará
la renovación. El costo del ancho de
banda para almacenamiento no se descontará en la última versión del Preview,
pero competirá en precio contra el servicio AWS S3 de Amazon.
Migrar el almacenamiento local HDFS hacia blobs en Windows Azure
La consigna "mover el cómputo a los datos" de
Hadoop requiere el hosting de datos en el sistema de archivos Hadoop
Distributed File System (HDFS). Con Windows Azure, los desarrolladores podrán
trabajar con un almacenamiento de blobs personalizable, el cual proveerá alta
disponibilidad replicando todos los objetos tres veces. La durabilidad se
mejoró y estará disponible la opción de recuperación ante desastres o Disaster
Recovery con replicación a nivel geográfico, replicando las copias por
triplicado a datacenters con Windows Azure en la misma región luego de la
geolocalización inicial. Luego se duplicarán las copias a más de 150 km del
centro de datos principal. Por ejemplo, un blob en Azure alojado en Dublín (una
subregión del oeste europeo) se autoreplicará en Amsterdam, la zona norte de la
región. Actualmente HDFS no incorpora estas características de disponibilidad y
durabilidad.
Al correr HDFS como un sistema de archivos local se
mejora la performance del manejo de blobs en Azure para las tareas de red
MapReduce en el servicio HDInsight de primera generación. El almacenamiento de
Windows Azure se pensó con la idea de separar las máquinas virtuales de cómputo
de aquellas que se usan para almacenamiento con el fin de mejorar los sistemas
con múltiples inquilinos. Microsoft definió la tecnología Flat Network Storage
como de segunda generación, por lo tanto vale mostrar las diferencias entre
ambas generaciones en la siguiente tabla:
Como mencioné anteriormente, las cuentas de Storage
tienen georeplicación por defecto para proveer almacenamiento georedundante,
pero los usuarios finales pueden desactivar esta característica y utilizar
almacenamiento redundante de forma local, lo cual acarrea con sigo una
reducción de costos y una tasa de transferencias mucho más alta. La performance
un blob de almacenamiento con HDInsight en Azure tiene los siguientes puntos
clave:
- El almacenamiento de blobs en Azure provee las mismas características de acceso para lectura que HDFS de Hadoop
- Los blobs de Azure proveen un acceso de escritura más rápido que Hadoop HDFS, permitiendo que los jobs se completen más rápido cuando se escriben datos a disco
Microsoft realizó una comparación de performance de
HDInsight en Azure contra otros productos de la competencia y aseguró lo
siguiente:
Velocidad: Azure es 56% más rápido que Amazon S3 en
escritura y 39% más rápido en lectura de archivos que HP Cloud Object Storage
Disponibilidad: El tiempo de respuesta promedio de Azure
fue 25% más rápido que el segundo mejor tiempo de Amazon S3
Escalabilidad: Amazon S3 varía solo un 0.6% en promedio
en los test de escalamiento, mientras que Microsoft Windows Azure ofrece una
variación de 1,9%. HP y Rackspace, ambos basados en nubes OpenStack, mostraron
una variación de 23,5% y 26,1%, respectivamente, pero la performance se tornó
impredecible a medida que se incrementaba la cantidad de objetos.
Me dejó mas claro el tema, el tema de georeplicación suena muy cool.
ResponderBorrarGracias.