Skip to content

Planificando y Diseñando el Almacenamiento Corporativo en las AAPP

Jueves, 22 marzo, 2012

¿Qué es el almacenamiento corporativo?

El almacenamiento es una de esas tres variables fundamentales que se manejan en las infraestructuras de todo servicio TI. Las otras dos son, por supuesto, el procesamiento y las comunicaciones. El almacenamiento es esencial en tanto en cuanto contiene la información, nuestra información, la información de la organización a la que pertenecemos. Sin información no hay TI. Por lo tanto el almacenamiento es necesario para contener esa información, de forma que pueda ser procesada y transmitida a los lugares donde debe ser utilizada.

Podremos definir el almacenamiento corporativo como el espacio que se destina a almacenar la información corporativa, la cual es, primariamente los datos relacionados con el funcionamiento del negocio: ficheros en formatos variados (PDF, DOC, Audio, Vídeo, etc.), información estructurada almacenada normalmente en bases de datos relacionales, aunque también a veces en simples tablas Excel, e información no estructurada, que puede estar almacenada en sitios como por ejemplo los buzones de correo electrónico.

Existen ciertos datos que podríamos considerar en principio que no son información corporativa, como por ejemplo los sistemas operativos y aplicaciones que residen en los servidores y en los ordenadores personales (dispositivos móviles incluidos) de la organización. Si lo son o no dependerá de cuánto estén ligados a los datos que manejan, es decir, si son absolutamente necesarios para acceder y procesar la información corporativa, o la información puede accederse desde otros sistemas compatibles. En principio estos datos no los vamos a considerar parte de la información corporativa, aunque hay algunos matices, que son de detalle y no abordaremos aquí.

También vamos a considerar que la información de usuario almacenada en los PC no es parte de la información corporativa per se, en el supuesto de que la organización dispondrá de políticas que evitan que la información de negocio resida en este tipo de dispositivos.

Dada la importancia del almacenamiento, es conveniente que cada organización disponga de su propio Plan o Proyecto de Almacenamiento Corporativo, en el cual, como en todo proyecto TI debe pasar por una fase de análisis, una de diseño, y una de ejecución, procediendo periódicamente a realizar procesos de revisión y adaptación tanto a las necesidades del negocio como a la optimización de los costes y recursos necesarios.

El problema del crecimiento desmesurado

Según estudios de IDC, la tasa de crecimiento anual de toda la información digital generada, capturada y replicada en 2009 fué un 60% superior a la del año anterior. Y se espera que el tamaño de la información en 2020 sea 44 veces la de 2009, alcanzando 35 Zettabytes.

Los motivos de esta explosión de datos son diversos, pero concurrentes: el número de dispositivos digitales que generan información aumenta constantemente, sobre todo los dispositivos móviles, que actualmente ya superan en número a los PC; también se espera una explosión de dispositivos no atendidos inteligentes, los cuales a su vez generan cada vez más información, y en ambos casos información que consiste en muchos ficheros no excesivamente grandes, y con contenidos poco estructurados. Por otro lado los ficheros de audio y vídeo generados por los usuarios son cada vez de mayor tamaño porque se generan y almacenan con mayor calidad; y para terminar, es necesario conservar todo lo existente (¿quién toma la decisión de que algo se puede borrar?), que se añade a lo nuevo.

El enorme crecimiento de toda esta masa de información genera además otros problemas y necesidades, como los sistemas de indexado y búsqueda que nos permitan analizar y encontrar la información deseada (BIG DATA), y las necesidades de protección de la información (privacidad, confidencialidad, autenticidad, etc.)

A estas circunstancias, conocidas desde hace tiempo, se añade un hecho nuevo: los presupuestos disponibles para las unidades de TI son cada vez más ajustados, particularmente en el caso de las Administraciones Públicas. Como consecuencia, si la tasa de crecimiento de la información generada es del 60%, la tasa de crecimiento de los sistemas de almacenamiento es inferior, a pesar de que el precio por TB es constantemente decreciente. Según estimaciones de IDC, en 2020, el 60% de la información generada no podrá almacenarse, pues no existirá espacio de almacenamiento suficiente.

¿Cómo abordar este problema?. Desde luego ya no es posible mantener una política de crecimiento vegetativo del almacenamiento corporativo, aprovisionando el espacio a medida que se vaya necesitando, sino que habrá que establecer un conjunto de políticas que hagan uso de las tecnologías y servicios disponibles para maximizar el espacio disponible para los servicios de almacenamiento y recuperación, al tiempo que minimizamos el coste. Para ello es imperativo diseñar y aplicar nuestro Plan de Almacenamiento Corporativo.

¿De qué estamos hablando?. Dame un ejemplo.

Supongamos el siguiente caso:

Un archivo histórico tiene un conjunto de documentos (unos 10.000) de bastante antiguedad (algunos de más de 100 años) que son consultados con cierta frecuencia para fines de investigación. Cada documento tiene una media de unas 10 páginas, que se componen de texto manuscrito y algunos gráficos. Se pretende digitalizar los documentos, de forma que puedan ser consultados electrónicamente por los investigadores, evitando de este modo su deterioro. También se pretende publicar algunos los documentos en la web, en resolución reducida, en la página del museo histórico de la entidad, así como su venta en la tienda electrónica, en formato de alta calidad, a posibles interesados.

Analicemos el problema en términos de almacenamiento. En primer lugar, estamos hablando de unas 100.000 páginas de información, que han de digitalizarse y almacenarse en modo imagen para su posterior procesamiento.

¿Cuánto espacio ocupará toda esta información?. En primer lugar, las DIRECTRICES PARA PROYECTOS DE DIGITALIZACIÓN del Ministerio de Cultura (2002) recomiendan almacenar los archivos originales en formato TIFF sin compresión, aunque no ofrece orientación sobre la resolución (DPI) a utilizar. En cambio, la Norma Técnica de Interoperabilidad de Digitalización de Documentos indica que la resolución mínima a emplear será de 200 píxeles por pulgada. Sin embargo, en este caso, al tratarse de documentos manuscritos y dibujos a mano alzada, se ha optado, para asegurar la legibilidad y la conservación de los detalles, digitalizar a 300 DPI. El tamaño de una página DIN-A4 digitalizada a 300 DPI y 24 bits por punto es de unos 25 Megabytes.

Tenemos que prever por tanto al menos 100.000 x 25 MB = 2,5 Terabytes de espacio para las imágenes originales. También hay que almacenar las imágenes procesadas, y puesto que los ratio de compresión superan fácilmente 10:1 supondremos que bastará con 250 Gbytes. Y además necesitamos espacio para la base de datos donde catalogar e indexar toda la información. En total, podemos calcular que el espacio aproximado necesario es de unos 3 Tb.

Si almacenamos toda esta información en nuestra SAN corporativa replicada de altas prestaciones, cuyos precios por TB rondan los 10.000 euros, el precio del almacenamiento necesario para este proyecto puede alcanzar los 30.000 euros. ¿Está justificado?. Quizás no. Pero, ¿es necesario usar una calidad de almacenamiento tan alta para toda la información utilizada en este proyecto?. Lo sensato es categorizar la información según sus características y tipo de utilización, y luego utilizar el tipo de almacenamiento apropiado para cada caso.

Así, por ejemplo, una solución podría ser la siguiente:

Información Almacenamiento (TB) Tipo de almacenamiento Coste/TB Coste total
BBDD 0,1 Premium 10.000,00 € 1.000,00 €
Imágenes procesadas 0,25 Standard 2.000,00 € 500,00 €
Imágenes originales 2,5 Low Cost 200,00 € 500,00 €
TOTAL 2.000,00 €

¿Porqué hemos realizado estas elecciones?

  1. La base de datos precisa un sistema de almacenamiento que sea de altas prestaciones (discos FC o discos de estado sólido SSD), no sólo para las funciones propias de utilización y gestión de los expedientes, sino porque la información contenida está enlazada con otros sistemas corporativos a través de Web Services. Además, precisa de alta disponibilidad pues está integrado en el sistema corporativo replicado en un nodo lejano que asegura la continuidad del negocio.
  2. Las imágenes procesadas se acceden regularmente por los usuarios y por varios sistemas enlazados. No obstante, los tiempos de acceso no son críticos, se espera disponer del archivo en cuestión de segundos, por lo que podemos usar discos SATA, más baratos, aunque si precisa redundancia RAID para cubrir posibles averías. No se precisa replicación en vivo ya que la recuperación frente a desastres se realiza mediante restauración de las copias de seguridad.
  3. Las imágenes originales se generan una vez y se almacenan, y se recuperan muy raramente. Los tiempos de acceso admisibles son los de tratamiento manual: se miden en minutos. Esto nos permite acudir a almacenamiento terciario (DVD/cintas DLT) o bien a servicios de almacenamiento en la nube privada, en su caso.

Al realizar este escalado de almacenamiento, basado en la categorización de la información, hemos conseguido pasar de un coste de almacenamiento inicial de 30.000 euros a unos 2.000, es decir, hemos dividido por 15 el coste.

Lógicamente, no es un análisis en profundidad. No hemos entrado en los necesarios recursos de gestión y administración, ni en los costes de mantenimiento. Las interrelaciones con otros sistemas no se han analizado, aunque todo ello sí debería entrar en un estudio de caso real.

Diseñando el Plan de Almacenamiento Corporativo

Así pues, para el diseño del plan seguiremos los siguientes pasos:

  1. Recopilación de la información sobre los diversos tipos de información de que dispone la organización, sus características, su tamaño, su propietario, y sus usuarios.
  2. Categorización de la información en términos de valor para el negocio, evaluando aspectos como el rendimiento, disponibilidad, rendimiento, confidencialidad, siempre en colaboración y de acuerdo con el propietario de la información. Puede resultar de gran ayuda aplicar, donde se pueda, el Esquema Nacional de Seguridad.
  3. Análisis de las alternativas de almacenamiento para cada tipo de información, partiendo siempre de las infraestructuras disponibles y del presupuesto, así como de las prioridades establecidas por el negocio para los diversos sistemas de información y servicios TI.
  4. Diseño del plan, que especificará las soluciones adoptadas para cada tipo, su evolución a lo largo del tiempo, el diseño de los servicios de almacenamiento, de las medidas específicas de seguridad, confidencialidad, disponibilidad, rendimiento, la interoperabilidad interna y externa necesaria para la información (Ficheros de cada tipo, BBDD, webservices, etc.). El diseño debe contemplar también las políticas de copias de seguridad y retención de la información, las políticas de borrado y eliminación, y las medidas necesarias para la cobertura de los Planes de Contingencias y la Continuidad del Servicio.
  5. Implantación del plan por fases (podrían coincidir con anualidades), incluida la contratación o adquisición de infraestructuras (HW y SW) o servicios, la implantación de los mismos, la puesta en servicio, la obtención de metricas para la evaluación del funcionamiento y la resolución de incidencias y problemas que pudieran surgir.
  6. Y por supuesto la Revisión periódica del plan, comparando los resultados esperados con los obtenidos, revisando los requisitos cambiantes del negocio y la evolución de las soluciones de almacenamiento disponibles en el mercado, así como los presupuestos disponibles.

¿Qué nos depara el futuro?

Hemos planteado aquí el desarrollo de un Plan de Almacenamiento Corporativo de corte bastante clásico que debería tener una vigencia aproximada de una legislatura, es decir, unos cuatro años. Sin embargo, existen cuestiones a medio y largo plazo que pueden incidir en nuestro plan, obligándonos a revisarlo o cambiarlo. Entre ellas pueden estar:

  • Evolución de las soluciones tecnológicas: Las necesidades de almacenamiento están produciendo una constante evolución de las soluciones tecnológicas disponibles, muchas de ellas ya ofertadas, como el aprovisionameinto dinámico, la deduplicación on-line, la estratificación automática en función de parámetros configurables, la virtualización en todo o en parte de los sistemas, etc. Es obvio que los diseños de soluciones de almacenamiento de un momento concreto pueden resultar obsoletos poco tiempo después si surgen innovaciones tecnológicas rompedoras, y por ello el Plan debe estar también en fase de contínua adaptación tecnológica.
  • Evolución de los servicios de almacenamiento: como contrapartida o alternativa a las soluciones de almacenamiento autogestionadas, surgen cada vez con más fuerza los servicios de almacenamiento “en la nube”,  bien sean en “nube pública” o en “nube privada”. Con independencia de que estas soluciones tienen todavía una aplicabilidad muy limitada para las necesidades de almacenamiento corporativo en las AAPP, la intensa presión hacia la reducción de costes y del presupuesto hará que estas soluciones cobren cada vez más importancia. Habrá que estudiar su aplicación siempre que sea posible manteniendo los objetivos y requisitos de negocio y sin comprometer las funciones esenciales que deben realizar las AAPP.
  • Modificaciones organizativas, que podrían producir o habilitar iniciativas como una hipotética Concentración de CPD de la AGE: Si en algún momento el Gobierno decide acometer este proyecto, lógicamente el Plan de Almacenamiento debería ocupar un lugar principal, y para su diseño se debería contar con las potenciales unidades u organismos usuarios del mismo.
5 comentarios leave one →
  1. Jueves, 22 marzo, 2012 2:42 pm

    Aunque sea algo de autopublicidad. Leyendo el último punto “Modificaciones organizativas, que podrían producir o habilitar iniciativas como una hipotética Concentración de CPD de la AGE: ” me asalta la reflexión que hice en mi blog.Si resulta que el servicio MetaPosta ya se ofrece a los ciudadanos, ¿por qué no se ofrece un servicio de almacenamiento para las Adminsitraciones Públicas sin necesidad de abordar el proyecto completo del CDP de la AGE?
    http://jagglarian.blogspot.com.es/2012/03/ver-si-llega-antes-el-punto-neutro-de.html
    Total, OpenText o Alfresco ya lo ofrecen …

    • Jueves, 22 marzo, 2012 5:17 pm

      La autopublicidad, si es de la buena, es siempre bien recibida, Joseche 🙂

      No conozco bien el proyecto METAPOSTA ni el servicio, pero en principio parece que es un servicio proporcionado por la empresa privada METAPOSTA S.A. La empresa tiene participación pública, pero no llega al 50%.

      En la página web tampoco hacen referencia a ningún contrato o concesión administrativa

      Así que no parece que sea un servicio público.

      También dice que este servicio tiene “valor probatorio legal”, aunque no explica en qué se basa para ello.

      En cuanto a un servicio de almacenamiento “inter-administraciones” es por supuesto una buena idea en abstracto, pero, ¿del estilo de METAPOSTA, implantado por una empresa privada?. Y si no, ¿quién lo prestaría?. ¿Red.es?. ¿Cuales serían las condiciones legales, técnicas y económicas?

      Y ya para terminar, entiendo que el servicio de Metaposta es un servicio de intermediación de la información, que para mí es esencialmente distinto, si acaso un aspecto marginal del almacenamiento corporativo.

      El almacenamiento corporativo, hoy día, debe estar casi siempre pegado al procesamiento de los datos, so pena de disponer de unas redes de comunicaciones frigolíticas, que serían carísimas, y que a la postre no traería cuenta: las gallinas que entran por las que salen…

  2. Andres Nin Pérez permalink
    Sábado, 24 marzo, 2012 8:17 am

    Maestro,

    Entre las contingencias de futuro que hecho de menos está prever una mayor demanda de uso de la información. No en todos los casos, of course, pero el opendata y la reutilizacion de la información del sector público nos va a presentar exigencias en este sentido. Incluiría por tanto la “evolución de la demanda de uso” como cuarto parámetro de tu lista.

    • Domingo, 25 marzo, 2012 10:05 am

      Excelente propuesta, Andres. De hecho, en el momento en que una información se declare publica, su sitio adecuado sera también la nube pública, con las medidas adecuadas para garantizar su autenticidad e integridad.

      Un aspecto que también cobrara mayor importancia sera los mecanismos de localización y acceso a la información, ya que el volumen de los datos complica y ralentiza la indexacion y los sistemas de búsqueda. Seguramente tendremos que acostumbrarnos a una localización imprecisa o aproximada.

      También es importante contemplar los mecanismos de “memoria histórica”, es decir, la información que existió pero ya no existe. Tanto en sentido afirmativo como en sentido negativo, es decir, el “derecho al olvido”.

      Son efectivamente cuestiones periféricas pero que habrá que contemplar.

Trackbacks

  1. Bitacoras.com

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: