
El siguiente articulo es una opinión personal , para empresas con mas de 300 empleados con pc/mac en su puesto de trabajo.
Dentro de mi "osbsesion" de realizar backups y guardar la información de un modo eficiente y pragmático , estoy viendo que muchas empresas no usan la duplicación de datos,pues desafortunadamente, es una cultura que en nuestro país no estamos aplicando , mientras que en otros países ya ni se plantean no disponer de esta tecnología que posee entre otras cosas un ROI aplastante
En este blog podréis ver algún producto que lo permite como el producto AVAMAR de EMC.
Pero, mas allá de la dedupliación de datos, me temo que muchas empresas se "frenan" al ver los precios de los diversos productos, probablemente por que falta tiempo para evaluarlo y reflexionar o por que creen que carecen de presupuesto para montarlo,pues, en los tiempos que corren muchos se están limitando simplemente a realizar "rebajas" como por ejemplo reducciones de las cuotas de correo , copiando ficheros de tamaños mínimos o realizando cuotas en servidores de ficheros con el fin de reducir la ventana y el tamaño del backup
Esa practicas suponen una "involución" para las empresas , dado que finalmente suceden cosas como las compras de discos duros que realizan los diferentes departamentos para hacerse sus backups , el incremento de llamadas al heldpesk indicando que no tenemos cuota de nuestro correo o de nuestra unidad de red , el trabajo constante del departamento de TI para que la ventana de backup se pueda realizar,en definitiva la merma de los servicios de la información de los cuales muchas empresas dependen.
Probablemente decimos muchas veces -"envíamelo a la cuenta de GMAIL que allí si que me cabe....." (Gmail usa deduplicacion), amen de oír también : se ha marchado de la empresa "Fulanito de Tal" ¿se va a llevar consigo información? , ¿borró los datos antes de irse ? ,¿alguien sabe realmente los datos que disponía ?
Desgraciadamente he sido testigo de algunas empresas que no se preocupan por la custodia de sus datos pues no han tenido problemas nunca , hasta que ocurre algún desastre que en función del tipo de empresa,puede suponer incluso el cierre de la misma u ocasionar perdidas que supondrán esfuerzos económicos elevados que arrastrarán durante tiempo.
Si miramos solo el coste de los tipos de deduplicacion , ya sea en origen , en destino o con hardware que puede llegar a realizarlo por si mismo , probablemente veamos que la solución no es económica, ¿pero estamos seguros?
Cuantas veces tenemos el mismo dato repetido en los servidores?
Ficheros repetidos por usuarios
Ficheros repetidos por los propios servidores
Raids 1,5,6, etc.. de discos para repetir la paridad información. (de media el 33% de los HDDS lo perdemos)
Backups de estos discos en cintas u otros discos.
Externalizacion de los backups
Realizad esta prueba:
Si miramos nuestro correo en la parte INBOX y sacamos todos los adjuntos en una carpeta y tras ello vamos a los enviados y sacamos también todos los adjuntos a otra carpeta y las comparamos , que os queréis jugar a que tenéis como mínimo el 50 % "repe"?
Ahora pensad en :
1- si esto me pasa a mi , a mis 1000 compañeros de la empresa también les pasara?
2- entonces... los backups del correo pueden tener también duplicidad ( en función del tipo de servidor: Notes - Msoft - Kerio - MrDaemon - Zymbra - Postfix ... os puede ocurrir...)
3- y si miramos en mi carpeta de red? , podemos tener duplicidad de lo que tenemos en el correo y lo que esta en la carpeta ?
4- Ademas, si miramos todos mis documentos de trabajo podremos ver que tan solo el 20 % de ficheros los uso dentro de los 3 últimos meses y el resto ya ni me acuerdo ..pero me lo guardo por si acaso ( probad con treesize por ejemplo) , ¿ esto les pasara al resto de los trabajadores?
5-¿ Y si comparamos el INBOX de por ejemplo el departamento de RRHH entre todos los miembros de ese departamento? tendrán entre ellos documentos iguales o muy parecidos ?
6- Y las bases de datos que tenemos en los servidores ? a caso cambian todas a la vez todos los dias? o también les pasa algo parecido ?
7- Si tenemos Desktops virtuales de Vmware sin usar linked clones , cuantos XP tengo "repes"?
Esto nos lleva a unas reflexiones:
1-Sabemos ya! que gastamos una fortuna en sistemas de backup y almacenamiento donde tenemos muchisimas repeticiones y para mas inri las copiamos cada día , por ello hacemos incrementales , diferenciales o comprimiendo al máximo , pero seamos francos , como un dia la Cinta xxxx que contenía el full backup de referencia de los incrementales se casque ..
2-No tenemos la capacidad de examinar la repetición de datos de 1000 discos duros de los pc's de la empresa para mirar dato a dato qué está repetido.
3-Aun que llegáramos a disponer de toda esa información , llegaríamos a la conclusión de: vale y ahora que narices hacemos , nos sentamos con cada trabajador y le explicamos como debe trabajar ? , montamos una "megamacro-aplicacion-multiplataforma" que rastree todos los datos y los detecte y corrija automáticamente ?
Difícil no ?
Bien pues esto es lo que REMEDIA la deduplicacion , como no es coherente hacer el trabajo tedioso de mirar Servidor a Servidor o usuario a usuario e irremediablemente la información solo va a tender a crecer debemos cambiar el chip de la manera de afrontar el reto.--> cambiar la tecnica de hacer backups y guardar los datos.
Os dejo un link de EMC e IDC que explica por encima todo esto de la duplicación comentando alguno de sus productos.
Por mi parte ya he probado dos soluciones, una de ellas por software - AVAMAR (también disponible en Hardware) y la otra es sobre Hardware mediante VTL'S deduplicadoras con QUANTUM modelos 5500i y 7500i estas ultimas están ofreciendo un factor de deduplicacion entre un 4 y un 9 al realizar copias de datos heterogéneos (backups de bbdd,files,de diferentes padres y madres) , o lo que es lo mismo multiplican su capacidad entre 4 y 9
http://spain.emc.com/collateral/analyst-reports/idc-20090519-data-deduplication.pdf
Recordad que:
El backup no es un proyecto que inicie y termine , siempre deberiamos hacer backups pero lo mas importante es hacer también restores SIEMPRE, ES SIEMPRE.
El backup es un medio compartido , es el destino final de los datos de servidores y de usuarios, alberga información pequeña ,mediana y grande,de varios tipos de servidores muy diferentes y que ademas hace los trabajos programados ( generalmente nocturnos) y que necesita de una a mas personas llamadas OPERADOR DE BACKUP que en muchiisimas empresas simplemente NO EXISTE - NOT FOUND.