martes, 11 de noviembre de 2008

Ensayo No.10

“Se quema” la supercomputadora de la UNAM.
A menos de cuatro meses de inaugurada, la supercomputadora Kan Balam “se quemó” y sólo funciona el 25 por ciento de la capacidad originalmente instalada, denuncian funcionarios, trabajadores, académicos y usuarios de la DGSCA. La máxima casa de estudios del país ha tenido que desconectar la máquina por la que erogó más de 3 millones de dólares en una compra a HP que por lo menos debería de ser investigada.
Zósimo Camacho / Rubén Darío Betancourt, fotos


La “máquina repatriadora de cerebros” –como la Universidad Nacional Autónoma de México (UNAM) denominó a su más reciente supercomputadora– “se quemó”. A cuatro meses de inaugurada, el 75 por ciento de la máquina no funciona y desde el pasado 26 de mayo permanece apagada. Trabajadores, a marchas forzadas, instalan un “sistema de enfriamiento” para acondicionar el “cuarto frío” que la alberga y las autoridades puedan reiniciarla en la segunda mitad de junio. Funcionarios, académicos, empleados y usuarios de la Dirección General de Servicios de Cómputo Académico (DGSCA) –quienes se han identificado plenamente pero solicitan mantenerse en el anonimato por temor a represalias– detallan que el equipo comprado a Hewlett Packard (HP) nunca funcionó a más del 50 por ciento de su capacidad anunciada, adoleció siempre de fallas lógicas (que lo mantenían “pasmado” hasta por 15 días) e incluso, al menos una vez, se incendió. El 17 de febrero, sólo un mes y un día después de haber sido puesta en marcha por el rector de la UNAM, Juan Ramón de la Fuente, la supercomputadora Kan Balam –llamada así oficialmente en honor al gobernante maya que vivió de 635 a 702 y mandó construir gran parte de los edificios de Palenque– se sobrecalentó e inició un incendio que fue sofocado por el área de vigilancia de la DGSCA y el cuerpo de bomberos de la UNAM.

El percance ocurrió durante la madrugada. Ante el incendio, los vigilantes llamaron a los responsables directos de la supercomputadora, la arquitecta Genevieve Lucet, directora de Cómputo para la Investigación, y el maestro en Ciencias José Luis Gordillo, jefe del departamento de Supercómputo. Los funcionarios nunca contestaron el teléfono y los trabajadores decidieron cortar la corriente eléctrica, lo que, a decir de especialistas, resulta contraproducente para los sistemas de cómputo. “Los trabajadores cortaron de tajo la corriente eléctrica para que no se dañara más el equipo”, explican las fuentes consultadas. Agregan que, con ello, el equipo estuvo “a punto de quemarse completamente”. Desde entonces quedaron inservibles más de 100 nodos (o 400 procesadores) y el 50 por ciento de la máquina se dañó. No se repararon las averías y sólo se cubrieron con pintura los rastros del incendio en el techo del “cuarto frío” que la alberga. Una nueva “falla lógica” ocurrida durante la primera semana de mayo afectó los discos duros y dejó sin funcionar otra cuarta parte de la supercomputadora. Infructuosamente, matemáticos, biólogos, ingenieros, físicos y, entre muchos otros científicos, vulcanólogos, solicitan el equipo Kan Balam sin éxito. Las autoridades universitarias niegan el servicio aduciendo “alta demanda”. Los solicitantes son enviados a una lista de espera o a las otras supercomputadoras compradas con anterioridad por la UNAM y que se encuentran saturadas, como la Alpha Server SC. Los científicos terminan por desistir de realizar su proceso computacional. “Quienes solicitan Kan Balam son apenas unas decenas de personas; por ello es ilógico que se les esté negando el servicio cuando supuestamente podrían estar trabajando al mismo tiempo en ella hasta 350 científicos”, dicen los denunciantes.


Fraude contra la UNAM
Los especialistas exponen lo que consideran un “fraude contra la UNAM”, en el que estarían involucradas tanto las autoridades universitarias encargadas de la compra como la compañía HP, que vendió el equipo. “La máquina nunca trabajó siquiera al 60 por ciento. Siempre se mantuvo entre el 20 y el 30 por ciento. Y cuando alcanzó a trabajar al 50 por ciento, se sobrecalentó y se incendió".Agregan que a los defectos de configuración de la Kan Balam, se sumó el inadecuado espacio destinado para albergarla. Se trata de un antiguo sótano de aproximadamente 120 metros cuadrados donde se encuentran 16 muebles que contienen mil 368 procesadores AMD de 2.4 Gigahertz; 768 discos duros equivalentes a 160 Terabytes de memoria en disco duro y 3 mil 16 Gigabytes de memoria RAM. Además de dos muebles de switches para interconectar la máquina. “Cualquier ingeniero de hardware sabe que se tienen que calcular las áreas en donde se instalarán los equipos, el tipo de ventilación, la corriente, potencia y los aparatos que la soportan, además de las áreas libres para el trabajo de mantenimiento.”

A decir de las fuentes consultadas, el sistema de enfriamiento de la supercomputadora no tiene la capacidad para mantener el ambiente a una temperatura inferior a los 18 grados centígrados. Por ello, agregan, se sobrecalienta aunque trabaje al 20 por ciento de su capacidad. De hecho, el incendio del 17 de febrero fue provocado por el sobrecalentamiento al que llegó cuando alcanzó a trabajar al 50 por ciento. “La máquina ya había operado algunas semanas con varias fallas de hardware. Y a pesar de que personal de la DGSCA reportó a las autoridades que la Kan Balam estaba trabajando con temperaturas altas, las advertencias no fueron atendidas ni por el jefe de Supercómputo, José Luis Gordillo, ni por la directora de Cómputo para la Investigación, Genevieve Lucet.” A los especialistas les resulta extraño que el método de adquisición de esta supercomputadora, cuyos nombres técnicos son clúster o granja de servidores, haya sido una subasta descendente, donde la ganadora HP dejó atrás a las empresas IBM y SUN.

Informan que, meses antes, HP había “donado” un equipo para cálculo científico con procesadores Itanium 2. Reconocen que no es la primera vez que la UNAM compra a HP un equipo de cómputo. “Por supuesto que no es la primera. Casi siempre gana en los proyectos en los que está involucrado directamente el director (de la DGSCA) Alejandro Pisanty”. Les sorprende que hasta el momento, y luego de meses de fallas, ningún técnico de HP se haya presentado a revisar la supercomputadora, cuando “toda licitación marca garantía de partes, mantenimiento por un número determinado de años, cartas legales, condiciones de entrega y calendario de actividades desde la mudanza del equipo, instalación y capacitación, hasta condiciones de estabilidad y reproducción de pruebas técnicas”. Señalan que HP no debió haber celebrado el contrato si la UNAM no daba garantías de destinar un inmueble adecuado para la supercomputadora. “Desde ahí, vemos que se trató de un acuerdo turbio, en el que, por decir lo menos, se actuó irresponsablemente. Lo malo es que se jugó con más de 30 millones de pesos que provienen del erario público”.

Compra “a ciegas”
En febrero de 2006 la Cámara de Diputados determinó asignar un presupuesto extraordinario a la UNAM y al Instituto Politécnico Nacional. La Universidad decidió utilizar de ese presupuesto 30 millones de pesos para “fortalecer la infraestructura de supercómputo”. La Universidad anunció con una intensa campaña en los medios de comunicación la puesta en marcha de Kan Balam el 16 de enero de 2007, cuatro meses después de haber sido recibida en las instalaciones de la DGSCA. Entonces, la UNAM destacó que la nueva supercomputadora permitía a los científicos mexicanos “estar a la altura de los mejores del mundo” y que la máquina era una auténtica “repatriadora de cerebros”. En el discurso de inauguración, el rector Juan Ramón de la Fuente dijo que “con un adelanto como ése se avanza en generar conciencia social respecto a la importancia de la ciencia, la tecnología y la investigación como palancas ineludibles del desarrollo”.

Por su parte, el titular de la DGSCA, Alejandro Pisanty, consideró que “con esta herramienta se atiende la necesidad de la comunidad universitaria y nacional al actualizar las capacidades de cálculo que requiere para participar en el ámbito global del quehacer científico de manera competitiva y equilibrada”. En el boletín realizado por la Dirección de Comunicación Social de la UNAM se señaló que la Kan Balam ocupaba el lugar 126 dentro de la clasificación de las 500 supercomputadoras más rápidas del mundo y el 28 entre las instaladas en universidades. Además, se dijo que tenía la capacidad de realizar 7 billones de operaciones aritméticas por segundo. Sin embargo, “la UNAM dio por hecho todas las aseveraciones sin siquiera probar el equipo. Cuando se compra una máquina de este tipo se hacen pruebas rigurosas que llevan meses. Y aquí sólo se compró. No sabemos por qué se aceptó en tales condiciones”.

Los universitarios señalan que HP pospuso hasta en tres ocasiones la entrega de la supercomputadora “y se clasificó como la máquina 126 de entre las 500 más veloces del mundo sin haber corrido nunca la prueba que lo determina. Y una vez que fue instalada nunca se pudo estabilizar para correr la prueba de todos los procesadores con los que cuenta”. Incluso, el día en que la DGSCA –representada por Genevieve Lucet y José Luis Gorillo– aceptó y firmó la recepción del equipo comprado a HP, la máquina “nuevamente se colapsó; y de todas maneras ellos firmaron”. Esto ocurrió en los primeros días de febrero, 15 días después de la inauguración oficial hecha por el rector Juan Ramón de la Fuente. Además de Pisanty, Lucet y Gordillo, la responsabilidad de la adquisición de la máquina también recayó en el Comité Académico de Supercómputo, el cual, según la página electrónica de la DGSCA, “tiene como funciones primordiales dar seguimiento a las actividades relacionadas al supercómputo, dictar políticas y emitir recomendaciones sobre la adquisición de nuevos sistemas de cómputo numérico intensivo. Asimismo es el organismo encargado de valorar y aprobar la calidad académica de los trabajos que solicitan el uso de recursos de supercómputo”.

Al momento de la adquisición de Kan Balam, el Comité estaba integrado por el doctor Carlos Bunge Molina, del Instituto de Física; el doctor Emilio Orgaz Baqué, de la Facultad de Química; el doctor Lukas Nellen, del Instituto de Ciencias Nucleares; el doctor Francisco Sánchez Sesma, del Instituto de Ingeniería; el doctor William Henry Lee Alardin, del Instituto de Astronomía; el físico Jesús Cruz Guzmán de la Facultad de Estudios Superiores Cuautitlán, y el doctor Ariel Valladares, del Instituto de Investigación en Materiales. Según las fuentes consultadas, el doctor Valladares fue obligado a renunciar al Consejo una vez que se inició el proceso de adquisición de la supercomputadora. Previamente se habían separado del cargo los doctores Enrique Vázquez Samadeni y Jaime Lagunes, del Instituto de Astronomía con sede en Morelia y del Instituto de Química, respectivamente.

La página electrónica donde se informaba de la situación de Kan Balam fue retirada de la internet. El último reporte en línea tuvo lugar el 23 de abril. El informe gráfico, titulado “Kan Balam. Distribución térmica”, cuya dirección electrónica es htp://132.248.202.196:2030/cgi-bin/kanbalam-temp.cgi, a decir de los especialistas, demuestra que la máquina laboraba en ese momento a un 50 por ciento de su capacidad, antes de que otro cuarto de capacidad se dañara. Según los académicos, trabajadores y funcionarios, las autoridades universitarias han iniciado “una cacería de brujas” para identificar a quien denuncia lo que ocurre al interior de la DGSCA. “Las autoridades pueden decir a los medios que está todo normal y que no pasa nada; pero nosotros nos damos cuenta, no nos engañan. Y aunque digan que trabaja al 90 o ciento por ciento, no lo demuestran. Por ello, es necesario un peritaje independiente, que podría realizarlo la Secretaría de la Función Pública, para que se informe de la verdadera la situación en la que se encuentra parte del patrimonio de la UNAM y del país”, señala uno de los científicos denunciantes. Se solicitó a la UNAM copia de los contratos celebrados entre la Universidad y HP y de los reportes de evaluación y estatus de la supercomputadora. Hasta el cierre de edición, la Universidad no había ofrecido ninguna respuesta.


Son infundios: UNAM
Alejandro Pisanty, titular de la Dirección General de Servicios de Cómputo Académico de la UNAM, confirma que la supercomputadora Kan Balam se encuentra apagada y que en el “cuarto frío” que la alberga se instala un nuevo “sistema de enfriamiento” que, a decir del funcionario, tendrá un costo de un millón y medio de pesos; también reconoce que la máquina no ha trabajado al ciento por ciento. Sin embargo, señala que “todo está dentro de lo normal”, pues Kan Balam no ha sido exigida como para que trabaje a toda su capacidad. Agrega que la instalación de las dos nuevas máquinas enfriadoras estaba prevista desde el año pasado, pero no se había realizado por falta de recursos. Enfáticamente dice que nunca estuvo en riesgo el equipo. Aduce que la computadora se apagó, por “pecar de prudentes”, mientras se instala el nuevo sistema de enfriamiento. Sobre las denuncias de un incendio en el sótano en el que se encuentra Kan Balam el 17 de febrero, dice que son mentiras; pero reconoce que “a mediados” de ese mes “nos dio un susto el sistema de enfriamiento”, al apagarse una de las máquinas y propiciar que la temperatura se elevara. La máxima autoridad en materia de cómputo en la UNAM sale al paso de las denuncias que señalan a la más reciente supercomputadora adquirida por la Universidad como “un fiasco”. Luego del visible nerviosismo del jefe del Departamento de Supercómputo, José Luis Gordillo, y de la directora de Cómputo para la Investigación, Genevieve Lucet, ante las preguntas acerca de la situación en la que se encuentra Kan Balam, Pisanty encabeza la entrevista con Contralínea y rechaza los “infundios”.
—Hay denuncias que señalan que este equipo de supercómputo nunca ha podido estabilizarse ni ha podido trabajar más allá del 50 por ciento. Incluso se habla de un incendio el 17 de febrero.
—Nada de eso es cierto. Me llama la atención el que, incluso, alguien pueda manejar esto. Este equipo está a la vista, es importante. Es el equipo disponible de este tipo más grande de América Latina. Es competitivo y nos vuelve competitivos. Está bajo la mirada de todo mundo.
El doctor en Ciencias Químicas –quien es el director de la DGSCA desde 1997– dice que aunque se planeó instalar el doble de la capacidad del sistema de enfriamiento actual, el año pasado “no tuvimos el presupuesto”. “Nosotros decidimos operar el equipo, empezando ya el tiempo de calores, con una parte nada más de la capacidad de proceso para tener un colchón en el enfriamiento, para no estar siempre al ciento por ciento. Tenemos dos manejadoras de aire. En este momento estamos terminando la adquisición y vamos a empezar las instalación de otras dos. Vamos tener capacidad de sobra. “Así, si alguna de ellas la tenemos que parar por mantenimiento, como debe de ser periódicamente, además de las posibilidades de fallas, siempre estará la posibilidad de apagar una enfriadora completa y repartir la carga entre las otras sin forzar ninguna.” Pisanty señala que, por precaución, no se ha exigido a la Kan Balam que trabaje a toda su capacidad. A decir del funcionario, es mejor que a la supercomputadora no se le exija que trabaje al ciento por ciento mientras no se cuente con capacidad de enfriamiento de sobra.
“Nosotros decidimos no forzar el sistema, no obligar a la máquina a estar trabajando con un enfriamiento límite. Entonces hemos estado manteniendo en stand by una parte de los procesadores. No son siempre los mismos. Esta máquina tiene mil 368 procesadores. Está trabajando entre 60 o 70 por ciento de su capacidad. Es una medida de prudencia. Toda la máquina puede funcionar.”
Sobre el incendio que presuntamente ocurrió el 17 de febrero, Pisanty señala que sólo “nos dio un susto una de las enfriadoras. Una de las dos enfriadoras se paró un ratito y la temperatura de cuarto subió. Nosotros inmediatamente detuvimos la operación del equipo. Las temperaturas subieron pero se mantuvieron muy dentro de los márgenes. Nosotros apagamos la computadora mucho antes de que llegaran a las temperaturas a las que se apagan los procesadores.
—¿Ha habido otro “susto”?
—En enfriamiento no. Hay, como en toda computadora chica o grande, ratos en el que algún componente del software se para, se detiene. En estas computadoras grandes, con componentes como el sistema de archivos, a veces dan alguna guerra; algunos de los sistemas de cola de repente se saturan sus memorias y si es de cierto tamaño el incremento que lo saturó, se paran, y pues hay que meter mano.
—¿Y esto es normal?
—Absolutamente normal. Mientras más grande y complejo es el equipo, con tantas maneras de utilizarlo, pues más frecuente. Por eso hay un departamento de supercómputo con experiencia.
—¿HP ha estado en contacto con ustedes? ¿Ellos han estado revisando el equipo?
—Constantemente. Como el equipo está en garantía, es interés de las dos partes estar encima de que se mantenga operando. A HP le interesa que no haya una reclamación y a nosotros nos interesa que funcione. Han cumplido muy bien.
—¿Esta instalación del sistema de enfriamiento va a implicar algo para la supercomputadora?
—Va a implicar una mejora muy importante. Vamos a poderla operar completa, con mucho mayor confianza; vamos a poder dormir más horas seguidas sabiendo que hay equipo de sobra para responder. Podríamos mantener la operación del equipo mientras hacemos la instalación, pero nos parece arriesgado. Hay que mover muchas cosas muy pesadas. Las manejadoras pesan como media tonelada cada una. Y aunque lo hace una compañía súper experta que ha instalado cientos de equipos pesados, preferimos pecar de prudentes. Entonces cuando decidamos iniciar esta operación, de la cual están prevenidos los usuarios y están de acuerdo, sí vamos a hacer una suspensión temporal de servicio. Vamos a aprovechar para reemplazar algunos de estos componentes de garantía que se detecta que conviene reemplazar. Pero son cualquier cosa, que son uno o dos discos.
—¿Cuánto tiempo va a durar esta instalación?
—Alrededor de dos semanas. La necesidad de interrumpir la operación es de unos 10 días. Una sacudida con los discos encendidos no la necesito. Una salpicada de agua o de polvo no la necesito. Además, apagar y encender un equipo de este tipo es mejor hacerlo con prudencia. Lo vamos a aislar con una especie de cuartito de madera y plástico.
—¿Cuánto costará el sistema de instalación?
—Espérame… Se me cruza el dato… Como millón y medio, que es un costo razonable. Hay números que impresionan, pero hay que pensar que son inversiones de largo plazo que están protegiendo un equipo de 30 millones de pesos.



Fecha de publicación: Junio 1a quincena de 2007 Año 5 No. 80

No hay comentarios: