Yahoo! despliega la aplicación Hadoop más grande
Apache Hadoop es una implementación opensource del algoritmo mapreduce creado en Google para cloud computing. Hace un tiempo que Yahoo! contrató a los creadores del proyecto y adoptó este framework y ahora han anunciado la publicación en produccion de su nueva aplicación para búquedas web basado en Hadoop, llamada Yahoo! WebMap Search y que es la aplicación encargada de indexar un sitio encontrado por el crawler del buscador. Su tarea consiste en crear una base de datos con la información de cada sitio web encontrado por el crawler y dejarla lista para ser usada en las búsquedas en tan popular sitio.
Esta aplicación es la más grande en ambientes productivos de Hadoop, un vistazo a algunas estadísticas les darán una idea de cuan grande es:
- Está desplegada en más de 10 000 clusters Linux.
- Número de enlaces entre páginas del índice: 1 trillón.
- Tamaño del output: más de 300 TB, comprimidos.
- Número de cores usados para ejecutar una sola tarea MapReduce: más de 10 000
- Espacio en disco usado por la aplicación: más de 5 PT
Eric Baldeschwieler, Senior Director de Grid Computing de la empresa, ha afirmado que el uso de Hadoop les ha permitido realizar la misma tarea que en el sistema anterior, en el mismo cluster pero en un 66% de tiempo menos, además de simplificar la administración de la aplicación y permitirles escalar fácilmente al añadir más clusters.
Puedes ver una entrevista al manager del proyecto en los enlaces de la noticia.
Reader Comments