domingo
jul082012
jARVEST, framework para web harvesting/scraping
jARVEST (Java web harvesting library) es un framework libre para web scraping 100% Java. Incluye una DSL basada en JRuby para implementar de forma fácil robots sencillos o complejos.
Las características principales son:
- 100% Java.
- Soporte para consultas XPath. El HTML se limpia y convierte a XHTML antes de hacer la búsqueda.
- Soporte para POST y cookie tracking, lo que permite hacer, por ejemplo, login en los sitios accedidos.
- Ensamblaje de robots complejos. Los robots en jARVEST son un composite de piezas primitivas que se pueden combinar en serie o paralelo.
- Bucles. Permite la creación fácil de robots que iteran a través de resultados de páginas.
- Software libre (licencia LGPL).
- Interfaz en línea de comandos (útil para scripts bash) y API.
Nota: noticia enviada por lipido
Reader Comments