12.20.06

use FIB::RSS;

Posted in inet, university, unix at 4:01 pm by brainstorm

En el post anterior comentava alguns mòduls que ens poden fer la vida més fàcil si volem extreure dades d’una web de forma automàtica. Em vaig oblidar però de mencionar l’extensió del firefox LiveHttpHeaders, sant grial de l’spidering que vaig descobrir gràcies a l’esteve. Si resulta que la pàgina només carrega amb explorer, podeu provar sort amb IEHttpHeaders o Fiddler.

També en el post anterior vaig deixar en suspens les raons que em van portar a mirar-me tots aquests móduls. Doncs bé, saludo des d’aqui a Jordi, que em va picar prou com per fer un feed dels PFCs de la facultat usant els mòduls que vaig explicar, ell ja en sap els motius ;)

Nomes cal que apunteu el vostre lector de feeds preferits cap a http://nopcode.org/fib/rss20.xml i sabreu quan, on i qui presenta PFC’s periòdicament a la FIB.

El codi el publicaré d’aqui uns dies, pero abans, podeu probar a generar un feed amb les notícies de la FIB usant el següent template i els móduls que he descrit, aviam com us en sortiu ;-)

UPDATE: Que tal aquests scripts ? Podeu pastejar codi a comments si voleu… aqui teniu la meva solució.

my $news_template = << NEWS_FIB;
[% FOREACH record %]
[% ... %]
<b class=titol>[% titol %]<br />[% ... %]<p>[% noticia %]<br /><br />[% ... %]<img src=/imatges/q0.gif/> <a href=[% url %]>
[% END %]
NEWS_FIB

Ah, m’oblidava de dues coses importants:

  • Per generar el feed he fet servir XML::RSS, molt fàcil de fer anar
  • M’he inspirat en un llibre boníssim d’Oreilly sobre el tema: Web Spidering Hacks

Podeu enviar també templates de pàgines que trobeu interessants de fer-ne web spidering… com per exemple telepizza, qui no ha volgut mai encarregar una pizza simplement executant un script en perl ? ;P

Ja posats a demanar… si domineu algun altre llenguatge, m’agradaria que comentessiu quins mòduls useu/usarieu per fer anar tot això.

Happy web spidering !

2 Comments »

  1. Miguel Ros said,

    December 21, 2006 at 10:35 am

    Buenas! yo para la FIB hice en su día un script en PHP a pelo para extraer los avisos de las asignaturas del racó, costó lo suyo…
    A ver si tengo tiempo y lo intento hacer con perl y los módulos que indicas que seguramente será muchísimo más corto.
    Buen blog :)

  2. Jordi said,

    January 19, 2007 at 11:33 am

    Mmmm T’odio :-D

    M’acabo de suscriure des de l’ordinador del treball :-P

Leave a Comment