use FIB::RSS;

En el post anterior comentava alguns mòduls que ens poden fer la vida més fàcil si volem extreure dades d’una web de forma automàtica. Em vaig oblidar però de mencionar l’extensió del firefox LiveHttpHeaders, sant grial de l’spidering que vaig descobrir gràcies a l’esteve. Si resulta que la pàgina només carrega amb explorer, podeu provar sort amb IEHttpHeaders o Fiddler.

També en el post anterior vaig deixar en suspens les raons que em van portar a mirar-me tots aquests móduls. Doncs bé, saludo des d’aqui a Jordi, que em va picar prou com per fer un feed dels PFCs de la facultat usant els mòduls que vaig explicar, ell ja en sap els motius :)

Nomes cal que apunteu el vostre lector de feeds preferits cap a https://nopcode.org/fib/rss20.xml i sabreu quan, on i qui presenta PFC’s periòdicament a la FIB.

El codi el publicaré d’aqui uns dies, pero abans, podeu probar a generar un feed amb les notícies de la FIB usant el següent template i els móduls que he descrit, aviam com us en sortiu ;)

UPDATE: Que tal aquests scripts ? Podeu pastejar codi a comments si voleu… aqui teniu la meva solució.

my $news_template = << NEWS_FIB;
[% FOREACH record %]
[% ... %]
<b class=titol>[% titol %]<br />[% ... %]<p>[% noticia %]<br /><br />[% ... %]<img src=/imatges/q0.gif/> <a href=[% url %]>
[% END %]
NEWS_FIB

Ah, m’oblidava de dues coses importants:

  • Per generar el feed he fet servir XML::RSS, molt fàcil de fer anar
  • M’he inspirat en un llibre boníssim d’Oreilly sobre el tema: Web Spidering Hacks

Podeu enviar també templates de pàgines que trobeu interessants de fer-ne web spidering… com per exemple telepizza, qui no ha volgut mai encarregar una pizza simplement executant un script en perl ? ;P

Ja posats a demanar… si domineu algun altre llenguatge, m’agradaria que comentessiu quins mòduls useu/usarieu per fer anar tot això.

Happy web spidering !