Criar um parse de XML em Python é trivial, especialmente quando se trata de um documento HTML.
Nesse exemplo, criamos uma classe Parser que vai informar quando se abre ou fecha uma tag. Depois que criamos e instanciamos o Parser, alimentamos ele com o método feed com um documento HTML. Esse documento é pego através do urlopen do módulo urllib, que é um stream e portanto usamos o método read para leitura.
from HTMLParser import HTMLParser from urllib import urlopen class Parser(HTMLParser): def handle_starttag(self, tag, attrs): print "abre tag %s" % tag def handle_endtag(self, tag): print "fecha tag %s" % tag url = 'http://www.silveiraneto.net' Parser().feed( urlopen(url).read() ) |
Esse é um exemplo bem legal se você quiser brincar com mineração ou obtenção de dados.
Be First to Comment