Manipulando HTML com Python

Criar um parse de XML em Python é trivial, especialmente quando se trata de um documento HTML.

Nesse exemplo, criamos uma classe Parser que vai informar quando se abre ou fecha uma tag. Depois que criamos e instanciamos o Parser, alimentamos ele com o método feed com um documento HTML. Esse documento é pego através do urlopen do módulo urllib, que é um stream e portanto usamos o método read para leitura.

from HTMLParser import HTMLParser
from urllib import urlopen
 
class Parser(HTMLParser):
   def handle_starttag(self, tag, attrs):
      print "abre tag %s" % tag
   def handle_endtag(self, tag):
      print "fecha tag %s" % tag
 
url = 'http://www.silveiraneto.net'
Parser().feed( urlopen(url).read() )

Esse é um exemplo bem legal se você quiser brincar com mineração ou obtenção de dados.

Leave a Comment


NOTE - You can use these HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre lang="" line="" escaped="" highlight="">