Skip to content

Manipulando HTML com Python

Criar um parse de XML em Python é trivial, especialmente quando se trata de um documento HTML.

Nesse exemplo, criamos uma classe Parser que vai informar quando se abre ou fecha uma tag. Depois que criamos e instanciamos o Parser, alimentamos ele com o método feed com um documento HTML. Esse documento é pego através do urlopen do módulo urllib, que é um stream e portanto usamos o método read para leitura.

from HTMLParser import HTMLParser
from urllib import urlopen

class Parser(HTMLParser):
   def handle_starttag(self, tag, attrs):
      print "abre tag %s" % tag
   def handle_endtag(self, tag):
      print "fecha tag %s" % tag

url = 'http://www.silveiraneto.net'
Parser().feed( urlopen(url).read() )

Esse é um exemplo bem legal se você quiser brincar com mineração ou obtenção de dados.

Published inUncategorized

Be First to Comment

Leave a Reply

Your email address will not be published. Required fields are marked *