14 Web Scraping com BeautifulSoup

De colecionador de figurinhas para coletor de dados: extraindo informações da web!

14.1 O que você vai aprender neste capítulo?

O que é Web Scraping e quando usar essa técnica
HTML básico: entendendo a estrutura de páginas web (tags, classes, IDs)
BeautifulSoup: como usar a biblioteca para fazer parsing de HTML
Seletores: como encontrar elementos específicos na página
requests + BeautifulSoup: combinando requisições HTTP com parsing
Exemplos práticos: extrair títulos, preços, links e dados estruturados
Ética e legalidade: boas práticas e responsabilidade no scraping
Projetos reais: criar sistemas de coleta de dados da web

🎓 Vindo do Capítulo 13? Perfeito! Agora que você sabe criar APIs, vamos extrair dados de páginas web!

🎯 Meta: Ao final deste capítulo, você vai conseguir extrair dados de páginas web, processar HTML e criar sistemas de coleta de informações da internet.

⚠️ Por que isso importa: Web scraping é uma ferramenta poderosa! Use com responsabilidade, respeitando os termos de uso dos sites e implementando delays entre requisições.

14.2 De Colecionador de Figurinhas para Coletor de Dados

14.2.1 Analogia Perfeita: Colecionador de Figurinhas

Imagine que você é um colecionador de figurinhas e quer completar seu álbum:

Álbum (Site web): Onde estão todas as figurinhas organizadas
Figurinhas (Dados): As informações que você quer coletar
Colecionador (Seu código): Você que vai extrair as figurinhas
Tesoura (BeautifulSoup): Ferramenta para “recortar” as figurinhas
Cola (Salvar dados): Como você organiza as figurinhas coletadas

Em programação, funciona assim:

Site web: Página com dados organizados em HTML
Dados: Informações que você quer extrair (títulos, preços, links)
Seu código Python: Programa que vai coletar os dados
BeautifulSoup: Biblioteca que “recorta” os dados do HTML
Arquivo/banco: Onde você salva os dados coletados

14.2.2 O que é Web Scraping?

Web Scraping é o processo de extrair dados automaticamente de páginas web.

É como ser um colecionador digital que:

📖 Lê páginas web automaticamente
✂️ Recorta as informações que precisa
📁 Organiza os dados coletados
💾 Salva em arquivos ou bancos de dados

14.2.3 Quando usar Web Scraping?

📊 Análise de preços: Comparar preços de produtos
📰 Coleta de notícias: Extrair manchetes e artigos
📈 Dados financeiros: Cotações de ações e moedas
🏠 Imóveis: Preços e características de casas
🎬 Filmes: Informações de filmes e séries
📚 Livros: Dados de livros e autores

14.2.4 Exemplo prático

Sem scraping (problema):

Você precisa acessar 100 sites manualmente
Copiar e colar informações uma por uma
Organizar tudo em planilhas
Atualizar dados regularmente

Com scraping (solução):

Seu código acessa os sites automaticamente
Extrai todas as informações de uma vez
Organiza os dados automaticamente
Atualiza quando você quiser

💡 Exemplo: Sites como Google, Amazon e Netflix usam scraping para coletar dados de outros sites e oferecer serviços melhores!

14.3 HTML Básico - Entendendo a Estrutura das Páginas

14.3.1 O que é HTML?

HTML (HyperText Markup Language) é a linguagem que estrutura as páginas web. É como o esqueleto de uma página!

14.3.2 Tags HTML Essenciais

Tag	Função	Analogia
`<div>`	Container genérico	📦 Caixa para organizar coisas
`<p>`	Parágrafo	📄 Texto corrido
`<h1>`, `<h2>`, `<h3>`	Títulos	📋 Títulos de seções
`<a>`	Link	🔗 Ligação para outras páginas
`<img>`	Imagem	🖼️ Foto ou figura
`<table>`	Tabela	📊 Dados organizados em linhas/colunas
`<ul>`, `<ol>`	Listas	📝 Lista de itens
`<span>`	Texto pequeno	🏷️ Etiqueta ou marcação

14.3.3 Classes e IDs

<!-- Exemplo de HTML -->
<div class="produto">
    <h2 id="titulo-principal">Notebook Gamer</h2>
    <p class="preco">R$ 2.500,00</p>
    <a href="/comprar" class="botao-comprar">Comprar</a>
</div>

Explicação:

class="produto": Classe - pode ser usada várias vezes
id="titulo-principal": ID - deve ser único na página
href="/comprar": Atributo - propriedade do elemento

14.3.4 Estrutura de uma Página Web

<!DOCTYPE html>
<html>
<head>
    <title>Minha Loja</title>
</head>
<body>
    <header>
        <h1>Bem-vindo à Minha Loja</h1>
    </header>
    
    <main>
        <div class="produtos">
            <div class="produto">
                <h2>Notebook</h2>
                <p class="preco">R$ 2.500</p>
            </div>
            <div class="produto">
                <h2>Mouse</h2>
                <p class="preco">R$ 50</p>
            </div>
        </div>
    </main>
    
    <footer>
        <p>© 2024 Minha Loja</p>
    </footer>
</body>
</html>

14.3.5 Como BeautifulSoup “Lê” HTML

BeautifulSoup transforma HTML em uma árvore que você pode navegar:

# HTML de exemplo
html = """
<div class="produtos">
    <div class="produto">
        <h2>Notebook</h2>
        <p class="preco">R$ 2.500</p>
    </div>
    <div class="produto">
        <h2>Mouse</h2>
        <p class="preco">R$ 50</p>
    </div>
</div>
"""

# BeautifulSoup organiza assim:
# div.produtos
# div.produto
# h2: "Notebook"
# p.preco: "R$ 2.500"
# div.produto
# h2: "Mouse"
# p.preco: "R$ 50"

💡 Dica: Você não precisa ser expert em HTML! Apenas entender que páginas web são como documentos estruturados com tags que organizam o conteúdo.

14.4 BeautifulSoup - Sua Ferramenta de Scraping

14.4.1 Instalando BeautifulSoup

pip install beautifulsoup4 requests

14.4.2 Primeiro Exemplo: Extraindo Títulos

from bs4 import BeautifulSoup
import requests

# HTML de exemplo (simulando uma página web)
html_exemplo = """
<html>
<head>
    <title>Minha Loja Online</title>
</head>
<body>
    <h1>Produtos em Promoção</h1>
    <div class="produtos">
        <div class="produto">
            <h2>Notebook Gamer</h2>
            <p class="preco">R$ 2.500,00</p>
        </div>
        <div class="produto">
            <h2>Mouse Óptico</h2>
            <p class="preco">R$ 50,00</p>
        </div>
        <div class="produto">
            <h2>Teclado Mecânico</h2>
            <p class="preco">R$ 120,00</p>
        </div>
    </div>
</body>
</html>
"""

# Criar objeto BeautifulSoup
soup = BeautifulSoup(html_exemplo, 'html.parser')

# Extrair título da página
titulo = soup.find('title').text
print(f"Título da página: {titulo}")

# Extrair todos os títulos h2 (nomes dos produtos)
produtos = soup.find_all('h2')
print("\nProdutos encontrados:")
for i, produto in enumerate(produtos, 1):
    print(f"{i}. {produto.text}")

Saída esperada:

Título da página: Minha Loja Online

Produtos encontrados:

1. Notebook Gamer
2. Mouse Óptico
3. Teclado Mecânico

14.4.3 Seletores Básicos

# Extrair por tag
titulos = soup.find_all('h2')

# Extrair por classe
precos = soup.find_all('p', class_='preco')

# Extrair por ID
titulo_principal = soup.find('h1')

# Extrair primeiro elemento
primeiro_produto = soup.find('div', class_='produto')

# Extrair texto de um elemento
texto_preco = soup.find('p', class_='preco').text

14.4.4 Exemplo Prático: Extraindo Preços

# Extrair todos os preços
precos = soup.find_all('p', class_='preco')

print("Preços encontrados:")
for preco in precos:
    print(f"- {preco.text}")

# Extrair produtos completos (nome + preço)
produtos = soup.find_all('div', class_='produto')

print("\nProdutos completos:")
for produto in produtos:
    nome = produto.find('h2').text
    preco = produto.find('p', class_='preco').text
    print(f"📦 {nome} - {preco}")

Saída esperada:

Preços encontrados:

- R$ 2.500,00
- R$ 50,00
- R$ 120,00

Produtos completos:
📦 Notebook Gamer - R$ 2.500,00
📦 Mouse Óptico - R$ 50,00
📦 Teclado Mecânico - R$ 120,00

14.4.5 Navegando na Estrutura HTML

# Acessar elementos pai e filhos
produtos_container = soup.find('div', class_='produtos')
primeiro_produto = produtos_container.find('div', class_='produto')

# Acessar atributos
link = soup.find('a')
if link:
    href = link.get('href')
    print(f"Link encontrado: {href}")

# Acessar texto limpo (sem tags HTML)
texto_limpo = soup.get_text()
print("Texto completo da página:")
print(texto_limpo[:100] + "...")  # Primeiros 100 caracteres

💡 Dica: BeautifulSoup é como uma lupa digital que te ajuda a encontrar exatamente o que você precisa no HTML!

14.5 Scraping de Sites Reais - requests + BeautifulSoup

14.5.1 Combinando requests e BeautifulSoup

import requests
from bs4 import BeautifulSoup
import time

def extrair_titulos_noticias(url):
    """Extrai títulos de notícias de um site"""
    try:
# Fazer requisição HTTP
        response = requests.get(url)
        response.raise_for_status()  # Verificar se deu erro
        
# Criar objeto BeautifulSoup
        soup = BeautifulSoup(response.content, 'html.parser')
        
# Extrair títulos (ajuste os seletores conforme o site)
        titulos = soup.find_all('h2')  # ou 'h3', 'h1', etc.
        
        print(f"📰 Encontrados {len(titulos)} títulos:")
        for i, titulo in enumerate(titulos[:5], 1):  # Mostrar apenas os 5 primeiros
            print(f"{i}. {titulo.get_text().strip()}")
        
        return titulos
        
    except requests.exceptions.RequestException as e:
        print(f"❌ Erro ao acessar o site: {e}")
        return None

# Exemplo de uso (substitua pela URL real)
# titulos = extrair_titulos_noticias('https://exemplo.com/noticias')

14.5.2 Scraping Responsável - Boas Práticas

import requests
from bs4 import BeautifulSoup
import time
import random

def scraping_responsavel(url):
    """Faz scraping respeitando o site"""
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
    }
    
    try:
# Delay aleatório entre requisições (1-3 segundos)
        time.sleep(random.uniform(1, 3))
        
# Fazer requisição com headers
        response = requests.get(url, headers=headers)
        response.raise_for_status()
        
# Parse do HTML
        soup = BeautifulSoup(response.content, 'html.parser')
        
        return soup
        
    except requests.exceptions.RequestException as e:
        print(f"❌ Erro: {e}")
        return None

# Exemplo de uso
# soup = scraping_responsavel('https://exemplo.com')

14.5.3 Exemplo Prático: Extrair Dados de Produtos

def extrair_produtos_loja(url):
    """Extrai informações de produtos de uma loja online"""
    soup = scraping_responsavel(url)
    
    if not soup:
        return None
    
    produtos = []
    
# Encontrar todos os produtos (ajuste os seletores)
    items = soup.find_all('div', class_='produto')  # ou outro seletor
    
    for item in items:
        try:
            nome = item.find('h3').text.strip()
            preco = item.find('span', class_='preco').text.strip()
            link = item.find('a').get('href')
            
            produtos.append({
                'nome': nome,
                'preco': preco,
                'link': link
            })
        except AttributeError:
            continue  # Pular se não encontrar algum elemento
    
    return produtos

# Exemplo de uso
# produtos = extrair_produtos_loja('https://loja-exemplo.com')
# for produto in produtos:
# print(f" {produto['nome']} - {produto['preco']}")

14.5.4 Salvando Dados Coletados

import json
import csv

def salvar_dados_json(dados, arquivo):
    """Salva dados em arquivo JSON"""
    with open(arquivo, 'w', encoding='utf-8') as f:
        json.dump(dados, f, ensure_ascii=False, indent=2)
    print(f"✅ Dados salvos em {arquivo}")

def salvar_dados_csv(dados, arquivo):
    """Salva dados em arquivo CSV"""
    if not dados:
        return
    
    with open(arquivo, 'w', newline='', encoding='utf-8') as f:
        writer = csv.DictWriter(f, fieldnames=dados[0].keys())
        writer.writeheader()
        writer.writerows(dados)
    print(f"✅ Dados salvos em {arquivo}")

# Exemplo de uso
# produtos = extrair_produtos_loja('https://exemplo.com')
# salvar_dados_json(produtos, 'produtos.json')
# salvar_dados_csv(produtos, 'produtos.csv')

💡 Dica: Sempre teste seus seletores primeiro! Use o navegador (F12) para inspecionar o HTML e encontrar os seletores corretos.

14.6 Exercícios Práticos (respostas no final da página)

🚀 Hora de praticar! Aqui estão 25 exercícios organizados por dificuldade. Cada exercício tem solução completa com explicação linha por linha!

14.6.1 MUITO FÁCIL (Nível 1)

1. Extrator de Títulos H1 Crie uma função que extrai todos os títulos <h1> de uma página HTML.

Exemplo: Input → HTML com 3 títulos H1 | Output → Lista com os 3 títulos

2. Extrator de Links Extraia todos os links (<a>) de uma página e mostre apenas os URLs.

Exemplo: Input → HTML com 5 links | Output → Lista com 5 URLs

3. Contador de Imagens Crie uma função que conta quantas imagens (<img>) existem em uma página.

Exemplo: Input → HTML com 10 imagens | Output → 10

4. Extrator de Parágrafos Extraia o texto de todos os parágrafos (<p>) de uma página.

Exemplo: Input → HTML com 3 parágrafos | Output → Lista com os 3 textos

5. Extrator por Classe Crie uma função que encontra elementos por classe CSS específica.

Exemplo: Input → HTML com elementos classe “preco” | Output → Lista com elementos da classe

14.6.2 FÁCIL (Nível 2)

6. Scraper de Produtos Crie um scraper que extrai títulos e preços de produtos de uma loja online.

Exemplo: Input → HTML de loja | Output → [{"nome": "Notebook", "preco": "R$ 2500"}]

7. Extrator de Contato Extraia informações de contato (email, telefone) de uma página de empresa.

Exemplo: Input → HTML com contatos | Output → {"email": "contato@empresa.com", "telefone": "11999999999"}

8. Coletor de Imagens Crie uma função que coleta todas as imagens e seus atributos alt.

Exemplo: Input → HTML com imagens | Output → [{"src": "img1.jpg", "alt": "Produto 1"}]

9. Extrator de Tabelas Extraia dados de uma tabela HTML e salve em formato CSV.

Exemplo: Input → Tabela HTML | Output → Arquivo CSV com dados

10. Scraper de Notícias Crie um scraper que coleta manchetes de notícias de um site.

Exemplo: Input → Site de notícias | Output → ["Manchete 1", "Manchete 2", "Manchete 3"]

14.6.3 MÉDIO (Nível 3)

11. Monitor de Preços Crie um sistema que monitora preços de produtos em múltiplos sites.

Exemplo: Input → URLs de 3 lojas | Output → Comparação de preços

12. Extrator de Perfis Extraia informações de perfis de usuários de uma rede social.

Exemplo: Input → Perfil de usuário | Output → {"nome": "João", "seguidores": 1000}

13. Scraper de Imóveis Crie um scraper que coleta dados de imóveis (preço, localização, características).

Exemplo: Input → Site de imóveis | Output → [{"preco": "R$ 500000", "localizacao": "São Paulo"}]

14. Extrator de Filmes Extraia dados de filmes/séries de um site de streaming.

Exemplo: Input → Site de streaming | Output → [{"titulo": "Filme A", "genero": "Ação"}]

15. Scraper de Vagas Crie um sistema que coleta informações de vagas de emprego.

Exemplo: Input → Site de vagas | Output → [{"cargo": "Desenvolvedor", "salario": "R$ 8000"}]

14.6.4 DIFÍCIL (Nível 4)

16. Scraper com Paginação Crie um scraper que navega por múltiplas páginas (paginação).

Exemplo: Input → Site com 5 páginas | Output → Dados de todas as 5 páginas

17. Extrator de Gráficos Extraia dados de gráficos e visualizações de dados de sites.

Exemplo: Input → Site com gráficos | Output → Dados numéricos dos gráficos

18. Monitor de Mudanças Crie um sistema que monitora mudanças em páginas web ao longo do tempo.

Exemplo: Input → URL para monitorar | Output → Relatório de mudanças

19. Extrator de APIs JavaScript Extraia dados de APIs que são carregadas via JavaScript.

Exemplo: Input → Site com dados via JS | Output → Dados extraídos

20. Scraper Anti-Bloqueio Crie um scraper que contorna proteções básicas contra scraping.

Exemplo: Input → Site com proteção | Output → Dados extraídos com sucesso

14.6.5 MUITO DIFÍCIL (Nível 5)

21. Sistema de Monitoramento Crie um sistema completo de monitoramento de preços com alertas.

Exemplo: Input → Produtos para monitorar | Output → Sistema com alertas automáticos

22. Scraper com Autenticação Extraia dados de sites com autenticação e sessões.

Exemplo: Input → Site que requer login | Output → Dados extraídos após autenticação

23. Scraper Distribuído Crie um scraper distribuído que roda em múltiplas máquinas.

Exemplo: Input → Lista de URLs | Output → Scraping distribuído em várias máquinas

24. Scraper Anti-CAPTCHA Extraia dados de sites com proteções avançadas (CAPTCHA, rate limiting).

Exemplo: Input → Site com CAPTCHA | Output → Dados extraídos contornando proteções

25. Scraper Adaptativo Crie um sistema de scraping que se adapta automaticamente a mudanças no HTML.

Exemplo: Input → Site que muda HTML | Output → Scraper que se adapta automaticamente