16 Expressões Regulares (Regex) - Capítulo Bônus

De detetive com lupa para caçador de padrões: encontrando o que você precisa no texto!

16.1 O que você vai aprender neste capítulo?

O que são Expressões Regulares e quando usar essa ferramenta
Padrões básicos: metacaracteres essenciais (., *, +, ?, [], ^, $)
Classes de caracteres: , e suas variações
Quantificadores: como especificar quantas vezes um padrão deve aparecer
Módulo re: como usar regex em Python
Validação prática: emails, CPFs, telefones e outros formatos
Extração de dados: como extrair informações específicas de textos
Aplicações reais: regex em web scraping, APIs e processamento de dados

🎓 Vindo do Capítulo 15? Perfeito! Agora que você domina bancos de dados, vamos aprender a encontrar padrões em textos!

🎯 Meta: Ao final deste capítulo, você vai conseguir usar regex para validar dados, extrair informações e processar textos de forma eficiente.

⚠️ Por que isso importa: Regex é uma ferramenta poderosa mas pode ser complexa! Comece com padrões simples e vá progredindo gradualmente.

16.2 De Detetive com Lupa para Caçador de Padrões

Imagine que você é um detetive investigando um caso:

Evidências (Texto): Documentos, mensagens, relatórios
Padrões suspeitos: Sequências que se repetem
Lupa (Regex): Ferramenta para encontrar padrões específicos
Descobertas: Informações importantes encontradas

Em programação, funciona assim:

Texto: Dados que você quer analisar
Padrões: Sequências que você quer encontrar
Regex: Ferramenta para buscar padrões
Resultados: Informações extraídas ou validadas

16.2.1 O que são Expressões Regulares?

Regex é uma linguagem para descrever padrões em texto.

É como dar instruções para um assistente:

🔍 “Encontre todos os números de telefone”
📧 “Valide se este email está correto”
📅 “Extraia todas as datas do texto”
🔗 “Encontre todos os links”

16.2.2 Quando usar Regex?

✅ Validação: Verificar se dados estão no formato correto
✅ Extração: Encontrar informações específicas em textos
✅ Substituição: Trocar partes do texto por outras
✅ Limpeza: Remover caracteres indesejados
✅ Análise: Contar ocorrências de padrões

16.2.3 Exemplo prático

Sem regex (problema):

# Validar email manualmente (difícil!)
email = "usuario@email.com"
if "@" in email and "." in email.split("@")[1]:
    print("Email válido")

Com regex (solução):

import re
email = "usuario@email.com"
if re.match(r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$', email):
    print("Email válido")

💡 Exemplo: Google, Facebook e muitos sites usam regex para validar formulários e processar dados!

16.3 Padrões Básicos e Módulo `re`

16.3.1 Metacaracteres Essenciais

Símbolo	Significado	Exemplo
`.`	Qualquer caractere	`c.t` → cat, cut, cot
`*`	Zero ou mais	`ab*` → a, ab, abb, abbb
`+`	Um ou mais	`ab+` → ab, abb, abbb
`?`	Zero ou um	`ab?` → a, ab
`[]`	Conjunto de caracteres	`[abc]` → a, b ou c
`^`	Início da string	`^abc` → strings que começam com abc
`$`	Fim da string	`abc$` → strings que terminam com abc

16.3.2 Classes de Caracteres

Classe	Significado	Equivale a
`\d`	Dígito	`[0-9]`
`\w`	Letra, dígito ou _	`[a-zA-Z0-9_]`
`\s`	Espaço em branco	`[ \t\n\r]`
`\D`	Não dígito	`[^0-9]`
`\W`	Não alfanumérico	`[^a-zA-Z0-9_]`
`\S`	Não espaço	`[^ \t\n\r]`

16.3.3 Usando o Módulo `re`

import re

# Buscar primeira ocorrência
texto = "Meu telefone é (11) 99999-9999"
telefone = re.search(r'\(\d{2}\) \d{5}-\d{4}', texto)
if telefone:
    print(f"Telefone encontrado: {telefone.group()}")

# Buscar todas as ocorrências
texto = "Emails: joao@email.com, maria@teste.com, pedro@site.org"
emails = re.findall(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', texto)
print(f"Emails encontrados: {emails}")

# Substituir texto
texto = "Preço: R$ 100,00 e R$ 200,00"
novo_texto = re.sub(r'R\$ \d+,\d{2}', 'R$ XXX,XX', texto)
print(f"Texto modificado: {novo_texto}")

16.3.4 Validação Prática

def validar_email(email):
    """Valida formato de email"""
    padrao = r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'
    return bool(re.match(padrao, email))

def validar_telefone(telefone):
    """Valida formato de telefone brasileiro"""
    padrao = r'^\(\d{2}\) \d{4,5}-\d{4}$'
    return bool(re.match(padrao, telefone))

def validar_cpf(cpf):
    """Valida formato de CPF"""
    padrao = r'^\d{3}\.\d{3}\.\d{3}-\d{2}$'
    return bool(re.match(padrao, cpf))

# Testando
print(validar_email("usuario@email.com"))  # True
print(validar_telefone("(11) 99999-9999"))  # True
print(validar_cpf("123.456.789-00"))  # True

16.3.5 Extração de Dados

def extrair_dados(texto):
    """Extrai diferentes tipos de dados de um texto"""
    dados = {}
    
# Extrair emails
    emails = re.findall(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', texto)
    dados['emails'] = emails
    
# Extrair telefones
    telefones = re.findall(r'\(\d{2}\) \d{4,5}-\d{4}', texto)
    dados['telefones'] = telefones
    
# Extrair datas (formato dd/mm/aaaa)
    datas = re.findall(r'\d{2}/\d{2}/\d{4}', texto)
    dados['datas'] = datas
    
# Extrair URLs
    urls = re.findall(r'https?://[^\s]+', texto)
    dados['urls'] = urls
    
    return dados

# Exemplo de uso
texto = """
Contato: joao@email.com, telefone (11) 99999-9999
Site: https://www.exemplo.com
Data: 15/12/2024
"""

dados = extrair_dados(texto)
for tipo, valores in dados.items():
    print(f"{tipo.title()}: {valores}")

💡 Dica: Comece com padrões simples e vá testando! Use ferramentas online como regex101.com para testar seus padrões.

16.4 Exercícios Práticos

16.4.1 MUITO FÁCIL (Nível 1)

1. Crie uma função que encontra todos os números em um texto.

2. Valide se uma string contém apenas letras e espaços.

3. Encontre todas as palavras que começam com “Python” em um texto.

4. Substitua todas as ocorrências de “erro” por “problema” em um texto.

5. Conte quantas vezes a palavra “Python” aparece em um texto.

16.4.2 FÁCIL (Nível 2)

6. Crie uma função que valida formato de data (dd/mm/aaaa).

7. Extraia todos os números de telefone de um texto.

8. Valide se uma senha tem pelo menos 8 caracteres e contém números.

9. Encontre todas as URLs em um texto.

10. Limpe um texto removendo caracteres especiais, mantendo apenas letras e números.

16.4.3 MÉDIO (Nível 3)

11. Crie um validador de CPF que verifica formato e dígitos verificadores.

12. Extraia informações de contato (nome, email, telefone) de um texto.

13. Valide formato de CEP brasileiro (00000-000).

14. Encontre todas as datas em diferentes formatos (dd/mm/aaaa, dd-mm-aaaa).

15. Crie uma função que formata números de telefone para o padrão brasileiro.

16.4.4 DIFÍCIL (Nível 4)

16. Implemente um parser de logs que extrai informações específicas.

17. Crie um sistema de validação de formulários com múltiplos campos.

18. Extraia dados estruturados de páginas HTML usando regex.

19. Implemente um sistema de busca avançada em textos.

20. Crie um validador de CNPJ com verificação de dígitos.

16.4.5 MUITO DIFÍCIL (Nível 5)

21. Implemente um sistema de análise de sentimentos usando regex.

22. Crie um parser de configurações que converte texto em estruturas de dados.

23. Implemente um sistema de tradução automática de padrões.

24. Crie um validador de documentos brasileiros (CPF, CNPJ, RG, etc.).

25. Implemente um sistema de extração de dados de contratos legais.

🎯 Dica: Regex pode ser complexa! Use ferramentas online para testar seus padrões e comece sempre com casos simples!