Esse repositório foi construido para ajudar qualquer interessado pela área de Raspagem de dados, todo o repositório será em PT-BR, mas os links/documentação podem estar em inglês (compartilhe se você possuir algo traduzido).
Uso Python versão 3.7
As principais libs que vamos usar aqui são:
- requests
- bs4 (BeautifulSoup)
- Scrapy
Para isso você só precisa instalar algumas bibliotecas, no seu Terminal escreva:
pip install -r requirements.txt
Use o ambiente virtual do Python para programar independente de plataforma.
- Criação:
python3 -m venv venv
- Ativação (muda conforme S.O):
source venv/bin/activate
- Dependências:
pip install -r requirements.txt
Iremos usar Jupyter notebooks aqui, então se você não tem com a ferramenta, visite a documentação.
- Aprendendo a extrair o texto de um Site
- Primeira Spider
- Raspagem múltipla
- Navegando entre paginas
- Coletando mais detalhes
- Raspagem em site com Infinite Scroll
- Rodando Spider na nuvem
- Extração de imagens
- The Scraping Hub [ENG]
- Python [ENG]
- Requests [ENG]
- BeautifulSoup [ENG]
- Jupyter Notebooks [ENG]
- Scrapy [ENG]
- Episódio 005: Serenata de Amor [PT-BR]
- Episódio 009: Sobre Crawlers e Scrapers [PT-BR]
- Episódio 011: Bots Políticos [PT-BR]
- Live de Python #20 - Selenium / Web scraping #1 [PT-BR]
- Live de Python #21 Beautifulsoup / Web scraping #2 [PT-BR]
- Live de Python #22 Requests / Web scraping #3 [PT-BR]
- Live de Python #23 DeepWeb/ Anonimidade / Web scraping #4 [PT-BR]
- Live de Python #24 Tabelas e persistência / Web scraping #5 [PT-BR]
- Live de Python #25 Raspando dados não HTML / Web scraping #6 [PT-BR]
- Live de Python #26 Scrapy / Web scraping #7 (Com artur Gaspar) [PT-BR]
- Live de Python #27 Baixando arquivos e manipulando datas / Web scraping #8) [PT-BR]
- Live de Python #78 - Raspando a web com Scrapy - Com Renne Rocha [PT-BR]