Skip to content

Latest commit

 

History

History
14 lines (11 loc) · 644 Bytes

README.md

File metadata and controls

14 lines (11 loc) · 644 Bytes

Meu TCC

Repositório para pesquisa do meu Trabalho de Conclusão de Curso.

Tasks:

  • Verifique se a biblioteca python-poppler é uma boa maneira de extrair texto de PDFs.
  • Extraia texto de PDF completo - Com todos os métodos de extração usados até agora.
    • PyMuPDF obteve melhores resultados.
  • Segementação dos textos por publicações.
    • Utilizado o pipe que tem nos PDF para a separação de atos.
    • Regex para encontrar padrões de quando se inicia um novo ato.
    • Separação de atos por entidades do documento.
    • PDF convertido em um JSON com os atos separados por entidades.