-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathimport_donnnes.py
67 lines (48 loc) · 1.72 KB
/
import_donnnes.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
@author: chaqra
"""
### Exemple de struture pour la definition d'une fonction
### que j'avais decouverte dans ce mooc:
### https://fr.coursera.org/learn/program-code
# def nom_fonction(variable en entree):
# """ (type(s) de variable(s) en entree) -> type de variables en sorties
#
# Condition prealable: condition sur les variables
#
# Description de la fonction
#
# >>> nom_fonction(variable en entree)
# resultat attendu
#
# """
def extraction_pdf(chemin_du_fichier):
""" (string) -> list
Cette fonction prend en entree la localisation d'un fichier pdf
et retourne en sortie une liste contenant les differentes parties
textuelle du pdf.
>>>extraction_pdf("/home/chaqra/Dropbox/TEEEEEEEEEXTMINING/Journaux/20190830_PAR.pdf")
"""
import PyPDF2
chemin_du_fichier = "/home/chaqra/Dropbox/TEEEEEEEEEXTMINING/Journaux/20190830_PAR.pdf"
# https://automatetheboringstuff.com/chapter13/
pdfFileObj = open(chemin_du_fichier, 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(3)
pageObj.extractText()
import subprocess
import os
import uuid
def document_to_html(file_path):
tmp = "/tmp"
guid = str(uuid.uuid1())
# convert the file, using a temporary file w/ a random name
command = "abiword -t %(tmp)s/%(guid)s.html %(file_path)s; cat %(tmp)s/%(guid)s.html" % locals()
p = subprocess.Popen(command, stdout=subprocess.PIPE, stderr=subprocess.PIPE, shell=True, cwd=os.path.join(settings.PROJECT_DIR, "website/templates"))
error = p.stderr.readlines()
if error:
raise Exception("".join(error))
html = p.stdout.readlines()
return "".join(html)
document_to_html(chemin_du_fichier)