Estrai testo da PDF e file immagine

Hai un documento PDF(PDF document) da cui vorresti estrarre tutto il testo? Che dire dei file immagine di un documento scansionato che si desidera convertire in testo modificabile? Questi sono alcuni dei problemi più comuni che ho riscontrato sul posto di lavoro quando si lavora con i file.

In questo articolo parlerò di diversi modi in cui puoi provare a estrarre il testo da un PDF o da un'immagine. I risultati dell'estrazione varieranno a seconda del tipo e della qualità(type and quality) del testo nel PDF o nell'immagine(PDF or image) . Inoltre, i tuoi risultati varieranno a seconda dello strumento che utilizzi, quindi è meglio provare quante più opzioni possibili di seguito per ottenere i migliori risultati.

Estrai testo da immagine o PDF

Il modo più semplice e veloce per iniziare è provare un servizio di estrazione di (extractor service)testo PDF(PDF text) online . Questi sono normalmente gratuiti e possono darti esattamente quello che stai cercando senza dover installare nulla sul tuo computer. Eccone due che ho usato con risultati da molto buoni a eccellenti:

Estrai PDF

estrattopdf

ExtractPDF è uno strumento gratuito per estrarre immagini, testo e caratteri(text and fonts) da un file PDF(PDF file) . L'unica limitazione è che la dimensione massima(max size) del file PDF(PDF file) è 10 MB. È un po' piccolo; quindi se hai un file più grande, prova alcuni degli altri metodi di seguito. Scegli il tuo file e quindi fai clic sul pulsante Invia file(Send file) . I risultati sono normalmente molto veloci e dovresti vedere un'anteprima del testo quando fai clic sulla scheda Testo(Text tab) .

scarica il testo

È anche un bel vantaggio aggiuntivo che estrae anche le immagini dal file PDF(PDF file) , nel caso ne avessi bisogno! Nel complesso, lo strumento online funziona alla grande, ma mi sono imbattuto in un paio di documenti PDF(PDF docs) che mi danno risultati divertenti. Il testo viene estratto bene, ma per qualche motivo avrà un'interruzione di riga(line break) dopo ogni parola! Non è un grosso problema per un breve file PDF(PDF file) , ma sicuramente un problema per i file con molto testo. Se ti capita, prova lo strumento successivo.

OCR in linea

L'OCR online(Online OCR) di solito tendeva a funzionare per i documenti che non venivano convertiti correttamente con ExtractPDF , quindi è una buona idea provare entrambi i servizi per vedere quale ti offre un output migliore. L'OCR online(Online OCR) ha anche alcune funzionalità più interessanti che possono rivelarsi utili per chiunque abbia un file PDF(PDF file) di grandi dimensioni che deve solo convertire il testo su poche pagine anziché l'intero documento.

La prima cosa che vuoi fare è andare avanti e creare un account gratuito. È un po' fastidioso, ma se non crei l'account gratuito, convertirà solo parzialmente il tuo PDF anziché l'intero documento. Inoltre, invece di caricare solo un documento da 5 MB(MB document) , puoi caricare fino a 100 MB per file con un account.

in linea ocr

Innanzitutto, scegli una lingua e quindi scegli il tipo di formati di output che desideri per il file convertito. Hai un paio di opzioni e puoi sceglierne più di una, se lo desideri. In Documento multipagina(Multipage document) , puoi selezionare Numeri di pagina(Page numbers) e quindi scegliere solo le pagine che desideri convertire. Quindi selezioni il file e fai clic su (file and click) Converti(Convert) !

documenti ocr online

Dopo la conversione, verrai indirizzato alla sezione Documenti(Documents) (se hai effettuato l'accesso) dove puoi vedere quante pagine libere disponibili ti sono rimaste e i link per scaricare i file convertiti. Sembra che tu abbia solo 25 pagine gratuite al giorno, quindi se ne hai bisogno di più, dovrai aspettare un po' o acquistare più pagine.

L'OCR online(Online OCR) ha svolto un ottimo lavoro nel convertire i miei PDF perché è stato in grado di mantenere il layout effettivo del testo. Nel mio test, ho preso un documento Word(Word doc) che utilizzava punti elenco, diverse dimensioni dei caratteri, ecc. e l'ho convertito in un PDF . Quindi ho usato l' OCR online(Online OCR) per riconvertirlo in formato Word(Word format) ed era circa il 95% uguale all'originale. È abbastanza impressionante per me.

Inoltre, se stai cercando di convertire un'immagine in testo, l' OCR online(Online OCR) può farlo con la stessa facilità dell'estrazione di testo da file PDF .

OCR online gratuito

Dato che si parlava di OCR da immagine a testo , vorrei citare un altro buon sito Web che funziona davvero bene con le immagini. L'OCR online gratuito(Free Online OCR) è stato molto buono e molto preciso durante l'estrazione del testo dalle mie immagini di prova. Ho scattato un paio di foto dal mio iPhone di pagine di libri, opuscoli, ecc. e sono rimasto sorpreso di quanto bene fosse in grado di convertire il testo.

gratis online ocr

Scegli il tuo file e quindi fai clic sul pulsante Carica(Upload button) . Nella schermata successiva, ci sono un paio di opzioni e un'anteprima dell'immagine. Puoi ritagliarlo se non vuoi eseguire l'OCR per intero. Quindi fai semplicemente clic sul pulsante OCR(OCR button) e il testo convertito apparirà sotto l' anteprima dell'immagine(image preview) . Inoltre non ha alcun limite, il che è davvero bello.

Oltre ai servizi online, ci sono due convertitori PDF gratuiti che voglio menzionare nel caso in cui sia necessario un software in esecuzione localmente sul tuo computer per eseguire le conversioni. Con i servizi online, avrai sempre bisogno di una connessione Internet(Internet connection) e ciò potrebbe non essere possibile per tutti. Tuttavia, ho notato che la qualità delle conversioni dai programmi freeware era significativamente peggiore di quella dei siti web.

Estrattore di testo A-PDF

A-PDF Text Extractor è un software gratuito che fa un buon lavoro di estrazione di testo da file PDF(PDF file) s. Una volta(Once) scaricato e installato, fai clic sul pulsante Apri(Open button) per scegliere il tuo file PDF(PDF file) . Quindi fare clic su Estrai testo(Extract text) per avviare il processo.

estrattore apdf

Ti chiederà una posizione in cui archiviare il file di output del testo(text output file) e quindi inizierà l'estrazione. Puoi anche fare clic sul pulsante Opzione(Option) , che ti consente di scegliere solo alcune pagine da estrarre e il tipo di estrazione(extraction type) . La seconda opzione è interessante perché estrae il testo in diversi layout e vale la pena provarli tutti e tre per vedere quale ti dà il miglior risultato.

PDF2Testo pilota

PDF2Text Pilot  fa un buon lavoro di estrazione del testo. Non ha alcuna opzione; basta aggiungere file o cartelle, convertire e sperare(convert and hope) per il meglio. Ha funzionato bene su alcuni PDF(PDFs) , ma per la maggior parte di essi si sono verificati numerosi problemi.

pdf2testo

Basta fare clic su Aggiungi file(Add Files) e quindi su Converti(Convert) . Una volta completata la conversione, fare clic su Sfoglia(Browse) per aprire il file. Il tuo chilometraggio varierà utilizzando questo programma, quindi non aspettarti molto.

Inoltre, vale la pena ricordare che se ti trovi in ​​un ambiente aziendale o puoi mettere le mani su una copia di Adobe Acrobat dal lavoro, puoi davvero ottenere risultati molto migliori. Acrobat ovviamente non è gratuito, ma ha opzioni per convertire PDF in formato Word , Excel e HTML(Excel and HTML format) . Fa anche il miglior lavoro nel mantenere la struttura del documento originale e convertire il testo complicato.



About the author

ingegnere audiofilo e specialista di prodotti audio con oltre 10 anni di esperienza. Sono specializzato nella creazione di altoparlanti e cuffie per musica di qualità dall'inizio alla fine. Sono un esperto nella risoluzione dei problemi audio e nella progettazione di nuovi altoparlanti e sistemi di cuffie. La mia esperienza va oltre la semplice realizzazione di buoni prodotti; Ho anche una passione per aiutare gli altri a essere il meglio di sé possibile, sia attraverso l'istruzione che il servizio alla comunità.



Related posts