PDF en Texte — Extraire le texte des fichiers PDF

Q: GrabText peut-il traiter des PDFs scannés sans couche de texte ?

Oui. GrabText détecte automatiquement la couche de texte. Pour les PDFs scannés, Tesseract OCR est utilisé.

Q: Comment sélectionner des pages spécifiques ?

Dans les options avancées, saisissez une plage comme 1-3 ou des pages comme 1,3,5 dans le champ Sélection de pages.

Q: Quelles langues l'OCR prend-il en charge ?

Allemand, anglais, espagnol, français, italien, portugais et néerlandais — individuellement ou en combinaisons.

Q: Quelle est la taille maximale de fichier ?

Jusqu'à 20 Mo par fichier. Les PDFs plus volumineux peuvent être divisés avant envoi.

Q: Quelle est la différence entre Markdown et texte brut ?

Markdown conserve la structure (titres en #, listes en -). Texte brut est du texte sans mise en forme.

Fonctionnalités

Extraction de texte nativeExtraction rapide et précise des PDFs consultables — directement depuis la couche de texte, sans OCR.
OCR pour PDFs scannésReconnaissance de texte Tesseract pour les pages scannées ou basées sur des images, détection automatique.
Sélection de pagesExtrayez uniquement des pages spécifiques, ex. 1-3,5 — gain de temps sur les grands documents.
Sortie MarkdownLa structure du document (titres, listes) est préservée — idéal pour le traitement par IA.
Par lots et ZIPTraitez plusieurs PDFs à la fois, téléchargez tous les résultats en archive ZIP.
Jusqu'à 20 Mo par fichierLes PDFs volumineux et multipages sont entièrement pris en charge.

Questions fréquentes

GrabText peut-il traiter des PDFs scannés sans couche de texte ?

Oui. GrabText détecte automatiquement si un PDF contient une couche de texte native. Pour les PDFs scannés ou basés sur des images, Tesseract OCR est utilisé. La langue OCR peut être définie manuellement ou laissée sur Auto.

Comment sélectionner des pages spécifiques ?

Dans les options avancées, utilisez le champ Sélection de pages. Saisissez des plages comme 1-3 ou des pages individuelles comme 1,3,5 pour n'extraire que la partie pertinente du PDF.

Quelles langues l'OCR prend-il en charge ?

L'allemand, l'anglais, l'espagnol, le français, l'italien, le portugais et le néerlandais — individuellement ou en combinaisons de langues pour les documents multilingues.

Quelle est la taille maximale de fichier ?

Jusqu'à 20 Mo par fichier. Les PDFs plus volumineux peuvent être divisés avant l'envoi. Les PDFs multipages sont traités page par page.

Quelle est la différence entre Markdown et texte brut ?

Markdown conserve la structure du document : titres sous forme de #, listes sous forme de -. Texte brut ne contient que le texte brut sans mise en forme. Le Markdown est recommandé pour les outils d'IA.

PDF zu Text Konverter

Kombiniertes Ergebnis

Fonctionnalités

Questions fréquentes