Projet Python : Outil OCR Open-Source pour l’Analyse de Documents

urya, OCR, open-source, analyse de documents, reconnaissance de texte, multilingue, mise en page, python, py, python ocr, python ocr open

Surya est un projet python open-source pour l’OCR (reconnaissance optique de caractères) et l’analyse de la mise en page des documents. Il prend en charge plus de 90 langues et offre des fonctionnalités avancées telles que la détection de lignes de texte, l’analyse de la mise en page et la détection de l’ordre de lecture.

Caractéristiques Clés

OCR Multilingue
Surya supporte plus de 90 langues et offre des performances comparables aux services cloud.

Analyse de la Mise en Page
Il détecte les éléments de mise en page tels que les tableaux, images, en-têtes, et bien plus.

Détection de l’Ordre de Lecture
Surya identifie l’ordre de lecture des documents, ce qui est crucial pour les textes complexes.

Installation et Utilisation

Installation Pour installer Surya, vous aurez besoin de Python 3.9+ et PyTorch. Exécutez la commande suivante pour l’installation :

pip install surya-ocr

Les poids des modèles seront automatiquement téléchargés lors de la première utilisation.

Utilisation Vous pouvez utiliser Surya à partir de la ligne de commande ou via une application interactive Streamlit :

surya_ocr chemin_vers_fichier --images --langs en,fr

Cela génère un fichier JSON contenant le texte détecté et les boîtes englobantes.

New York Times Article Detection

Caractéristiques de Surya

  1. Précision et Performance : Surya offre une OCR précise et rapide.
  2. Support Étendu : Compatible avec une large gamme de documents et de langues.
  3. Flexibilité : Fonctionne sur CPU et GPU, offrant des options de configuration avancées.

Pour plus d’informations et pour commencer à utiliser Surya, visitez le repository GitHub de Surya.

Lire Aussi :
Projet Python : Conversion Rapide et Précise de PDF en Markdown
RAG Pour le SQL : Discutez avec vos bases de données SQL