ltsdp:nommage

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
ltsdp:nommage [2025/03/05 10:34] – [Automatisation] lcdvasrmltsdp:nommage [2025/06/29 12:00] (Version actuelle) – [Le Futur (is now)] lcdvasrm
Ligne 48: Ligne 48:
 Si un des articles s'étale sur plusieurs pages, plusieurs images, alors, ses images doivent être regroupées dans un sous répertoire à nommer **optionnellement** selon les règles de nommage. Dans ce cas, le nom des images est peu important, si ce n'est pour aider à l'ordonnancement des pages. C'est le nom du répertoire qui sera important et va déterminer le nom du pdf généré.\\ Si un des articles s'étale sur plusieurs pages, plusieurs images, alors, ses images doivent être regroupées dans un sous répertoire à nommer **optionnellement** selon les règles de nommage. Dans ce cas, le nom des images est peu important, si ce n'est pour aider à l'ordonnancement des pages. C'est le nom du répertoire qui sera important et va déterminer le nom du pdf généré.\\
   * Ce qui permet aux traitements automatiques de savoir que les images d'un répertoire doivent être regroupées est la présence dans le répertoire d'un fichier multi.txt (de contenu sans importance, il peut être vide). le pdf généré sera créé dans le répertoire parent.    * Ce qui permet aux traitements automatiques de savoir que les images d'un répertoire doivent être regroupées est la présence dans le répertoire d'un fichier multi.txt (de contenu sans importance, il peut être vide). le pdf généré sera créé dans le répertoire parent. 
-  * Si j'ai bien compris le comportement du script python sous windows, ce qui définit l'ordre des fichiers images au final dans le pdf, c'est d'abord l'ordre dans lequel les fichiers image ont été placés dans le répertoire… (on peut voir cet ordre avec la commande DOS dir) +  * L'ordre des fichiers images au final dans le pdf suit l'ordre alphabétique des nom des fichiers image
-  * Si l'ordre obtenu ne va pas, la façon de s'en sortir est de déplacer temporairement les images dans un répertoire annexe puis de les remettre dans l'ordre dans le répertoire d'origine. On peut les déplacer par paquets bien sûr. La façon de faire la sélection multiple des fichiers dans l'explorateur windows est essentielle. Bien comprendre la logique peut nécessiter quelques essais. Typiquement, il faut finir la sélection par le premier fichier. +
- +
  
 On peut très bien avoir un mix de répertoires avec et sans multi.txt. Les contenus des répertoires sans multi.txt seront traités localement, le pdf de chaque jpg restera dans le repertoire du jpg.  On peut très bien avoir un mix de répertoires avec et sans multi.txt. Les contenus des répertoires sans multi.txt seront traités localement, le pdf de chaque jpg restera dans le repertoire du jpg. 
Ligne 72: Ligne 69:
 Les pdf sont constituées sans perte de qualité. Les images y sont stockées telles quelles. Pas de recompression effectuée. Les pdf sont constituées sans perte de qualité. Les images y sont stockées telles quelles. Pas de recompression effectuée.
  
-En conservant les images, et en contrôlant la génération des pdf purs (sans ocr), on se prémunit des alterations par des outils tiers. Chaque fois que les outils d'ocr progresseront, on pourra en profiter.+En conservant les images, et en contrôlant la génération des pdf purs (sans ocr), on se prémunit des alterations par des outils tiers. Chaque fois que les outils d'OCR progresseront, on pourra en profiter.
  
-(si j'ai bien compris) **Ce qui définit l'ordre des fichiers images dans le pdf, c'est l'ordre dans lequel les fichiers image ont été placés dans le répertoire**...  (on peut voir cet ordre avec la commande DOS dir) +Les fichiers image seront intégrés dans le pdf suivant l'ordre alphabétique du nom des fichiers images.
  
-Si l'ordre ne va pas, la façon de s'en sortir est de déplacer les images dans un répertoire annexe puis de les remettre dans l'ordre dans le répertoire d'origine. On peut les déplacer par paquets bien sûr. La façon de faire la sélection multiple des fichiers dans l'explorateur windows a un effet. Bien comprendre la logique peut nécessiter quelques essais. Typiquement, il faut finir la sélection par le premier fichier. 
  
 ====== Règles de nommage des fichiers et répertoires ====== ====== Règles de nommage des fichiers et répertoires ======
Ligne 608: Ligne 604:
  
 ====== Le Futur (is now) ====== ====== Le Futur (is now) ======
-<del>Dans 5 ans peut-être</del> : Nonen fait, tout de suite... Utilisation de l'IA bloom pour l'extraction de données formattée et remplissage auto de la BDD. +En 2023-24nous utilisons le modèle gpt-3.5-turbo-1106 pour son faible coûtIl donne un bon rapport coût/intelligence pour notre application.\\ 
- +En 2025nous utilisons gpt-4o-mini-2024-07-18 tout aussi performant semble-t-il et moins cher.
-exemple :  +
-IN (exemples suffisent pour l'apprentissage) +
-<code> +
-L'Article comprend la phrase "SEPTEMBRE 1944ANVERS" +
-Cet article est daté du  1944-09-xx +
-******** +
-L'Article comprend la phrase "2022LILLE" +
-Cet article est daté du  2022-xx-xx +
-******** +
-L'Article comprend la phrase "1er JUIN 1789. PARIS" +
-Cet article est daté du 1789-06-01 +
-</code> +
- +
-OUT la requête et le résultat +
-<code> +
-L'Article comprend la phrase "20 OCTOBRE 1944.—SAINT PAUL.—(Minnesota) HEURE $ vers 06 H 20.0000tiocee%soe +
-Mesdames Helen PAMETTE et Nellie CARLIN furent terrifiées lorsqu'elles virent s'approcher" +
-Cet article est daté du  +
-</code> +
-1944-10-20 +
- +
-<code> +
-L'Article comprend la phrase "1945.—(sans dqte)========MM=7=====KONINKSEM (Limbourg)— Belgique.- +
-000000000Un jeune -argon de IO ansJean Paul KELLEUS, se trouvaiten face de la maison familiale" +
-Cet article est daté du  +
-</code> +
-1945-xx-xx +
- +
-<code> +
-L'Article comprend la phrase "AOUT 1947 JALHAY (prov. de Liège) Belgique. DESSELY mentionne qu'il fut témoin avec plusieurs autres personnes de la terreur d'un paysan après l'atterrissage d'un objet non identifié sur son" +
-Cet article est daté du  +
-</code> +
-1947-08-xx +
- +
-https://huggingface.co/bigscience/bloom +
-marche avec ces requetes en mode greedy +
-  +
-Essayez ceci :  +
-<code> +
-L'Article comprend la phrase "SEPTEMBRE 1944. ANVERS" +
-Cet article est daté du  1944-09-xx +
-******** +
-L'Article comprend la phrase "2022. LILLE" +
-Cet article est daté du  2022-xx-xx +
-******** +
-L'Article comprend la phrase "1er JUIN 1789. PARIS" +
-Cet article est daté du 1789-06-01 +
-******** +
-L'Article comprend la phrase "20 OCTOBRE 1944.—SAINT PAUL.—(Minnesota) HEURE $ vers 06 H 20.0000tiocee%soe Mesdames Helen PAMETTE et Nellie CARLIN furent terrifiées lorsqu'elles virent s'approcher" +
-Cet article est daté du   +
-</code> +
-Bloom: {{:ltdsp:media:bloom.jpg|}} +
- +
-ou encore....  +
-{{:ltdsp:media:bloom2.jpg|}} +
- +
-ChatGPT : {{:ltdsp:media:chatgpt.jpg|}} +
- +
-Game Over : {{:ltdsp:media:chatgpt3.jpg|}}+
  • ltsdp/nommage.1741167257.txt.gz
  • Dernière modification : 2025/03/05 10:34
  • de lcdvasrm