Différences

Ci-dessous, les différences entre deux révisions de la page.

--- ltsdp:nommage [2025/03/04 11:20] – [Pour les coupures de presse] lcdvasrm
+++ ltsdp:nommage [2026/05/31 20:31] (Version actuelle) – [Le Futur (is now)] lcdvasrm
@@ Ligne 38: / Ligne 38: @@
 Le script de conversion en pdf pour les coupures de presse (scandirjpg2pdf) fait l'hypothèse que par défaut (c'est à dire en général), à chaque coupure de presse correspond une seule image. Mais il peut aussi traiter les autres cas.
-Il traite aussi le cas ou une coupure de presse s'étale sur plusieurs images, mais il faut lui préciser, il ne peut pas deviner. Cf ci dessous\\
+Il traite aussi le cas ou une coupure de presse s'étale sur plusieurs images, mais il faut lui préciser, il ne peut pas deviner. Cf ci dessous. Dans ce cas, le nom des images est peu important, si ce n'est pour aider à l'ordonnancement des pages. C'est le nom du répertoire qui sera important et va déterminer le nom du pdf généré.\\
 Dernier cas : avoir une image qui contient plusieurs coupures de presse est aussi gérable automatiquement (traité à ce stade comme une seule coupure). C'est à l'étape d'IA, plus tard que la détection de la présence de plusieurs articles est faite par chatgpt, le json généré contiendra plusieurs entrées. Vous remarquerez que dans ce cas, le nom du fichier n'est plus bijectif avec le contenu. C'est ok, car c'est le json qui a ce role.
@@ Ligne 46: / Ligne 46: @@
 Donc, de préférence, un fichier image par article/coupure de presse. Chaque fichier nommé optionnellement. Dans ce cas, il n'a pas besoin d'être dans un répertoire dédié. Tout peut-être à la racine.
-Si un des articles s'étale sur plusieurs pages, plusieurs images, alors, les images doivent être regroupées dans un sous répertoire à nommer **optionnellement** selon les règles de nommage. Dans ce cas, le nom des images est peu important. C'est le nom du répertoire qui sera important et va déterminer le nom du pdf généré.\\
+Si un des articles s'étale sur plusieurs pages, plusieurs images, alors, ses images doivent être regroupées dans un sous répertoire à nommer **optionnellement** selon les règles de nommage. Dans ce cas, le nom des images est peu important, si ce n'est pour aider à l'ordonnancement des pages. C'est le nom du répertoire qui sera important et va déterminer le nom du pdf généré.\\
+  * Ce qui permet aux traitements automatiques de savoir que les images d'un répertoire doivent être regroupées est la présence dans le répertoire d'un fichier multi.txt (de contenu sans importance, il peut être vide). le pdf généré sera créé dans le répertoire parent.
+  * L'ordre des fichiers images au final dans le pdf suit l'ordre alphabétique des nom des fichiers image
+On peut très bien avoir un mix de répertoires avec et sans multi.txt. Les contenus des répertoires sans multi.txt seront traités localement, le pdf de chaque jpg restera dans le repertoire du jpg.
-Ce qui permet aux traitements automatiques de savoir que ces images doivent être regroupées est la présence dans le même répertoire d'un fichier multi.txt (de contenu sans importance, il peut être vide).
 ==== Situations à problème ====
@@ Ligne 65: / Ligne 69: @@
 Les pdf sont constituées sans perte de qualité. Les images y sont stockées telles quelles. Pas de recompression effectuée.
-En conservant les images, et en contrôlant la génération des pdf purs (sans ocr), on se prémunit des alterations par des outils tiers. Chaque fois que les outils d'ocr progresseront, on pourra en profiter.
+En conservant les images, et en contrôlant la génération des pdf purs (sans ocr), on se prémunit des alterations par des outils tiers. Chaque fois que les outils d'OCR progresseront, on pourra en profiter.
-(si j'ai bien compris) **Ce qui définit l'ordre des fichiers images dans le pdf, c'est l'ordre dans lequel les fichiers image ont été placés dans le répertoire**...  (on peut voir cet ordre avec la commande DOS dir)
+Les fichiers image seront intégrés dans le pdf suivant l'ordre alphabétique du nom des fichiers images.
-Si l'ordre ne va pas, la façon de s'en sortir est de déplacer les images dans un répertoire annexe puis de les remettre dans l'ordre dans le répertoire d'origine. On peut les déplacer par paquets bien sûr. La façon de faire la sélection multiple des fichiers dans l'explorateur windows a un effet. Bien comprendre la logique peut nécessiter quelques essais. Typiquement, il faut finir la sélection par le premier fichier.
 ====== Règles de nommage des fichiers et répertoires ======
@@ Ligne 178: / Ligne 181: @@
 ==== Exemple de noms de fichiers pour les coupures de presse ====
--10-11_est-republicain_nancy_p01.jpg
+Cas avec deux articles dans le même journal sur deux pages différentes,
--10-11_est-republicain_nancy_p22.jpg
+-10-11_l-est-republicain_nancy_p01.jpg
+-10-11_l-est-republicain_nancy_p22.jpg
+Cas avec deux articles dans le même journal, à la même page,
+-10-11_l-est-republicain_nancy_1_p01.jpg
+-10-11_l-est-republicain_nancy_2_p01.jpg
+Cas avec deux articles dans le même journal et la page n'est pas connue
+-10-11_l-est-republicain_nancy_1.jpg
+-10-11_l-est-republicain_nancy_2.jpg
@@ Ligne 192: / Ligne 207: @@
 Une autre approche plus automatisée, consiste à générer avec une IA (genre ChatGPT) des fichiers texte .json équivalents au xyz_info.txt.
-Ils sont générés automatiquement et validés par un humain manuellement.  Xavier a développé une petite appli d'aide à la correction (si généré par IA) ou création manuelle de ces json.
+Ils sont générés automatiquement et validés par un humain manuellement.  Xavier a développé une petite appli d'aide à la correction (si généré par IA) ou création manuelle de ces json. Nous avons maintenant une appli plus élaborée pour rendre les corrections plus ergonomiques.
 ==== Coupures de Presse ====
@@ Ligne 471: / Ligne 486: @@
 Toutes les étapes décrites ci dessous sont automatisées sauf indication contraire. Automatisées dans le sens où le nombre d'opération manuelles est fixe (O(1)) et indépendant du nombre de documents traités.
-Les scripts (en langage python) sont déjà tous été développés. Et adaptés à chaque fois pour les spécificités de chaque fond.
+Les scripts (en langage python) ont été adaptés à chaque fois pour les spécificités de chaque fond.
 Prenons l'exemple d'un fond provenant de RRE.
@@ Ligne 589: / Ligne 604: @@
 ====== Le Futur (is now) ======
-<del>Dans 5 ans peut-être</del> : Non, en fait, tout de suite... Utilisation de l'IA bloom pour l'extraction de données formattée et remplissage auto de la BDD.
+En 2023-24, nous utilisons le modèle gpt-3.5-turbo-1106 pour son faible coût. Il donne un bon rapport coût/intelligence pour notre application.\\
+En 2025, nous utilisons gpt-4o-mini-2024-07-18 tout aussi performant semble-t-il et moins cher.\\
-exemple :
+En 2026, nous sommes en mesure de fournir un [[https://sceau-archives-ovni.org/fonds/Coupures_de_Presse.html|tableau général]].
-IN (3 exemples suffisent pour l'apprentissage)
-<code>
-L'Article comprend la phrase "SEPTEMBRE 1944. ANVERS"
-Cet article est daté du  1944-09-xx
-********
-L'Article comprend la phrase "2022. LILLE"
-Cet article est daté du  2022-xx-xx
-********
-L'Article comprend la phrase "1er JUIN 1789. PARIS"
-Cet article est daté du 1789-06-01
-</code>
-OUT la requête et le résultat
-<code>
-L'Article comprend la phrase "20 OCTOBRE 1944.—SAINT PAUL.—(Minnesota) HEURE $ vers 06 H 20.0000tiocee%soe
-Mesdames Helen PAMETTE et Nellie CARLIN furent terrifiées lorsqu'elles virent s'approcher"
-Cet article est daté du
-</code>
--10-20
-<code>
-L'Article comprend la phrase "1945.—(sans dqte)========MM=7=====KONINKSEM (Limbourg)— Belgique.-
-000000000Un jeune -argon de IO ans, Jean Paul KELLEUS, se trouvaiten face de la maison familiale"
-Cet article est daté du
-</code>
--xx-xx
-<code>
-L'Article comprend la phrase "AOUT 1947 JALHAY (prov. de Liège) Belgique. DESSELY mentionne qu'il fut témoin avec plusieurs autres personnes de la terreur d'un paysan après l'atterrissage d'un objet non identifié sur son"
-Cet article est daté du
-</code>
--08-xx
-https://huggingface.co/bigscience/bloom
-marche avec ces requetes en mode greedy
-Essayez ceci :
-<code>
-L'Article comprend la phrase "SEPTEMBRE 1944. ANVERS"
-Cet article est daté du  1944-09-xx
-********
-L'Article comprend la phrase "2022. LILLE"
-Cet article est daté du  2022-xx-xx
-********
-L'Article comprend la phrase "1er JUIN 1789. PARIS"
-Cet article est daté du 1789-06-01
-********
-L'Article comprend la phrase "20 OCTOBRE 1944.—SAINT PAUL.—(Minnesota) HEURE $ vers 06 H 20.0000tiocee%soe Mesdames Helen PAMETTE et Nellie CARLIN furent terrifiées lorsqu'elles virent s'approcher"
-Cet article est daté du
-</code>
-Bloom: {{:ltdsp:media:bloom.jpg|}}
-ou encore....
-{{:ltdsp:media:bloom2.jpg|}}
-ChatGPT : {{:ltdsp:media:chatgpt.jpg|}}
-Game Over : {{:ltdsp:media:chatgpt3.jpg|}}