Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
ltsdp:nommage [2024/10/25 18:47] – [Documents publiables / partageables] lcdvasrm | ltsdp:nommage [2025/06/29 12:00] (Version actuelle) – [Le Futur (is now)] lcdvasrm | ||
---|---|---|---|
Ligne 13: | Ligne 13: | ||
====== Organisation des fichiers ====== | ====== Organisation des fichiers ====== | ||
+ | Deux scripts python différents sont utilisés pour d' | ||
+ | Un qui est bien adapté aux coupures de presse scandirjpg2df, | ||
+ | Le but est de réduire les opérations manuelles de préparation des fichiers. | ||
===== Pour les coupures de presse ===== | ===== Pour les coupures de presse ===== | ||
+ | ==== Images ==== | ||
{{: | {{: | ||
Ligne 21: | Ligne 24: | ||
L' | L' | ||
- | Si votre document est déjà sous forme de pdf, rien à faire. Mais attention, cela ne veut pas dire que c' | + | Si plusieurs articles sont regroupés sur une seule page (non recommandé), bien placer "le nom du journal, la date formatée et le numéro de la page" au dessus de chaque article. Pas d'acrobaties avec des flèches vers la droite ou la gauche. Ne pas placer des articles à coté les uns des autres. Mais plutôt au dessus les uns des autres. |
- | Un fichier image par article/ | + | Si votre document est déjà sous forme de pdf, autant ne rien à faire pour ne pas dégrader plus l' |
+ | |||
+ | ==== Nommage des fichiers et ou répertoires ==== | ||
+ | |||
+ | Nommage : il y a un choix à faire. | ||
+ | * Si vous décidez de vouloir nommer les fichiers suivant les règles, alors cela signifie que tout le lot devra être nommé manuellement. | ||
+ | * Si vous décidez de ne rien nommer, cela sera fait automatiquement après le traitement par l'IA en utilisant les informations extraites. | ||
+ | |||
+ | Ce qui peut pousser à nommer manuellement : peu de fichiers, temps libre infini, ou bien scans de très mauvaise qualité au point qu'il y a de bonnes chances que l'ocr échoue. | ||
+ | |||
+ | Le script de conversion en pdf pour les coupures de presse (scandirjpg2pdf) fait l' | ||
+ | |||
+ | Il traite aussi le cas ou une coupure de presse s' | ||
+ | Dernier cas : avoir une image qui contient plusieurs coupures de presse est aussi gérable automatiquement (traité à ce stade comme une seule coupure). C'est à l' | ||
+ | |||
+ | Si il y a plusieurs articles dans le même journal à la même date en plusieurs images, utiliser un nommage avec un index par exemple. En nommage automatique ce n'est pas problématique non plus. | ||
+ | |||
+ | ==== Organisation ==== | ||
+ | Donc, de préférence, | ||
+ | |||
+ | Si un des articles s' | ||
+ | * Ce qui permet aux traitements automatiques de savoir que les images d'un répertoire doivent être regroupées est la présence dans le répertoire d'un fichier multi.txt (de contenu sans importance, il peut être vide). le pdf généré sera créé dans le répertoire parent. | ||
+ | * L' | ||
+ | |||
+ | On peut très bien avoir un mix de répertoires avec et sans multi.txt. Les contenus des répertoires sans multi.txt seront traités localement, le pdf de chaque jpg restera dans le repertoire du jpg. | ||
+ | |||
+ | |||
+ | |||
+ | ==== Situations à problème ==== | ||
+ | Si un sous répertoire avec multi.txt porte le même nom qu'un des fichiers image du répertoire au dessus, cela va créer un conflit puisqu' | ||
- | Si un article s' | ||
- | Ce qui permet aux traitements automatiques de savoir que ces images doivent être regroupées est la présence dans le même répertoire d'un fichier multi.txt (de contenu sans importance, il peut être vide). | ||
- | Si plusieurs articles sont regroupés sur une seule page (non recommandé), | ||
===== Pour les revues ===== | ===== Pour les revues ===== | ||
+ | ==== Images ==== | ||
De préférence des images jpg en 300dpi avec un taux de compression faible. | De préférence des images jpg en 300dpi avec un taux de compression faible. | ||
Le critère de qualité est la très bonne lisibilité des textes. | Le critère de qualité est la très bonne lisibilité des textes. | ||
+ | ==== Organisation ==== | ||
Les images sont à placer dans un répertoire par exemplaire de revue. | Les images sont à placer dans un répertoire par exemplaire de revue. | ||
- | + | ==== Nommage ==== | |
- | Les post traitements automatiques regrouperont les images en un seul pdf qui prendra le nom du répertoire et sera placé dans le répertoire au dessus. | + | Les post traitements automatiques regrouperont les images en un seul pdf **qui prendra le nom du répertoire** et sera placé dans le répertoire au dessus. |
Les pdf sont constituées sans perte de qualité. Les images y sont stockées telles quelles. Pas de recompression effectuée. | Les pdf sont constituées sans perte de qualité. Les images y sont stockées telles quelles. Pas de recompression effectuée. | ||
- | En conservant les images, et en contrôlant la génération des pdf purs (sans ocr), on se prémunit des alterations par des outils tiers. Chaque fois que les outils d'ocr progresseront, | + | En conservant les images, et en contrôlant la génération des pdf purs (sans ocr), on se prémunit des alterations par des outils tiers. Chaque fois que les outils d'OCR progresseront, |
+ | |||
+ | Les fichiers image seront intégrés dans le pdf suivant l' | ||
- | (si j'ai bien compris) Ce qui définit l' | ||
- | Si l' | ||
====== Règles de nommage des fichiers et répertoires ====== | ====== Règles de nommage des fichiers et répertoires ====== | ||
Ligne 151: | Ligne 181: | ||
==== Exemple de noms de fichiers pour les coupures de presse ==== | ==== Exemple de noms de fichiers pour les coupures de presse ==== | ||
- | 1976-10-11_est-republicain_nancy_p01.jpg | + | Cas avec deux articles dans le même journal sur deux pages différentes, |
- | 1976-10-11_est-republicain_nancy_p22.jpg | + | 1976-10-11_l-est-republicain_nancy_p01.jpg |
+ | 1976-10-11_l-est-republicain_nancy_p22.jpg | ||
+ | Cas avec deux articles dans le même journal, à la même page, | ||
+ | |||
+ | 1976-10-11_l-est-republicain_nancy_1_p01.jpg | ||
+ | |||
+ | 1976-10-11_l-est-republicain_nancy_2_p01.jpg | ||
+ | |||
+ | Cas avec deux articles dans le même journal et la page n'est pas connue | ||
+ | |||
+ | 1976-10-11_l-est-republicain_nancy_1.jpg | ||
+ | |||
+ | 1976-10-11_l-est-republicain_nancy_2.jpg | ||
Ligne 165: | Ligne 207: | ||
Une autre approche plus automatisée, | Une autre approche plus automatisée, | ||
- | Ils sont générés automatiquement et validés par un humain manuellement. | + | Ils sont générés automatiquement et validés par un humain manuellement. |
==== Coupures de Presse ==== | ==== Coupures de Presse ==== | ||
Ligne 551: | Ligne 593: | ||
Sécurisé en RAID sur NAS Synology avec miroir sur site distant (actuellement, | Sécurisé en RAID sur NAS Synology avec miroir sur site distant (actuellement, | ||
- | |||
- | Si on achète le DS920+, le NAS actuel pourra servir de miroir. | ||
===== Documents publiables / partageables ===== | ===== Documents publiables / partageables ===== | ||
Ligne 564: | Ligne 604: | ||
====== Le Futur (is now) ====== | ====== Le Futur (is now) ====== | ||
- | < | + | En 2023-24, nous utilisons le modèle gpt-3.5-turbo-1106 pour son faible coût. Il donne un bon rapport coût/intelligence pour notre application.\\ |
- | + | En 2025, nous utilisons gpt-4o-mini-2024-07-18 tout aussi performant semble-t-il et moins cher. | |
- | exemple : | + | |
- | IN (3 exemples suffisent pour l' | + | |
- | < | + | |
- | L' | + | |
- | Cet article est daté du 1944-09-xx | + | |
- | ******** | + | |
- | L' | + | |
- | Cet article est daté du 2022-xx-xx | + | |
- | ******** | + | |
- | L' | + | |
- | Cet article est daté du 1789-06-01 | + | |
- | </code> | + | |
- | + | ||
- | OUT la requête et le résultat | + | |
- | < | + | |
- | L' | + | |
- | Mesdames Helen PAMETTE et Nellie CARLIN furent terrifiées lorsqu' | + | |
- | Cet article est daté du | + | |
- | </ | + | |
- | 1944-10-20 | + | |
- | + | ||
- | < | + | |
- | L' | + | |
- | 000000000Un jeune -argon de IO ans, Jean Paul KELLEUS, se trouvaiten face de la maison familiale" | + | |
- | Cet article est daté du | + | |
- | </ | + | |
- | 1945-xx-xx | + | |
- | + | ||
- | < | + | |
- | L' | + | |
- | Cet article est daté du | + | |
- | </ | + | |
- | 1947-08-xx | + | |
- | + | ||
- | https:// | + | |
- | marche avec ces requetes en mode greedy | + | |
- | + | ||
- | Essayez ceci : | + | |
- | < | + | |
- | L' | + | |
- | Cet article est daté du 1944-09-xx | + | |
- | ******** | + | |
- | L' | + | |
- | Cet article est daté du 2022-xx-xx | + | |
- | ******** | + | |
- | L' | + | |
- | Cet article est daté du 1789-06-01 | + | |
- | ******** | + | |
- | L' | + | |
- | Cet article est daté du | + | |
- | </ | + | |
- | Bloom: {{: | + | |
- | + | ||
- | ou encore.... | + | |
- | {{: | + | |
- | + | ||
- | ChatGPT : {{: | + | |
- | + | ||
- | Game Over : {{: | + |