Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
ltsdp:nommage [2025/03/04 12:51] – [Organisation] lcdvasrm | ltsdp:nommage [2025/06/29 12:00] (Version actuelle) – [Le Futur (is now)] lcdvasrm | ||
---|---|---|---|
Ligne 48: | Ligne 48: | ||
Si un des articles s' | Si un des articles s' | ||
* Ce qui permet aux traitements automatiques de savoir que les images d'un répertoire doivent être regroupées est la présence dans le répertoire d'un fichier multi.txt (de contenu sans importance, il peut être vide). le pdf généré sera créé dans le répertoire parent. | * Ce qui permet aux traitements automatiques de savoir que les images d'un répertoire doivent être regroupées est la présence dans le répertoire d'un fichier multi.txt (de contenu sans importance, il peut être vide). le pdf généré sera créé dans le répertoire parent. | ||
- | * Si j'ai bien compris le comportement du script python sous windows, ce qui définit l'ordre des fichiers images au final dans le pdf, c'est d' | + | * L'ordre des fichiers images au final dans le pdf suit l' |
- | * Si l' | + | |
- | + | ||
On peut très bien avoir un mix de répertoires avec et sans multi.txt. Les contenus des répertoires sans multi.txt seront traités localement, le pdf de chaque jpg restera dans le repertoire du jpg. | On peut très bien avoir un mix de répertoires avec et sans multi.txt. Les contenus des répertoires sans multi.txt seront traités localement, le pdf de chaque jpg restera dans le repertoire du jpg. | ||
Ligne 72: | Ligne 69: | ||
Les pdf sont constituées sans perte de qualité. Les images y sont stockées telles quelles. Pas de recompression effectuée. | Les pdf sont constituées sans perte de qualité. Les images y sont stockées telles quelles. Pas de recompression effectuée. | ||
- | En conservant les images, et en contrôlant la génération des pdf purs (sans ocr), on se prémunit des alterations par des outils tiers. Chaque fois que les outils d'ocr progresseront, | + | En conservant les images, et en contrôlant la génération des pdf purs (sans ocr), on se prémunit des alterations par des outils tiers. Chaque fois que les outils d'OCR progresseront, |
- | (si j'ai bien compris) **Ce qui définit l' | + | Les fichiers |
- | Si l' | ||
====== Règles de nommage des fichiers et répertoires ====== | ====== Règles de nommage des fichiers et répertoires ====== | ||
Ligne 185: | Ligne 181: | ||
==== Exemple de noms de fichiers pour les coupures de presse ==== | ==== Exemple de noms de fichiers pour les coupures de presse ==== | ||
- | 1976-10-11_l_est-republicain_nancy_p01.jpg | + | Cas avec deux articles dans le même journal sur deux pages différentes, |
- | 1976-10-11_l_est-republicain_nancy_p22.jpg | + | 1976-10-11_l-est-republicain_nancy_p01.jpg |
+ | |||
+ | 1976-10-11_l-est-republicain_nancy_p22.jpg | ||
Cas avec deux articles dans le même journal, à la même page, | Cas avec deux articles dans le même journal, à la même page, | ||
- | 1976-10-11_l_est-republicain_nancy_1_p01.jpg | + | 1976-10-11_l-est-republicain_nancy_1_p01.jpg |
- | 1976-10-11_l_est-republicain_nancy_2_p01.jpg | + | 1976-10-11_l-est-republicain_nancy_2_p01.jpg |
Cas avec deux articles dans le même journal et la page n'est pas connue | Cas avec deux articles dans le même journal et la page n'est pas connue | ||
- | 1976-10-11_l_est-republicain_nancy_1.jpg | + | 1976-10-11_l-est-republicain_nancy_1.jpg |
- | 1976-10-11_l_est-republicain_nancy_2.jpg | + | 1976-10-11_l-est-republicain_nancy_2.jpg |
Ligne 209: | Ligne 207: | ||
Une autre approche plus automatisée, | Une autre approche plus automatisée, | ||
- | Ils sont générés automatiquement et validés par un humain manuellement. | + | Ils sont générés automatiquement et validés par un humain manuellement. |
==== Coupures de Presse ==== | ==== Coupures de Presse ==== | ||
Ligne 606: | Ligne 604: | ||
====== Le Futur (is now) ====== | ====== Le Futur (is now) ====== | ||
- | < | + | En 2023-24, nous utilisons le modèle gpt-3.5-turbo-1106 pour son faible coût. Il donne un bon rapport coût/intelligence pour notre application.\\ |
- | + | En 2025, nous utilisons gpt-4o-mini-2024-07-18 tout aussi performant semble-t-il et moins cher. | |
- | exemple : | + | |
- | IN (3 exemples suffisent pour l' | + | |
- | < | + | |
- | L' | + | |
- | Cet article est daté du 1944-09-xx | + | |
- | ******** | + | |
- | L' | + | |
- | Cet article est daté du 2022-xx-xx | + | |
- | ******** | + | |
- | L' | + | |
- | Cet article est daté du 1789-06-01 | + | |
- | </code> | + | |
- | + | ||
- | OUT la requête et le résultat | + | |
- | < | + | |
- | L' | + | |
- | Mesdames Helen PAMETTE et Nellie CARLIN furent terrifiées lorsqu' | + | |
- | Cet article est daté du | + | |
- | </ | + | |
- | 1944-10-20 | + | |
- | + | ||
- | < | + | |
- | L' | + | |
- | 000000000Un jeune -argon de IO ans, Jean Paul KELLEUS, se trouvaiten face de la maison familiale" | + | |
- | Cet article est daté du | + | |
- | </ | + | |
- | 1945-xx-xx | + | |
- | + | ||
- | < | + | |
- | L' | + | |
- | Cet article est daté du | + | |
- | </ | + | |
- | 1947-08-xx | + | |
- | + | ||
- | https:// | + | |
- | marche avec ces requetes en mode greedy | + | |
- | + | ||
- | Essayez ceci : | + | |
- | < | + | |
- | L' | + | |
- | Cet article est daté du 1944-09-xx | + | |
- | ******** | + | |
- | L' | + | |
- | Cet article est daté du 2022-xx-xx | + | |
- | ******** | + | |
- | L' | + | |
- | Cet article est daté du 1789-06-01 | + | |
- | ******** | + | |
- | L' | + | |
- | Cet article est daté du | + | |
- | </ | + | |
- | Bloom: {{: | + | |
- | + | ||
- | ou encore.... | + | |
- | {{: | + | |
- | + | ||
- | ChatGPT : {{: | + | |
- | + | ||
- | Game Over : {{: | + |