Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
ltsdp:nommage [2025/03/04 11:40] – [Exemple de noms de fichiers pour les coupures de presse] lcdvasrm | ltsdp:nommage [2025/06/29 12:00] (Version actuelle) – [Le Futur (is now)] lcdvasrm | ||
---|---|---|---|
Ligne 38: | Ligne 38: | ||
Le script de conversion en pdf pour les coupures de presse (scandirjpg2pdf) fait l' | Le script de conversion en pdf pour les coupures de presse (scandirjpg2pdf) fait l' | ||
- | Il traite aussi le cas ou une coupure de presse s' | + | Il traite aussi le cas ou une coupure de presse s' |
Dernier cas : avoir une image qui contient plusieurs coupures de presse est aussi gérable automatiquement (traité à ce stade comme une seule coupure). C'est à l' | Dernier cas : avoir une image qui contient plusieurs coupures de presse est aussi gérable automatiquement (traité à ce stade comme une seule coupure). C'est à l' | ||
Ligne 46: | Ligne 46: | ||
Donc, de préférence, | Donc, de préférence, | ||
- | Si un des articles s' | + | Si un des articles s' |
- | + | | |
- | Ce qui permet aux traitements automatiques de savoir que les images d'un répertoire doivent être regroupées est la présence dans le répertoire d'un fichier multi.txt (de contenu sans importance, il peut être vide). le pdf généré sera créé dans le répertoire parent. | + | * L' |
On peut très bien avoir un mix de répertoires avec et sans multi.txt. Les contenus des répertoires sans multi.txt seront traités localement, le pdf de chaque jpg restera dans le repertoire du jpg. | On peut très bien avoir un mix de répertoires avec et sans multi.txt. Les contenus des répertoires sans multi.txt seront traités localement, le pdf de chaque jpg restera dans le repertoire du jpg. | ||
Ligne 69: | Ligne 69: | ||
Les pdf sont constituées sans perte de qualité. Les images y sont stockées telles quelles. Pas de recompression effectuée. | Les pdf sont constituées sans perte de qualité. Les images y sont stockées telles quelles. Pas de recompression effectuée. | ||
- | En conservant les images, et en contrôlant la génération des pdf purs (sans ocr), on se prémunit des alterations par des outils tiers. Chaque fois que les outils d'ocr progresseront, | + | En conservant les images, et en contrôlant la génération des pdf purs (sans ocr), on se prémunit des alterations par des outils tiers. Chaque fois que les outils d'OCR progresseront, |
- | (si j'ai bien compris) **Ce qui définit l' | + | Les fichiers |
- | Si l' | ||
====== Règles de nommage des fichiers et répertoires ====== | ====== Règles de nommage des fichiers et répertoires ====== | ||
Ligne 182: | Ligne 181: | ||
==== Exemple de noms de fichiers pour les coupures de presse ==== | ==== Exemple de noms de fichiers pour les coupures de presse ==== | ||
- | 1976-10-11_l_est-republicain_nancy_p01.jpg | + | Cas avec deux articles dans le même journal sur deux pages différentes, |
- | 1976-10-11_l_est-republicain_nancy_p22.jpg | + | 1976-10-11_l-est-republicain_nancy_p01.jpg |
+ | |||
+ | 1976-10-11_l-est-republicain_nancy_p22.jpg | ||
Cas avec deux articles dans le même journal, à la même page, | Cas avec deux articles dans le même journal, à la même page, | ||
- | 1976-10-11_l_est-republicain_nancy_1_p01.jpg | + | 1976-10-11_l-est-republicain_nancy_1_p01.jpg |
- | 1976-10-11_l_est-republicain_nancy_2_p01.jpg | + | 1976-10-11_l-est-republicain_nancy_2_p01.jpg |
Cas avec deux articles dans le même journal et la page n'est pas connue | Cas avec deux articles dans le même journal et la page n'est pas connue | ||
- | 1976-10-11_l_est-republicain_nancy_1.jpg | + | 1976-10-11_l-est-republicain_nancy_1.jpg |
- | 1976-10-11_l_est-republicain_nancy_2.jpg | + | 1976-10-11_l-est-republicain_nancy_2.jpg |
Ligne 206: | Ligne 207: | ||
Une autre approche plus automatisée, | Une autre approche plus automatisée, | ||
- | Ils sont générés automatiquement et validés par un humain manuellement. | + | Ils sont générés automatiquement et validés par un humain manuellement. |
==== Coupures de Presse ==== | ==== Coupures de Presse ==== | ||
Ligne 603: | Ligne 604: | ||
====== Le Futur (is now) ====== | ====== Le Futur (is now) ====== | ||
- | < | + | En 2023-24, nous utilisons le modèle gpt-3.5-turbo-1106 pour son faible coût. Il donne un bon rapport coût/intelligence pour notre application.\\ |
- | + | En 2025, nous utilisons gpt-4o-mini-2024-07-18 tout aussi performant semble-t-il et moins cher. | |
- | exemple : | + | |
- | IN (3 exemples suffisent pour l' | + | |
- | < | + | |
- | L' | + | |
- | Cet article est daté du 1944-09-xx | + | |
- | ******** | + | |
- | L' | + | |
- | Cet article est daté du 2022-xx-xx | + | |
- | ******** | + | |
- | L' | + | |
- | Cet article est daté du 1789-06-01 | + | |
- | </code> | + | |
- | + | ||
- | OUT la requête et le résultat | + | |
- | < | + | |
- | L' | + | |
- | Mesdames Helen PAMETTE et Nellie CARLIN furent terrifiées lorsqu' | + | |
- | Cet article est daté du | + | |
- | </ | + | |
- | 1944-10-20 | + | |
- | + | ||
- | < | + | |
- | L' | + | |
- | 000000000Un jeune -argon de IO ans, Jean Paul KELLEUS, se trouvaiten face de la maison familiale" | + | |
- | Cet article est daté du | + | |
- | </ | + | |
- | 1945-xx-xx | + | |
- | + | ||
- | < | + | |
- | L' | + | |
- | Cet article est daté du | + | |
- | </ | + | |
- | 1947-08-xx | + | |
- | + | ||
- | https:// | + | |
- | marche avec ces requetes en mode greedy | + | |
- | + | ||
- | Essayez ceci : | + | |
- | < | + | |
- | L' | + | |
- | Cet article est daté du 1944-09-xx | + | |
- | ******** | + | |
- | L' | + | |
- | Cet article est daté du 2022-xx-xx | + | |
- | ******** | + | |
- | L' | + | |
- | Cet article est daté du 1789-06-01 | + | |
- | ******** | + | |
- | L' | + | |
- | Cet article est daté du | + | |
- | </ | + | |
- | Bloom: {{: | + | |
- | + | ||
- | ou encore.... | + | |
- | {{: | + | |
- | + | ||
- | ChatGPT : {{: | + | |
- | + | ||
- | Game Over : {{: | + |