Download skips all datasets due to changes in RSS feed
Discovered while working on management#1087 (closed)
The links in the RSS feed have changed.
They used to be URLs like https://bdm.insee.fr/series/sdmx/dataflow/FR1/{dataset_id}
referencing SDMX content. Now they reference web pages (e.g. https://www.insee.fr/fr/statistiques/series/102411948
). The last element of the URL path is probably the bank ID (an INSEE naming) of the dataset in the BDM database.
As a consequence the download jobs skip all the datasets (e.g. https://git.nomics.world/dbnomics-fetchers/insee-fetcher/-/jobs/639512#L37)
The SDMX URL of the dataset should be reconstituted from the bank ID.
Examples
Before:
<item>
<title>[ICA-2015-IND-CONS] Indices de chiffre d'affaires dans l'industrie et la construction</title>
<link>https://bdm.insee.fr/series/sdmx/dataflow/FR1/ICA-2015-IND-CONS/1.0</link>
<description>Mise à jour de données pour le dataflow ICA-2015-IND-CONS</description>
<pubDate>Tue, 30 Nov 2021 11:00:00 GMT</pubDate>
<guid>https://www.insee.fr/fr/statistiques/series/109939789</guid>
</item>
After:
<item>
<title>[TCRED-SANTE-EQUIP-HOP] TCRED - Équipements hospitaliers - Hospital equipment</title>
<link>https://www.insee.fr/fr/statistiques/series/102322690</link>
<description>Mise à jour de données pour le dataflow TCRED-SANTE-EQUIP-HOP - Data update for dataflow TCRED-SANTE-EQUIP-HOP</description>
<pubDate>Tue, 07 Dec 2021 11:35:31 GMT</pubDate>
</item>
Resources
Edited by Christophe Benz