[FAQ] Cluster the pending questions
tags: FAQ, seminar, helpdesk
Pending items for the FAQ
@moranegg ; @bchauvet ; @lcruse : (edit 2024-06-12) please, here is an overview of what we could do during the seminar (and maybe after)
- Pending items for the FAQ
Sources
https://gitlab.softwareheritage.org/outreach/swh-academy/swh-faq/-/blob/main/faq.md?ref_type=heads #9 #8 #6 #5 #4

️ Materials to write the answers: Who does what and where?

https://cryptpad.fr/sheet/#/2/sheet/edit/+w0GCt9UtA0u0Ob-4TxpRwZD/
Current categories: reminder
https://gitlab.softwareheritage.org/outreach/swh-academy/swh-faq/-/blob/main/faq.md?ref_type=heads
- General, Legal and Financial
- Archiving Software
- Referencing and Identification
- Access and Reuse
- (Software Metadata: no item)
- (Research Software: out of the scope --> HAL docs)
- Crediting and Software Citation
- Next steps and long term strategy
- Get involved
Proposal of clusterization of the pending items
About the pending items: questions and proposals
The questions were not re formulated. Therefore in some cases, an adaptation work should be done: translating to English, summarizing.
What to check
- Check all the questions and see if some of them should be in another category. (YES= updating the table https://cryptpad.fr/sheet/#/2/sheet/edit/+w0GCt9UtA0u0Ob-4TxpRwZD/ and then the pads)
- For each section, check if some items should be gathered or kept apart. (YES= updating the table https://cryptpad.fr/sheet/#/2/sheet/edit/+w0GCt9UtA0u0Ob-4TxpRwZD/ and then the pads)
- For each question, there should be 1 author and at least 1 reviewer (better to choose someone with a different background from the 1st writer, to test the answer)
- For each section, the 1st writer and the reviewer check together how to re formulate the question, if needed.
- ? something else to be added ?
Open question
- How do we deal with contents linked to external infrastructures such HAL? Where the information should be added: in SWH FAQ or in the external structure's FAQ?
Guidance: how to write supporting answers
- Some of the questions should be expressed in another way and/or the answer should explain what are the associated stakes so that the answer would be useful for more people. In some cases, there is an implicit level of information that should be first clarified.
e.g.: how does SWH deal with project migration? --> it could be relevant to add or to put in the answer: does SWH copy all the files? (and other sub-questions raised by the main question)
e.g.: Since the launch of SWH, how many take down notices did you get? 3 levels of answers:
- A= Provide the number
- B= A + add a link to https://www.softwareheritage.org/legal/content-policy/
- C= A + B + remind in which cases someone can ask for a take down request: if people don't know what is a take down notice, they won't be eager to click on the link
Excerpts from a handbook for librarians
https://books.openedition.org/pressesenssib/180
DES FONDAMENTAUX POUR LE SAVOIR-RÉPONDRE
"Les premières questions que le répondant doit se poser sont : que sais-je du demandeur et que m’apprend-il à travers sa question ? Que veut-il prioritairement et/ou accessoirement ? Et donc comment vais-je orienter ma réponse ? Vers quelles sources ? Avec quelles limites ? Cette étape, indispensable et obligatoire aide le répondant à situer le niveau de réponse attendu et à poser des limites à sa recherche."
" Chaque mot compte, que ce soit dans un e-mail ou par chat. Cet effort de précision et de concision est aussi l’expression du professionnalisme et de l’expertise. Ce sont les raisons pour lesquelles les usagers s’adressent aux services de référence. La règle est donc de délivrer immédiatement la précision et la concision attendues, sans attendre la phrase suivante pour donner ces renseignements. Il s’agit d’aller directement et complètement à l’information."
EXPLIQUER, COMMENTER ET ACCOMPAGNER À L’UTILISATION DES RESSOURCES ?
"Là encore, plusieurs manières de procéder. La Cité de la Musique, BiblioSésame et Le Guichet du Savoir commentent peu, voire pas du tout, et délivrent une réponse sans explications. Ce dernier a choisi de donner une réponse précise et pas une orientation. Et nul ne peut mettre en doute le succès du Guichet du Savoir. L’éducation à l’information se fait ainsi à travers la somme des réponses, la fidélisation des usagers, la recherche possible dans les réponses en ligne. Dans les bibliothèques universitaires, la situation est différente. Peu ou prou, par e-mail ou par chat, les répondants commentent et expliquent."
"[...] les explications concernant les outils, les commentaires de ressources et l’accompagnement dans la démarche soulignent aussi l’expertise des bibliothécaires, tout comme ils fidélisent les utilisateurs."
Questions
Archiving Software
- What is the process to automate the deposit to SWH?
- My project is on a platform which is in principle automatically harvested. But when I check SWH, it's not archived though it's a code repository created more than 1 year ago. How do you explain it?
- The source code in itself isn't always enough. How does SWH provide contextual information about a project?
- #5 : "Mes projets publics sur gitlab.inria.fr ne sont pour la plupart pas sauvegardés. Est-ce que vous ne fouillez pas ce serveur systématiquement? (Même question pour ftp.gnu.org; j'avais l'impression que mes releases de mpc sur ce serveur n'apparaissent pas systématiquement dans SWH.Maintenant que j'ai sauvegardé une fois https://gitlab.inria.fr/mpc/mpc , est-ce que je dois le déclencher régulièrement, ou est-ce dans la liste des choses qui sont faites automatiquement désormais?"
- How does SWH deal with project migrations? (see proposal of answer: #8)
- How does SWH deal with the archiving of issues?
- If I submit a git repo that isn't on one of the known forges, will SWH periodically refresh it? or only fetch it once?
Storage
- How does SWH deal with environmental issues?
- How do you plan the needs in terms of storage?
- Where the code is stored?
- What happens if AWS closes?
Legal
- Est-il possible de mettre l'équivalent d'un "robot.txt" à la racine d'un dépôt si on souhaite refuser l'archivage d'une partie d'un dépôt (un répertoire par exemple)?
- How do you deal with legal aspects? What if a repo contains information that can't be shared?
- Is there an agreement signed between SWH and the owner of the platform that is harvested? What is the legal framework that allows the regular crawling?
Financial
- What's the SWH budget model?
- Does the Unesco contribute to SWH budget? From a practical point of view, what is the role of the Unesco?
Referencing and Identification
- Is it possible to use SWHIDs to identify other digital objects than software? for instance, evolutive data sets.
- (Mooc Reproducible Research) Dans le module 1, nous mettons en avant les archives et les identifiants pérènes et en particulier SWH et les swhid. Nous insistons ainsi sur l'importance d'archiver son code et de le référencer comme il faut dans ses articles. Et c'est parfait pour son propre code. Ceux qui veulent l'utiliser pourront effectivement le trouver sur SWH et le télécharger. En revanche, comme nous mettons également en avant l'intérêt d'automatiser, mettons nous dans la peau d'une chercheuse (pour changer! n'utilisant pas (encore GUIX et qui souhaiterait construire sur deux autres codes. De base, elle aurait mis deux wget (ou deux git clone avec le bon sha1 ou ...) dans son Makefile pour les récupérer de github ou de netlib. Mais c'est le "mal" car on n'est pas sûr de la pérénité de ces URLs et elle préférerait donc utiliser des SWHID. Comment faire en pratique ? En effet, j'ai l'impression qu'il est difficile de faire un wget sur SWH. On a bien vu le code dans GUIX qui passe par SWH quand il ne trouve pas ses sources, et ça marche super bien, mais c'est un peu hardcore pour une chercheuse "lambda". Cette dernière risque vite de se décourager et d'archiver les deux logiciels sur Zenodo histoire que son script puisse les télécharger directement, et ce n'est pas vraiment ce que l'on veut encourager. As-tu une idée sur la bonne façon de procéder ? Je comprends bien que SWH n'ait pas vocation à se substituer aux plates-formes classiques en terme d'accès à la donnée et que ça impliquerait une augmentation de la charge sur vos serveurs non négligable et non désirable. Du coup, on s'est aussi demandés s'il serait absurde que SWH fournisse (quand il le peut) un service qui transforme un SWHID en un lien où les données peuvent être téléchargées (chez github, gitlab, etc.), charge à l'utilisateur de vérifier qu'il récupère bien ce qu'il faut, bien sûr.""
Access and Reuse
- SWH peut-il être utilisé pour construire de grands modèles de langages (comme l'a fait par exemple GitHub pour Copilot)?
Crediting and Software Citation
- I saw that there is a bibLaTeX software citation package. But I'm not a LaTeX user. How could I manage my software citations in an accurate way?
Get involved: developers and trainers
- (proposal) I'd like to create tools to enrich the use of Software Heritage. May I ask Software Heritage to promote these tools on the website? Do I have to plan any validation process from the Software Heritage team?
- (proposal) I deliver training sessions about Software Heritage and would need to showcase the archiving features with fake deposits. Is there any sandbox I could use? --> note about the staging
Research Software (out of the scope)
- HAL DOCS: With HAL, it's easy to link 2 versions of a software. What about SWH? Where can I see the articulation between these different versions on SWH interface?
- HAL DOCS: Why did you choose to interface SWH with HAL rather than another platform (such as RechercheDataGouv)
- HAL DOCS: Quelle est la/les possibilités de lier des notices d'articles et des logiciels déposés dans HAL? Un chercheur envisage d'utiliser "lier les ressources", mais suggère des types de liens qui lui semblent plus adaptés. CodeMeta - referencePublication: l'article qui décrit le logiciel (An academic publication related to the software) ; #6