Contrat sur une url de développement

audit-de-site
url
crawler
reseau-local
no-gtlds
Tags: #<Tag:0x00007fe6a21df660> #<Tag:0x00007fe6a21df4f8> #<Tag:0x00007fe6a21df3b8> #<Tag:0x00007fe6a21df278> #<Tag:0x00007fe6a21df138>

#1

Bonjour
Nous utilisons asqatasun pour crawler des sites en prod, mais j’aimerai pouvoir l’utiliser désormais pour les sites en dev donc avec des url internes type http://monsite.validationXXX.extensionbizarre
Mais impossible de renseigner la page du contrat l’url n’est pas reconnue valide.

Version actuelle utilisée 4.01 sous Docker.

Merci
Yann


#2

Bonjour @yanoliv,

Merci pour ton retour. On a déjà eu ça à gérer, mais il semblait que c’était réglé… @fabrice @koj des souvenirs ?

Pour bien comprendre, ton site est sur un domaine interne du genre masociete.priv au lieu de masociete.fr. Et les noms en .priv ne sont accessibles que depuis l’intranet ou un VPN. Est-ce bien ça ?


#3

Bonjour @yanoliv, (bis)

@mfaure, pour les audits de site, les modifications déjà faites sont :


@vivileds avait déposé sur Github les patchs utilisés pour le même type de contrainte.

En fait, pour le formulaire, il faudrait juste interdire les URL de ce type http://login:motdepasse@siteweb.tld car de mémoire c’est la seule chose qui n’est pas gérée par le crawler…


#4

OK. Il y avait plusieurs sujet. Il y en a un qui est passé au travers des mailles du filet. Il nous faut intégrer le patch de @vivileds :

@fabrice tu vois une manière de faire ça proprement en git pour conserver l’auteur ? (clone du repos + cherrypick non ?)


#5

git push --force master ? :smiling_imp:

en mode git, comme tu le propose : remote add + fetch + cherrypick
ou dans Github : PR + validation du PR (mode Rebase)

mais en fait, j’ai déjà les commits sur mon dépôt local… :slight_smile:


On rajoute après l’interdiction des URL http://login:motdepasse@siteweb.tld ?
tu as une proposition pour la Regex qui va bien ?

Il ne faut pas modifier des tests unitaires ?


#6

@yanoliv, dans le branche develop, le formulaire du contrat accepte maintenant les URL du type http://monsite.validationxx.extensionbizarr. Cette modification sera certainement intégrée dans la prochaine release.

Si tu veux tester, tu peux utiliser l’image docker de branche develop. Tiens nous au courant si cette modification fonctionne correctement dans ton environnement.

docker pull asqatasun/asqatasun:SNAPSHOT
docker run --name asqatasun_SNAPSHOT -d -p 127.0.0.1:8085:8080  asqatasun/asqatasun:SNAPSHOT

Note toutefois, que monsite.validationxx.extensionbizarr doit pouvoir être résolu via une requête DNS pour que l’audit de site démarre. L’utilisation d’un proxy dans la configuration d’Asqatasun semble parfois poser problème à ce niveau.


#7

Actuellement dans la branche develop, le prefix (http:// ou https://) est validé en amont
de la regex qui accepte tout : new RegexValidator(".*")

@mfaure, comment, faut-il modifier la Regex pour interdire un @ avant le premier /
pour d’éliminer les URL http://login:motdepasse@siteweb.tld non gérées par le crawler ?


#8

Merci @fabrice. Je vous tiens au courant.
Yann


#9

Parfait, cela fonctionne. le formulaire accepte ce type d’url et l’audit fonctionne.
Merci

Yann


#10

3 Questions Bonus

  • L’audit de site se limite à la page d’accueil, pas de crawl (ce n’est pas bloquant car j’utilise plutôt l’audit de pages)

  • La modification sera intégrée à la prochaine version ?

  • Une version Docker utilisable en prod est elle prévue (pas de reset des données à chaque reboot…)?

Yann


#11

C’est quoi la question ? :slight_smile:

-> yes

-> yes aussi :slight_smile:


#12

Bonjour Matthieu,

Tout simplement que la modification apportée au formulaire est ok, l’url a été acceptée, mais que l’audit de site que j’ai lancé s’est limité à la page d’accueil du site, il n’y pas eu de crawl en profondeur du site.


#13

C’est plutôt bizarre… :spy:
tu pourrais nous montrer une copie d’écran comme celle-ci :


#14

voila :


#15

juste une précision @yanoliv, les données ne sont pas perdues à chaque reboot mais surtout à chaque nouvelle version d’Asqatasun. Testé sur une machine sous Ubuntu.

En utilisant avec la commande docker run l’option --restart always, le conteneur Docker d’Asqatasun est relancé à chaque boot de la machine hôte.

Et si cette option n’a pas été utilisée, un simple docker start <nom_du_conteneur>
permet de retrouver Asqatasun opérationnel.

Dans les 2 cas, tu dois retrouver dans ton Asqatasun
tous les contrats créés précédemment ainsi que les audits déjà réalisés.

à voir si sous Windows ou Mac, le fonctionnement est identique…


#16

hum, hum, pas de piste évidente… :disappointed:

  • vérifie quand même le fichiers robots.txt à la racine du site
  • si une version public du site existe sur Internet, regarde si tu obtiens le même résultat
  • peux-tu vérifier si sur d’autres sites avec une URL interne tu as le même résultat ?

Ensuite, il faudrait aller jeter un œil dans les logs…


#17

Trouvé… Pas directement du au robots.txt presque vide sur ces plateformes de dev, mais à la balise meta robots avec du no index no follows…

Merci


#18

Joli ! Merci d’avoir tenu bon et trouvé la cause :slight_smile:


#19

C’est une bonne nouvelle ! :sparkles:

Ce cas "audit de site bloqué à 1 page"
pourrait rentrer dans la FAQ (qui n’existe pas encore). :books:

@mfaure, un outil de test simple et externe à Asqatasun pourrait être utile
pour faciliter le debug un peu compliqué des URL non disponible sur Internet.