Proxy VS HTTPS pour audit site

proxy
crawler
robots.txt
heritrix
Tags: #<Tag:0x00007fe7b150fbb8> #<Tag:0x00007fe7b150fa00> #<Tag:0x00007fe7b150f870> #<Tag:0x00007fe7b150f730>

#21

De manière précise :

  • As-tu un message d’erreur ?
  • Que dit le /var/log/tomcat7/catalina.out ?
  • Que dit le /var/log/asqatasun/asqatasun.log ?

#22

[quote=“mfaure, post:21, topic:199”]
De manière précise :

As-tu un message d’erreur ?
Que dit le /var/log/tomcat7/catalina.out ?
Que dit le /var/log/asqatasun/asqatasun.log ?[/quote]Je pense que tomcat doit avoir le pid 0 et que quand tu le redémarre et bien Docker n’apprécie pas…


#23

Je veux des faits, sinon je vais au bar discuter avec ma boule de cristal :slight_smile:


#24

Tests complémentaires réalisés le même jour :

  • Asqatasun 4.0.3, 4.0.0, 4.0.0-rc1 et 4.0.0-beta2 dans des conteneurs Docker sur un PC
  • tg 3.1.0 (dernière release faite par @koj avant le fork) sur un serveur (installation classique sans docker)

URL du Lab

  • Asqatasun 4.0.3 ----> audit de site : FAIL
  • Asqatasun 4.0.0 ----> audit de site : FAIL
  • Asqatasun 4.0.0-rc1 ----> audit de site : FAIL
  • Asqatasun 4.0.0-beta2 ----> audit de site : FAIL
  • tg 3.1.0 ----> audit de site : FAIL

URL recette client

  • Asqatasun 4.0.3 ----> audit de site : FAIL
  • Asqatasun 4.0.0 ----> audit de site : FAIL
  • Asqatasun 4.0.0-rc1 ----> audit de site : FAIL
  • Asqatasun 4.0.0-beta2 ----> audit de site : FAIL
  • tg 3.1.0 ----> audit de site : Ok

Le problème semble vernir du fichier robots.txt
qui autorise uniquement Tg

Que conclure…

  • aucun proxy n’est utilisé dans ces tests = ce n’est pas un pb lié au proxy
  • 2 sites avec 2 comportements différents = 2 problèmes

Dès que j’ai un moment, je rajoute les logs…

Dernier test

en utilisant le patch suivant l’audit de site pour les 2 URL (lab + recette client)
fonctionne parfaitement… dans un conteneur docker sur un PC.


#25

[quote=“fabrice, post:24, topic:199”]en utilisant le patch suivant l’audit de site pour les 2 URL (lab + recette client)[/quote]Merci !

Donc du coup on s’oriente plus vers un renforcement des pré-conditions que vers une régression ?
Après si je check mon lab ici : https://www.ssllabs.com/ssltest/ tout est nickel et j’ai la note max. Si j’avais un problème de DNS ça péterait en erreur. Du coup le problème serait plus dans Docker ?


#26

URL recette client

@llaumgui, pour l’URL recette client,
regarde le fichier robots.txt qui interdit tout sauf Tg : :confounded:

User-agent: *
Disallow: / 

rajoute : :gift:

User-Agent: asqatasun
Allow: / 

URL du Lab

@llaumgui peux-tu vérifier avec ton Tg 3.0.4 qu’un audit de site
pour l’URL du Lab ne fonctionne pas comme dans mon test ?

Un autre test pourrait être fait en en découpant le patch en 2 parties pour voir ce qui bloque <ref bean="preconditions"/> et/ou <ref bean="fetchDns"/>

Il faudrait aussi peut-être regarder la configuration web-app/(…)/asqatasun-crawler-beans-site.xml

<bean id="preconditions" class="org.archive.crawler.prefetch.PreconditionEnforcer">
    <!-- <property name="ipValidityDurationSeconds" value="21600" /> -->
    <!-- <property name="robotsValidityDurationSeconds" value="86400" /> -->
    <property name="calculateRobotsOnly" value="false" />
</bean>

<bean id="fetchDns" class="org.archive.modules.fetcher.FetchDNS">
    <!-- <property name="acceptNonDnsResolves" value="false" />-->
    <property name="digestContent" value="false" />
</bean>

la documentation d’Heritrix est là :


#27

à noter, que la dernière version d’heritrix 3.2.0 semble fixer un bug lié au DNS :
Release Notes - 3.2.0 - Fixed occasional mangling of DNS records

mais Asqatasun utilise la version 3.1.1 d’heritrix


#28

Il s’agit d’un Tanaguru 3.1.0 (et non 3.0.1) sur lequel tu as fais tes tests, installation classique (i.e. sans docker)


#29

Alors pour le lab, j’ai bien mon scan qui marche mais maintenant j’ai des erreurs MySQL. Je me demande si Asq est compatible Maria. Je vais balancer ma base sur du pur MySQL.

Pour la recette client, c’est toujours une IOException… Je continue d’enquêter de mon côté…


#30

@llaumgui suggestion : lance une nouvelle discussion avec tes logs SQL :slight_smile:


#31

Le fichier robots.txt actuellement en ligne
inderdit l’accès à Asqatasun.

User-agent: *
Disallow: /
User-Agent: tanaguru
Allow: /

#32

[quote=“fabrice, post:31, topic:199”]
User-agent: *
Disallow: /

User-Agent: tanaguru
Allow: /[/quote]Malheureusement pour modifier le robots.txt je dois rebuilder une images docker, repousser les images sur les serveurs, etc… :-(. Du coup je boss sur une autre recette plus accessible et qui a le bon robots.txt. Mais je pense que le certificat self-signed passe mal.

Sinon en virant les preCondition, tu ne respecte plus le robots.txt ?


#33

oui exactement :slight_smile:


#34

Bonjour,

je viens donner des nouvelles !

Après quelques litres de café et un clavier défoncé à coup de poings, le labs et la recette client fonctionnent grâce au patch de Fabrice.
Je suis en train de jouer avec sslTrustLevel pour une recette https mais avec un certificats self-signed foireux. Après ça je pense que tout sera bon !

Cordialement.


#35

Petite précision, que je n’avais pas en tête il y a quelques jours :
il est possible de modifier le fichier asqatasun-crawler-beans-site.xml directement après l’installation et de redémarrer tomcat pour une prise en compte de la modification. Ceci sera plus rapide que d’appliquer le patch, de recompiler Asqatasun et de refaire l’installation… :relaxed:

le fichier asqatasun-crawler-beans-site.xml une fois Asqatasun installé est ici :
/var/lib/tomcat7/webapps/asqatasun/WEB-INF/conf/crawler/


à noter que le fichier de configuration /etc/asqatasun.conf
contient une option qui semble être dédiée à ce type de problème :

# bypass initial check of URL before effective launch of audit.
# CAUTION : bypassing this control may lead to test error pages.
# Only use for debug purpose when setting network properties.
# The value MUST be equals to false or true
bypassUrlCheck=false 

je n’ai pas encore testé.

@koj tu peux nous en dire plus ?
Ça désactive quoi (preconditions, fetchDns) ?


#36

[quote=“fabrice, post:35, topic:199”]
Petite précision, que je n’avais pas en tête il y a quelques jours :
[/quote]En fait je copie le fichier, je le colle dans mon docker host et je fais un montage de volume dans mon container. Du coup je ne rebuild pas à chaque fois (heureusement).

J’ai encore un problème avec une URL qui plante (self-signed)… Plus que ça et je peux virer Tanaguru (Et Ubuntu 14.04 !). Je peux te la donner en PV ?


#37

[quote=“fabrice, post:35, topic:199”]
je n’ai pas encore testé.
[/quote]P**ain ça marche ! Merci !


#38

tu veux dire que tu as utilisé bypassUrlCheck=true dans le fichier asqatasun.conf
et que le problème pour l’URL qui plante (self-signed) est résolu ?


#39

[quote=“fabrice, post:38, topic:199”]as utilisé bypassUrlCheck=true dans le fichier asqatasun.conf
et que le problème pour l’URL qui plante (self-signed) est résolu ?[/quote]Oui, c’est une façon de reformuler :wink: