Proxy VS HTTPS pour audit site

proxy
crawler
robots.txt
heritrix
Tags: #<Tag:0x00007fe6a2171c78> #<Tag:0x00007fe6a2171980> #<Tag:0x00007fe6a2171750> #<Tag:0x00007fe6a2171458>

#1

Bonjour,

simple question, la gestion du proxy marche en HTTPS ?

Car :

  • HTTP over proxy :
  • Audit site OK.
  • Audit page OK.
  • HTTPS over proxy :
  • Audit site KO.
  • Audit page OK.

J’ai juste configuré mon asqatasun.conf…

Merci.


#2

intéressant ! J’ai vu passer un truc suspect sur ce sujet il y a 3 mois et je n’avais pas réussi à l’attraper. On a là une bonne occasion d’y remédier :slight_smile:

Je suis intéressé par tes logs détailllés. Pour cela modifie ton <TOMCAT_ASQATASUN_WEBAPP>/WEB-INF/classes/log4j.properties et ajoute:

log4j.logger.org.asqatasun.util.http=DEBUG
log4j.logger.org.asqatasun.crawler=DEBUG

Peux-tu lancer un audit de site en HTTPS et nous partager les logs suivants:

  • /var/log/asqatasun/asqatasun.log
  • /var/log/tomcat7/catalina.out
  • /var/log/syslog

Merci à toi !


#3

Je te fais ça 2ème moitier de semaine.


#4

re,

voici un docker exec -it asqatasun tail -f /var/log/asqatasun/asqatasun.log /var/log/tomcat7/catalina.out /var/log/syslog
http : / / pastebin.com/dXAtqf4P

L’erreur ne me saute pas aux yeux…


#5

On trouve

DEBUG org.asqatasun.crawler.CrawlerImpl - Unreachable resource https://sub.domaine.fr/ : 302 21-09-2016 12:26:50:794 49986 DEBUG org.asqatasun.crawler.processor.AsqatasunWriterProcessor - should process? https://sub.domaine.fr/users/sign_in with mime type unknown false
Je comprends que ton serveur renvoie vers une page de login, mais cett page n’a ni extension, ni mime-type qui permet de déterminer le type de ressources dont il s’agit.
Le moteur n’aspire que les ressources utiles aux tests, le html, le css, et eventuellement le js. Les autres ressources de type image, font, etc… sont ignorées.
Je comprends que ta page est considérée comme une “autre ressource”

Koj


#6

La réponse :

Cache-Control: max-age=0, private, must-revalidate
Connection: Keep-Alive
Content-Encoding: gzip
Content-Type: text/html; charset=utf-8
Date: Wed, 21 Sep 2016 13:08:40 GMT
Etag: W/"c78e9c56d23f451e778a4f4da4f519c3"
Keep-Alive: timeout=5, max=100
Server: nginx
Status: 200 OK
Transfer-Encoding: chunked
Vary: User-Agent
X-Frame-Options: sameorigin
X-Request-Id: 2c57caf8-930f-45ac-81d5-a57754262f54
X-Runtime: 4.714294
strict-transport-security: max-age=31536000
x-content-type-options: nosniff
x-ua-compatible: IE=edge
x-xss-protection: 1; mode=block

Pour moi on a bien un content type…


#7

Avec https://fr.wikipedia.org/ ça marche…


#8

Du coup le problème serait plus que certain Content-Type ne sont pas recenu…


#9

La réponse que tu as postée hier, elle est issue de quoi? du navigateur?


#10

Oui, mais over proxy aussi.


#11

et avec un wget -S tu obtiens la même chose ?
autrement une URL pour tester (même en DM) ce serait top… :slight_smile:


#12

Tu as pu regarder ? Je me demande si le problème ne viendrait pas d’entête manant sur mes serveurs qui ne satisferaient pas Asq ?


#13

C’est probable que ton serveur ne renvoie pas de mime -type et que le navigateur soit capable d’interpreter le type de ressource, chose que notre crawler ne fait pas.
Effectivement, il faudrait avoir une trace plus bas-niveau pour confirmer que le mime-type n’est pas valorisé par ton serveur, et voir s’il est possible de le reconfigurer


#14

non je n’ai pas eu le temps…

mais j’ai quelques questions : :wink:

quel version d’Asqatasun tu utilise ?

L’URL que tu m’a envoyée en privé, c’est celle que tu utilise pour faire tes audits ?
Sur cette URL l’audit de site plante… même sans passer un proxy…


#15

[quote=“fabrice, post:14, topic:199”]quel version d’Asqatasun tu utilise ?[/quote]4.0.3

[quote=“fabrice, post:14, topic:199”]Sur cette URL l’audit de site plante… même sans passer un proxy…[/quote]C’est une question ? Car je n’ai pas d’Asqatasun en dehors de proxy. Pour info, sur un Tanaguru 3.0.4 (même réseau) ça marche. Du coup le problème ne viendrait pas de problème d’entête ? J’ai l’impression que vous êtes très Debian, et mes tests sont sur des RHEL… Dès fois les RHEL sont avares en entête, c’est peut-être ça qui manque…


#16

La question est là : :smile:

je te pose cette question car l’URL que tu m’a envoyée fonctionne pour un audit de page
mais pas pour un audit de site avec une configuration sans proxy…

Or un audit d’un site comme https://en.wikipedia.org/ fonctionne très bien…
Du coup, j’aimerai bien comprendre le problème…

Tu as fais le test récemment ?


#17

[quote=“fabrice, post:16, topic:199”]je te pose cette question car l’URL que tu m’a envoyée fonctionne pour un audit de page
mais pas pour un audit de site avec une configuration sans proxy…[/quote]Même constat sauf que moi j’ai pas testé sans proxy…

[quote=“fabrice, post:16, topic:199”]Tu as fais le test récemment ?[/quote]Je test de ce pas.


#18

[quote=“llaumgui, post:17, topic:199”]Je test de ce pas.[/quote]No problème sur la même URL et Tanaguru 3.0.4


#19

j’ai refait un test dans un Docker avec Asqatasun 4.0.0
et la même URL (https://…) plante les audits de site.
Aucun proxy n’est utilisé.

Par contre, après avoir modifié log4j.properties, je n’arrive pas à redémarrer dans docker le service Tomcat…
c’est quoi l’astuce ? @mfaure une idée ?


#20

Tu vas dans docker tu copies le contenu du fichier que tu colle ce quelque part. Ensuite fait un volume de ce quelque part… Pour finir stop / rm / up -d et c’est bon (je suis sur docker-compose).