Beitrag von hempelr (1976 Beiträge) am Dienstag, 10.März.2009, 15:41.
Robot von Yahoo tickert auf /usr/lib/cgi-bin/baseportal.pl
hat das irgendwelche tieferen Gründe oder woher und wieso sucht der unter verschiedenen Domains, wo mal Baseportal drauf lief und die auf eine meiner IPs zeigen, in so einem vollkommen unerlaubten und auch unüblichem Verzeichnis danach?
Ist das ein "Featuere" von Baseportal oder Dreistigkeit irgendwelcher Robots?
Hier mal das Ergebnis der Whois-Abfrage aus einer der geloggten IPs
whois 74.6.22.154
OrgName: Inktomi Corporation
OrgID: INKT
Address: 701 First Ave
City: Sunnyvale
StateProv: CA
PostalCode: 94089
Country: US
NetRange: 74.6.0.0 - 74.6.255.255
CIDR: 74.6.0.0/16
NetName: INKTOMI-BLK-6
NetHandle: NET-74-6-0-0-1
Parent: NET-74-0-0-0-0
NetType: Direct Allocation
NameServer: NS1.YAHOO.COM
NameServer: NS2.YAHOO.COM
NameServer: NS3.YAHOO.COM
NameServer: NS4.YAHOO.COM
NameServer: NS5.YAHOO.COM
Comment:
RegDate: 2006-02-13
Updated: 2007-03-09
RAbuseHandle: NETWO857-ARIN
RAbuseName: Network Abuse
RAbusePhone: +1-408-349-3300
RAbuseEmail: network-abuse@cc.yahoo-inc.com
und hier der Logauszug aus der error.log:
[Tue Mar 10 15:05:04 2009] [error] [client 74.6.22.154] script not found or unable to stat: /usr/lib/cgi-bin/baseportal.pl
Vielleicht hat ja jemand ne Idee...
Antworten
Beitrag von Pouraga (1396 Beiträge) am Dienstag, 10.März.2009, 15:56.
Re: Robot von Yahoo tickert auf /usr/lib/cgi-bin/baseportal.pl
Im welchen Verzeichniss er danach sucht kommt auf deine Apache konfiguration an.
Es könnte sein das er in v-hosts sucht die nicht eingerichtet sind und in deine Standartkonfiguration der documentroot auf /usr/lib/ steht, oder vieleicht greift auch nen script alias.
Der Bot sieht mir nach dem echten yahoo crawler aus, das der Seiten sucht die es mal gab, ist nicht ungewöhnlich.
Wo dein Webserver aber die baseportal.pl sucht, ist nicht richtig.
Antworten
Beitrag von hempelr (1976 Beiträge) am Mittwoch, 11.März.2009, 15:52.
Re: Re: Robot von Yahoo tickert auf /usr/lib/cgi-bin/baseportal.pl
Hallo, Pouraga,
danke für dein Echo.
Der Witz ist, dass es überhaupt keine v-Host-Einträge auf dem Server gibt seit reichlich 8 Wochen, es war da ein Rescue-System gestartet, dann lief er nur als Backup-Server.
Baseportal wurde nie unter diesen Verzeichnis installiert, das Standard-cgi/bin macht Lenny (welches auf dem Server drauf ist) genau in dieses Verzeichnis (die default von Apache)
Nur frag ich mich, woher das nun wider der Crawler weiss, denn ins /etc um die default.conf von Apache zu lesen darf der ja eigentlich nicht (und das gehört sich für einen Crawler auch nicht ;-)
Deshalb interessiert es mich schon, wieso genau dieses Verzeichnis (also der absolute Pfad auf der Maschine) von einem Crawler aufgerufen wird. Selbst ein Domainaufruf würde nicht den absoluten Pfad benutzen und schon gar nicht zurückliefern.
Zumal unter diesem Verzeichnis baseportal.pl nie installiert wurde. Er (der Crawler) muss also irgendwoher die Infos haben, dass da ein Script Namens baseportal.pl im cgi-bin eines x-beliebigen Servers liegen kann und dann möglicherweise interessante Sachen dort zu finden sind - oder aber es ist tatsächlich so, dass er einfach auf Verdacht die unter Serversystemen üblichen cgi-bin-Verzeichnisse durchsucht und die Parameter bzw. der Query-String halt nicht mit geloggt wurde, sondern nur der Scriptaufruf.
Dann wäre es schon vorstellbar, dass er "alte" Seiten durchsuchen will.
Antworten
Beitrag von Pouraga (1396 Beiträge) am Donnerstag, 12.März.2009, 00:05.
Re: Re: Re: Robot von Yahoo tickert auf /usr/lib/cgi-bin/baseportal.pl
Du verstehst da was falsch. Es sagt dir ja nicht der crawler das er die Datei nicht gefunden hat, sondern der Webserver.
Anfrage Crawler:
http://irgendnenvhost.de/cgi-bin/baseportal.pl?htx=bla
(Die Seite gab es ja mal irgendwann, der bot hat jetzt wohl gemerkt das sich da was radikales in der Domain geändert hat und wird die alle durchgehen)
Apache:
Vhost irgendnenvhost kenne ich nicht...
... nehme standart
... ScripAlias: /usr/lib/cgi-bin/
jetzt versucht der Apache die /usr/lib/cgi-bin/baseportal.pl zu lesen um sie mit dem angebenen interpreter oder modul auszuführen.
Geht nicht, denn die baseportal.pl findet er nicht dort.
Errorlog:
[Tue Mar 10 15:05:04 2009] [error] [client 74.6.22.154] script not found or unable to stat: /usr/lib/cgi-bin/baseportal.pl
Wenn du wissen möchtest, was die ursprünglich Anfrage mit kompletter url und Query-String war, dann musst du in die access log schauen.
Antworten
Beitrag von Pouraga (1396 Beiträge) am Donnerstag, 12.März.2009, 00:22.
Re: Re: Re: Re: Robot von Yahoo tickert auf /usr/lib/cgi-bin/baseportal.pl
btw ist mir gerade noch eingefallen: Es wird in diesem Fall glaube ich ein Interner Server Fehler 500 zurückgliefert.
Der Bot gibt also, vollkommen korrekt, nicht so schnell auf, sondern schaut regelmässig vorbei ob das Problem behoben ist.
Es wäre also besser eine 301 (für verschoben) oder eine 410 (für gelöscht) zurückzuliefern, damit der Bot entsprechend direkt reagieren kann und dich nicht weiter "nervt".
Das kann man z.B. mit dem rewrite modul machen
Antworten
Beitrag von hempelr (1976 Beiträge) am Freitag, 13.März.2009, 10:48.
Re: Re: Re: Re: Re: Robot von Yahoo tickert auf /usr/lib/cgi-bin/baseportal.pl
Danke für die gute Erklärung, so allmählich dämmerts, was da vor sich geht.
Also nix weiter als "normale" Anfragen, die aufgrund fehlender Umleitungs- bzw. Verschiebungshinweise ablaufen - manchmal ist man eben doch ziemlich paranoid...(und das oft grundlos)
CU Ruben
Antworten