URL-Kodierung von Zeichen mit prozentualer Kodierung
Erfahren Sie mehr über die URL-Kodierung in Sitemaps und wie viel Prozent die Kodierung ausmacht. Verstehen Sie, warum generierte XML-Sitemaps und Suchmaschinen häufig in URL-codierte Zeichen in URLs konvertieren.
Zeichen in URLs werden normalerweise URL-codiert, wenn:
- Zeichen erscheinen in einem Kontext, in dem ihre Verwendung reserviert ist. Dies ist häufig in GET- Parameterwerten zu sehen.
- Das Zeichen ist nicht ASCII, d. h. innerhalb von 7 Bit. In solchen Fällen wird das Zeichen in UTF-8 konvertiert und alle Bytes in jedem Zeichen werden dann in die URL codiert.
Bei der URL-Kodierung wird jedes ASCII-Zeichen/jedes Byte in jedem UTF-8-Zeichen in die
HEX- Zahlensystemnotation umgewandelt. Das hexadezimale Zahlensystem wird in URLs mit
% gefolgt von zwei Symbolen dargestellt, die jeweils entweder im Bereich
0-9 oder im
AF- Bereich liegen.
Beispiele:
- Das ASCII-Leerzeichen hat den Bytewert 32, der bei URL-Codierung zu %20 wird:
- Dezimal: 32 = 3*10 + 2*1.
- Hexadezimal: 20 = 2*16 + 2*0.
Wenn Sie sich nicht sicher sind, ob Sie eine URL-Kodierung verwenden, vielleicht sogar eine unnötige URL-Kodierung, sollten Sie zuerst die
Quelle der Ausgabeseite überprüfen. Die meisten Browser unterstützen die Option
„Quelle anzeigen“.
Mit Link-Checkern und Sitemap-Tools wie
TechSEO360 lässt sich argumentieren, ob Links mit illegaler oder nicht standardmäßiger URL-Kodierung ignoriert oder konvertiert werden sollten, bevor sie in den Scan-Ergebnissen der Website angezeigt werden. Daher können Sie mit den folgenden Optionen steuern, ob URLs beim Website-Scan prozentual kodiert werden:
- Website scannen | Crawler-Optionen | Stellen Sie sicher, dass die URL-Pfadkomponente prozentual codiert ist.
- Website scannen | Crawler-Optionen | Stellen Sie sicher, dass die URL-Abfragekomponente prozentual codiert ist.
Hinweis: Wenn Sie Verlinkungsfehler auf Ihrer Website beheben, denken Sie daran, dass Sie Informationen zu allen
internen Links und Weiterleitungen sehen können.
Wenn Sie URLs haben, die eine URL-Kodierung erfordern, ist es ein Fehler, sie nicht per URL zu kodieren. Einige Suchmaschinen, Webcrawler, Browser, Server usw. sind in der Lage, URLs, die nicht richtig kodiert sind, richtig zu verstehen, aber es ist immer sicherer, Ihre URLs richtig URL-kodiert bzw. URLs mit prozentualer Kodierung zu maskieren.
Zitat von der
offiziellen Sitemaps-Protokoll-Website:
Darüber hinaus müssen alle URLs (einschließlich der URL Ihrer Sitemap) mit URL-Escapezeichen versehen und kodiert sein, damit sie für den Webserver, auf dem sie sich befinden, lesbar sind.
Hinweis: Wir haben einige Tools gesehen, die fälschlicherweise die URL-Prozentsatzcodierung nicht ordnungsgemäß mit
UTF-8- Bytewerten durchführen, sondern stattdessen Bytewerte aus einem anderen Dokumentzeichensatz oder einer anderen Datendarstellung verwenden, die sie intern verwenden.
Bevor Sie mit dem Lesen beginnen:
- Die Regeln für die URL-Codierung variieren je nach Ort und Kontext in der URL.
- Aufgrund von Aktualisierungen und Überarbeitungen gibt es einige Inkonsistenzen in den RFC- Standards.
Ressourcen zur prozentualen Codierung in URLs:
- RFC 1738 – Funktionale Empfehlungen für Internet-Ressourcen-Locators. RFC 1738 stammt vom Februar 1995.
- RFC 2396 – Uniform Resource Identifiers (URI): Generische Syntax. RFC 2396 stammt vom August 1998.
- RFC 3986 – Uniform Resource Identifier (URI): Generische Syntax. RFC 3986 stammt vom Januar 2005.
- Prozentkodierung – Wikipedia über Prozentkodierung / hexadezimale %-URL-Kodierung.