Jak używać regex do analizy danych SEO

Poznanie wyrażeń regularnych otwiera przed specjalistami SEO zupełnie nowe możliwości w zakresie analizy danych. Dzięki właściwemu stosowaniu regex jesteśmy w stanie sprawniej przetwarzać ogromne zbiory informacji, filtrować ruch organiczny, a także automatyzować rutynowe czynności. W niniejszym artykule omówimy kluczowe aspekty pracy z regex w środowisku SEO, przedstawimy praktyczne przykłady wykorzystania oraz wskażemy najbardziej popularne narzędzia wspierające tę metodę.

Wprowadzenie do regex w SEO

Termin wyrażenia regularne (regular expressions, w skrócie regex) odnosi się do zestawu reguł pozwalających na wyszukiwanie i manipulowanie tekstem na podstawie określonych wzorców. W kontekście pozycjonowania regex jest niezwykle przydatny, ponieważ:

  • pomaga w selekcji określonych fraz w dużych zestawach danych,
  • ułatwia segmentację ruchu i słów kluczowych,
  • przyspiesza tworzenie zaawansowanych filtrów w narzędziach analitycznych,
  • wspiera automatyzację wielu procesów związanych z raportowaniem.

Dla specjalistów SEO posługujących się codziennie Google Search Console, Google Analytics czy Screaming Frog możliwość definiowania zaawansowanych filtrów to bezcenny atut.

Zastosowanie regex w analizie danych SEO

W tej części przedstawimy konkretne przypadki użycia wyrażeń regularnych w pracy nad optymalizacją stron internetowych i monitoringiem wyników organicznych.

1. Filtrowanie słów kluczowych

Gdy mamy do czynienia z tysiącami pozyskanych słów kluczowych, ręczne przeszukiwanie staje się nieefektywne. Z pomocą przychodzą regex:

  • ^brand – wybór wszystkich zapytań zaczynających się od słowa „brand”.
  • (sale|promo) – wyszukiwanie wariantów zawierających „sale” lub „promo”.
  • b(keyword1|keyword2)b – selekcja zapytań dokładnie pasujących do wymienionych fraz.

Dzięki takim wzorcom można szybko zidentyfikować słowa kluczowe o wysokim potencjale konwersji lub wyodrębnić zapytania generujące najwięcej odsłon.

2. Segmentacja ruchu w Google Analytics

Mechanizm segmentów pozwala analizować zachowania konkretnych grup użytkowników. W polu {{Include}} lub {{Exclude}} możemy wykorzystać regex do:

  • wydzielenia podstron z danym formatem URL, np. /blog/.+/(202[0-9])/,
  • wykluczenia ruchem robotów lub IP zaczynających się od określonych prefixów,
  • grupowania wizyt według kampanii UTM zawierających zestaw parametrów.

Segmenty zdefiniowane w oparciu o wzorce regex umożliwiają głębszą eksplorację danych i optymalizację strategii contentowej.

3. Optymalizacja crawl budget

Podczas audytu SEO często korzystamy z narzędzi takich jak Screaming Frog czy Sitebulb. Chcąc ograniczyć crawlowanie nieistotnych zasobów (np. plików graficznych, PDF-ów), definiujemy wyrażenia:

  • .(jpg|png|gif|pdf)$ – wykluczenie określonych rozszerzeń plików,
  • /tag/ – ignorowanie archiwów tagów w CMS,
  • /page/d+ – pomijanie paginacji archiwów.

W efekcie robot spędza więcej czasu na indeksacji wartościowych podstron, co przyczynia się do efektywniejszego wykorzystania crawl budget.

Praktyczne przykłady i narzędzia wspierające regex

Poniżej prezentujemy kilka popularnych rozwiązań oraz przykładowe skrypty, które można zaadaptować do własnych potrzeb.

Narzędzia online i wtyczki

  • Regex101 – interaktywny tester wyrażeń regularnych,
  • RegExr – platforma z dokumentacją i przykładami,
  • Chrome DevTools – wbudowany edytor umożliwiający testowanie filtrów w konsoli,
  • Data Studio z rozszerzeniem Regex Extract – łączenie danych z plików CSV lub GA za pomocą wzorcowych reguł.

Skrypty w Pythonie do masowego przetwarzania

Poniższy fragment kodu demonstruje, jak wykorzystać moduł re w celu ekstrakcji wszystkich adresów URL prowadzących do wpisów blogowych.

import re

pattern = re.compile(r'https?://[^/]+/blog/[a-z0-9-]+')
with open('urls.txt', 'r') as f:
    data = f.read()

results = pattern.findall(data)
print(f'Znaleziono {len(results)} linków:')
for url in results:
    print(url)

Dzięki prostemu skryptowi można w kilka sekund uzyskać listę linków spełniających dowolny warunek. W analogiczny sposób można zbierać dane o kodach odpowiedzi HTTP, tytułach stron czy linkach wychodzących.

RegEx w Google Search Console

Filtrowanie raportów zapytań w GSC z użyciem regex pozwala:

  • weryfikować skuteczność długiego ogona zapytań,
  • monitorować zmiany w widoczności dla grupy wybranych słów,
  • porównywać dane miesiąc do miesiąca, stosując precyzyjne wzorce.

W polu wyszukiwania wystarczy wybrać „Wzorzec” zamiast „Dokładne dopasowanie” i wkleić własny ciąg znaków z regex.

Zaawansowane techniki i dobre praktyki

Aby maksymalnie wykorzystać potencjał wyrażeń regularnych w SEO, warto pamiętać o kilku kluczowych zasadach:

  • Dokładnie testuj każdy wzorzec przed użyciem na dużej próbce danych.
  • Unikaj zbyt ogólnych wyrażeń, które mogą prowadzić do fałszywych trafień.
  • Dokumentuj używane regexy, aby zespół mógł je łatwo ponownie wykorzystać.
  • W miarę możliwości grupuj podobne reguły i stosuj komentarze w kodzie (w Pythonie: (?x)#komentarz).
  • Regularnie przeglądaj i optymalizuj wzorce – wymagania SEO i struktura witryny mogą się zmieniać.

Przestrzeganie powyższych zasad gwarantuje, że użycie regex w procesach analizy i raportowania będzie nie tylko szybkie, ale też precyzyjne.