Poznanie wyrażeń regularnych otwiera przed specjalistami SEO zupełnie nowe możliwości w zakresie analizy danych. Dzięki właściwemu stosowaniu regex jesteśmy w stanie sprawniej przetwarzać ogromne zbiory informacji, filtrować ruch organiczny, a także automatyzować rutynowe czynności. W niniejszym artykule omówimy kluczowe aspekty pracy z regex w środowisku SEO, przedstawimy praktyczne przykłady wykorzystania oraz wskażemy najbardziej popularne narzędzia wspierające tę metodę.
Wprowadzenie do regex w SEO
Termin wyrażenia regularne (regular expressions, w skrócie regex) odnosi się do zestawu reguł pozwalających na wyszukiwanie i manipulowanie tekstem na podstawie określonych wzorców. W kontekście pozycjonowania regex jest niezwykle przydatny, ponieważ:
- pomaga w selekcji określonych fraz w dużych zestawach danych,
- ułatwia segmentację ruchu i słów kluczowych,
- przyspiesza tworzenie zaawansowanych filtrów w narzędziach analitycznych,
- wspiera automatyzację wielu procesów związanych z raportowaniem.
Dla specjalistów SEO posługujących się codziennie Google Search Console, Google Analytics czy Screaming Frog możliwość definiowania zaawansowanych filtrów to bezcenny atut.
Zastosowanie regex w analizie danych SEO
W tej części przedstawimy konkretne przypadki użycia wyrażeń regularnych w pracy nad optymalizacją stron internetowych i monitoringiem wyników organicznych.
1. Filtrowanie słów kluczowych
Gdy mamy do czynienia z tysiącami pozyskanych słów kluczowych, ręczne przeszukiwanie staje się nieefektywne. Z pomocą przychodzą regex:
- ^brand – wybór wszystkich zapytań zaczynających się od słowa „brand”.
- (sale|promo) – wyszukiwanie wariantów zawierających „sale” lub „promo”.
- b(keyword1|keyword2)b – selekcja zapytań dokładnie pasujących do wymienionych fraz.
Dzięki takim wzorcom można szybko zidentyfikować słowa kluczowe o wysokim potencjale konwersji lub wyodrębnić zapytania generujące najwięcej odsłon.
2. Segmentacja ruchu w Google Analytics
Mechanizm segmentów pozwala analizować zachowania konkretnych grup użytkowników. W polu {{Include}} lub {{Exclude}} możemy wykorzystać regex do:
- wydzielenia podstron z danym formatem URL, np. /blog/.+/(202[0-9])/,
- wykluczenia ruchem robotów lub IP zaczynających się od określonych prefixów,
- grupowania wizyt według kampanii UTM zawierających zestaw parametrów.
Segmenty zdefiniowane w oparciu o wzorce regex umożliwiają głębszą eksplorację danych i optymalizację strategii contentowej.
3. Optymalizacja crawl budget
Podczas audytu SEO często korzystamy z narzędzi takich jak Screaming Frog czy Sitebulb. Chcąc ograniczyć crawlowanie nieistotnych zasobów (np. plików graficznych, PDF-ów), definiujemy wyrażenia:
- .(jpg|png|gif|pdf)$ – wykluczenie określonych rozszerzeń plików,
- /tag/ – ignorowanie archiwów tagów w CMS,
- /page/d+ – pomijanie paginacji archiwów.
W efekcie robot spędza więcej czasu na indeksacji wartościowych podstron, co przyczynia się do efektywniejszego wykorzystania crawl budget.
Praktyczne przykłady i narzędzia wspierające regex
Poniżej prezentujemy kilka popularnych rozwiązań oraz przykładowe skrypty, które można zaadaptować do własnych potrzeb.
Narzędzia online i wtyczki
- Regex101 – interaktywny tester wyrażeń regularnych,
- RegExr – platforma z dokumentacją i przykładami,
- Chrome DevTools – wbudowany edytor umożliwiający testowanie filtrów w konsoli,
- Data Studio z rozszerzeniem Regex Extract – łączenie danych z plików CSV lub GA za pomocą wzorcowych reguł.
Skrypty w Pythonie do masowego przetwarzania
Poniższy fragment kodu demonstruje, jak wykorzystać moduł re w celu ekstrakcji wszystkich adresów URL prowadzących do wpisów blogowych.
import re
pattern = re.compile(r'https?://[^/]+/blog/[a-z0-9-]+')
with open('urls.txt', 'r') as f:
data = f.read()
results = pattern.findall(data)
print(f'Znaleziono {len(results)} linków:')
for url in results:
print(url)
Dzięki prostemu skryptowi można w kilka sekund uzyskać listę linków spełniających dowolny warunek. W analogiczny sposób można zbierać dane o kodach odpowiedzi HTTP, tytułach stron czy linkach wychodzących.
RegEx w Google Search Console
Filtrowanie raportów zapytań w GSC z użyciem regex pozwala:
- weryfikować skuteczność długiego ogona zapytań,
- monitorować zmiany w widoczności dla grupy wybranych słów,
- porównywać dane miesiąc do miesiąca, stosując precyzyjne wzorce.
W polu wyszukiwania wystarczy wybrać „Wzorzec” zamiast „Dokładne dopasowanie” i wkleić własny ciąg znaków z regex.
Zaawansowane techniki i dobre praktyki
Aby maksymalnie wykorzystać potencjał wyrażeń regularnych w SEO, warto pamiętać o kilku kluczowych zasadach:
- Dokładnie testuj każdy wzorzec przed użyciem na dużej próbce danych.
- Unikaj zbyt ogólnych wyrażeń, które mogą prowadzić do fałszywych trafień.
- Dokumentuj używane regexy, aby zespół mógł je łatwo ponownie wykorzystać.
- W miarę możliwości grupuj podobne reguły i stosuj komentarze w kodzie (w Pythonie: (?x)#komentarz).
- Regularnie przeglądaj i optymalizuj wzorce – wymagania SEO i struktura witryny mogą się zmieniać.
Przestrzeganie powyższych zasad gwarantuje, że użycie regex w procesach analizy i raportowania będzie nie tylko szybkie, ale też precyzyjne.