Jak skrobać strony wyników wyszukiwania Google (SERP)

Jak to zrobić, Scraping, Aug-01-20215 minut czytania

It needs no introduction that Google is the widely used platform for search-related queries of people across the globe. According to the Statista website, Google’s share of the global search market is 87.35%. Further, the stats have shown that Google exceeds 2 trillion users annually, indexing over 130 trillion pages. These statistics prove that Google

Nie trzeba przedstawiać, że Google jest powszechnie używaną platformą dla zapytań związanych z wyszukiwaniem przez ludzi na całym świecie. Według strony internetowej Statista, udział Google w globalnym rynku wyszukiwania wynosi 87,35%. Co więcej, statystyki wykazały, że Google przekracza 2 biliony użytkowników rocznie, indeksując ponad 130 bilionów stron.

Statystyki te dowodzą, że Google posiada kompleksowe publicznie dostępne dane na temat swoich SERP, cenne zarówno dla marketerów internetowych, jak i innych osób. Skrobanie SERP-ów stało się więc priorytetem wśród marketerów internetowych. Jednak po przekroczeniu określonej liczby żądań Google zablokuje Twój adres IP.

Dlatego w tym artykule omówimy, jak skrobać SERP-y bez blokowania. Wcześniej omówimy podstawy skrobania stron internetowych.

Czym jest web scraping?

Załóżmy, że musisz skopiować duży zestaw danych z kilku stron internetowych. Na początku możesz ulec pokusie skopiowania i wklejenia zawartości do arkusza kalkulacyjnego. Ponieważ jednak jest to duży dokument internetowy, ręczne wyodrębnianie danych byłoby czasochłonne. W związku z tym należy zautomatyzować proces scrapingu, co pozwoli zaoszczędzić sporo czasu.

Ten zautomatyzowany proces skrobania danych jest znany jako web scraping. Dzięki tej metodzie można pobrać źródło HTML bez wpisywania adresu URL witryny w przeglądarce.

Więcej informacji na temat web scrapingu można znaleźć tutaj.

Czym jest skrobanie stron wyników wyszukiwarek (SERP)?

Podobnie jak skrobanie stron internetowych, skrobanie SERP jest procesem wyodrębniania 10 najlepszych lub więcej wyników z wyszukiwania Google dla serii słów kluczowych. Większość firm zajmujących się optymalizacją wyszukiwarek (SEO) stosuje tę technikę do śledzenia rankingów stron internetowych swoich klientów dla docelowych słów kluczowych.

Mogą również istnieć inne powody, dla których warto wykonać scraping dla SERPS, takie jak weryfikacja reklam, generowanie leadów i agregacja treści.

Zazwyczaj istnieją narzędzia automatyzacji do przeprowadzania skrobania SERP-ów, o których dowiesz się w kolejnych sekcjach tego artykułu. Alternatywnie możesz stworzyć własny skrypt przy użyciu języków programowania, takich jak Python. Możesz to jednak zrobić tylko wtedy, gdy jesteś pewny siebie w kodowaniu i masz wyższą wiedzę techniczną. Ponadto do skrobania SERP-ów Google można również użyć cURL.

Po zeskrobaniu danych z odpowiednich stron internetowych narzędzia te zapisują je w bazach danych, plikach CSV, XML lub JSON. Następnie dane te są w ustrukturyzowanym formacie, w którym można określić, czy wysiłki SEO działają poprawnie. Dzieje się tak, ponieważ możesz zobaczyć miejsca docelowe swojej strony w czasie.

Ponadto SERP składają się nie tylko z treści tekstowych, ale także obrazów, filmów, polecanych fragmentów, lokalnych map wyszukiwania i wielu innych.

W następnej sekcji odkryjesz znaczące korzyści płynące ze skrobania z SERP-ów.

Jak skrobanie SERP-ów pomaga odzyskać szkody wyrządzone przez hakerów?

Bycie zhakowanym to coś, co zawsze ma na ciebie negatywny wpływ. Zhakowana witryna i jej dane logowania mogą trafić do dark web. Hakerzy mogą nawet sprzedawać linki zwrotne lub uruchamiać złośliwe oprogramowanie w witrynie . Hakowanie ma również negatywny wpływ na kontekst SEO.

Jedną z istotnych korzyści płynących ze skrobania SERP-ów w Google jest możliwość zidentyfikowania potencjalnych szkód wyrządzonych przez hakerów. Kiedy ciężko pracowałeś, aby osiągnąć swoje rankingi SEO w SERPach, hakerzy mogą łatwo przeniknąć do twoich ustawień bezpieczeństwa i zepsuć wszystkie twoje wysiłki SEO.

Szczegółowe informacje na temat tego, w jaki sposób hakerzy przejmują kontrolę nad działaniami SEO, można znaleźć tutaj.

Według ankiety 48% specjalistów SEO stwierdziło, że przywrócenie pierwotnego stanu wyników SERF zajęło Google wiele miesięcy.

Śledzenie SERP dla swoich witryn zapewnia pomocną wiedzę na temat tego, co dzieje się z rankingami. Pomagają również określić potencjalne wyniki rankingów podczas prób włamania. Dzięki temu można szybko poprosić Google o przywrócenie poprzednich rankingów. W rezultacie czas przestoju witryny i spadki w rankingu wyszukiwarek zostałyby drastycznie zminimalizowane.

Z drugiej strony, gdy witryna zostanie zainfekowana złośliwym oprogramowaniem, będzie to miało negatywny wpływ na jej pozycję w rankingach wyszukiwarek. Istnieje również większe prawdopodobieństwo, że witryna zostanie umieszczona na czarnej liście. Według Godaddy dotyczy to w szczególności witryn małych firm. 90% witryn God addy nie wiedziało, że zostały zainfekowane złośliwym oprogramowaniem.

Tak więc ciągłe skrobanie wszystkich SERP-ów pozwala z wyprzedzeniem wykryć potencjalne próby włamań i z pewnością pomaga Google przywrócić wyniki.

Jak skrobać wyniki wyszukiwania Google?

Jak wspomniałem wcześniej, istnieje kilka sposobów na skrobanie SERP-ów Google. W tej sekcji odkryjesz kilka sposobów, w jakie możesz to zrobić.

Visual Web Scraper

Octoparse

Jest to ogólne narzędzie do skrobania stron internetowych, którego można używać do skrobania SERP-ów Google. Nie tylko skrobie SERPy, ale jest również dobry w skrobaniu danych z map Google.

Jedną z najważniejszych cech Octoparse jest to, że sprytnie omija środki zapobiegające skrobaniu przedstawione przez docelowe strony internetowe. Ponadto nie wymaga bycia programistą, aby korzystać z wizualnego narzędzia do skrobania. Jest dość wygodny w użyciu i dostępny jako rozwiązanie oparte na chmurze, a także jako oprogramowanie do zainstalowania.

Więcej informacji na temat Octoparse można znaleźć tutaj.

Rozszerzenie przeglądarki

Webscraper.io

Webscraper.io to darmowe rozszerzenie dla przeglądarki internetowej Google Chrome. Może ono wyodrębniać dane ze stron internetowych Google w postaci HTML i CSS. Następnie może eksportować dane w formacie CSV. Wersja rozszerzenia dla przeglądarki jest całkowicie darmowa i w zupełności wystarcza do zarządzania działaniami związanymi z scrapingiem. Jeśli zdecydujesz się na opcję opartą na chmurze, będzie to wiązało się z kosztami.

Za jego pomocą można również wyodrębnić mapy Google i przekonwertować je na bazę danych. Więcej informacji na temat tego rozszerzenia można znaleźć tutaj.

Google Search API

Czy wiesz, że Google zapewnia oficjalny sposób wyodrębniania danych ze swojej wyszukiwarki? Chociaż ma on swoje ograniczenia, jak wspomniano poniżej, jest obecnie dostępny dla każdego, kto potrzebuje danych SERP. Oto jego ograniczenia:

Dostarcza on ograniczonych informacji w porównaniu z wizualnymi narzędziami do skrobania stron internetowych, rozszerzeniami przeglądarki lub innymi narzędziami do skrobania stron internetowych.
Google opracował go z myślą o przeszukiwaniu pojedynczej witryny lub mniejszej liczby witryn. Można ją jednak skonfigurować do przeszukiwania całej sieci WWW (World Wide Web), co wymaga dużej wiedzy technicznej.
Jest to szalenie kosztowne, ponieważ wysyłanie mnóstwa zapytań kosztowałoby fortunę.

Ze względu na swoje ograniczenia i koszty, Google Search API nie jest idealną platformą do skrobania wyników SERP. Zawsze lepiej jest skorzystać z alternatywnych metod wspomnianych w tym artykule.

Używanie Pythona, żądań i BeautifulSoup

Dla tych z Was, którzy są ekspertami w kodowaniu w Pythonie, ta metoda byłaby przydatna. Bez wątpienia zmniejszyłoby to przede wszystkim koszty, a ty miałbyś większą kontrolę.

W tym programie wyodrębnimy SERPy dla zapytania "Jak nauczyć się Pythona". Aby uprościć sprawę, zakodujemy zapytanie na sztywno. Następnie, po wyciągnięciu zestawu wyników, wydrukujemy tytuł wyników. Zanurzmy się.

import requests
from bs4 import BeautifulSoup
import random
 
text = 'How to learn Python programming'
url = 'https://google.com/search?q=' + text
useragent = ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36"
       )
 
Agent = useragent[random.randrange(len(useragent))]
 
headers = {'user-agent': Agent}
req = requests.get(url, headers=headers)
 
soup = BeautifulSoup(req.text, 'lxml')
for info in soup.find_all('h3'):
    print(info.text)
    print('__________')

Tutaj wyjaśnię każdą linię kodu w jasny sposób:

żądania importu

Używamy biblioteki żądań Pythona, aby pobrać SERP. Następnie moduł request wysyła żądanie get do serwera Google. Umożliwia to programowi pobranie zawartości HTML SERP.

z bs4 import BeautifulSoup

Następnie następująca linia nie wymaga wyjaśnień, która ładuje bibliotekę BeautifulSoup. Biblioteka ta umożliwia analizowanie dokumentów HTML i XML.

text = 'Jak nauczyć się programowania w Pythonie'
url = 'https://google.com/search?q=' + tekst

Ten fragment kodu ustawia adres URL wyszukiwarki, z której mają być pobierane dane. Ustawiłem więc adres URL jako google.com, a dla zapytania wyszukiwania dołączyłem tekst w zmiennej tekstowej "Jak nauczyć się programowania w Pythonie" jako zapytanie wyszukiwania.

useragent = ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, jak Gecko) Chrome/92.0.4515.107 Safari/537.36" )

Następnie powyższy kod ustawia ciąg agenta użytkownika.

req = requests.get(url, headers=nagłówki)

Powyższy kod wysyła żądanie do serwera WWW w celu pobrania żądanej zawartości HTML wyników wyszukiwania.

soup = BeautifulSoup(req.text, 'lxml')

Utwórz instancję BeautifulSoup z danymi, których powyższy kod zażądał z nagłówków parsowania 'lxml'. Aby powyższy kod działał, należy najpierw zainstalować pakiet 'lxml'.

for info in soup.find_all('h3'):
    print(info.text)
    print('__________')

Następnie za pomocą pętli for wyodrębniane są wszystkie znaczniki h3 w celu wyświetlenia tytułów.

Korzystanie z serwerów proxy do skrobania SERP-ów Google

Jak wspomniano wcześniej, wyszukiwarki takie jak Google nakładają ograniczenia, w tym blokowanie adresu IP po przekroczeniu limitu skrobania. To właśnie tutaj serwery proxy odgrywają kluczową rolę w maskowaniu adresu IP. Spośród wszystkich dostępnych serwerów proxy, idealnym wyborem są proxy domowe. Wynika to z faktu, że ich adresy IP pochodzą od prawdziwych właścicieli domów.

Jednak gdy zeskrobiesz kilka pierwszych SERP-ów, Google zauważy, że twoje działania są nieludzkie. Wówczas zablokuje adres IP Twojego serwera proxy, a Ty będziesz musiał radzić sobie z captchami.

W tym przypadku sieć domowych serwerów proxy działa jak wybawienie. Gdy korzystasz z sieci domowych serwerów proxy, każdy z nich ma unikalny adres IP. Dzięki temu będziesz mógł skrobać z SERPów, zmieniając adresy IP. Wówczas Twoje działania będą postrzegane przez wyszukiwarkę jako ludzkie.

Szczegółowe informacje na temat pełnomocników mieszkaniowych można znaleźć w tym artykule.

Konsekwencje prawne korzystania z serwerów proxy do skrobania wyników Google SERP

Do tej pory powinieneś mieć jasne pojęcie o tym, czym są rezydencjalne serwery proxy i jak mogą one pomóc w przezwyciężeniu zakazów IP. Teraz przyjrzymy się kluczowemu czynnikowi, który wielu użytkowników zaniedbuje podczas skrobania z SERPów Google. Są to prawne implikacje korzystania z rezydencjalnych serwerów proxy.

Po pierwsze, korzystanie z serwerów proxy jest legalne. Mając to na uwadze, można pokusić się o wysyłanie nieograniczonej liczby żądań do wyszukiwarek takich jak Google. Spowodowałoby to przeciążenie serwerów Google ogromną liczbą żądań. Nie jest to właściwe działanie, nawet zgodnie z algorytmem Google SERPs.

Dlatego też musisz upewnić się, że zawsze szanujesz docelową witrynę lub wyszukiwarkę, z której zamierzasz skrobać dane. Musisz także stosować najlepsze możliwe praktyki skrobania, w tym skrobak z szacunkiem dla docelowej wyszukiwarki.

Musisz natychmiast ograniczyć żądania lub zatrzymać proces skrobania, jeśli ty lub twój dostawca proxy otrzymacie skargę z docelowego serwera WWW. Reklamacja może wynikać z faktu, że docelowy serwer sieciowy może doświadczać dużego obciążenia pracą z powodu nieograniczonej liczby żądań. Dlatego należy zachować ostrożność w takich przypadkach.

Często zadawane pytania

Czy pobieranie danych z Google jest nielegalne?

Zazwyczaj Google nie lubi, gdy scraperzy pobierają z niego dane. Jak już wielokrotnie wspominałem w tym artykule, może zablokować adresy IP użytkowników. Ponadto do tej pory Google nie podjęło żadnych działań w związku z nadmiernym skrobaniem danych. Oczywiście firmy SEO nie miałyby wyjścia, gdyby Google podjęło takie działania.

Wnioski

Teraz mamy nadzieję, że zdobyłeś ogólną wiedzę na temat różnych metod używanych przez skrobaczki internetowe do skrobania danych z SERP-ów. Różne okoliczności wykorzystują różne metody. Wreszcie, dowiedziałeś się, w jaki sposób możesz używać serwerów proxy do skrobania SERP wraz z ich konsekwencjami prawnymi.

Mamy nadzieję, że ten artykuł okaże się przydatny, i czekamy na kolejne.

Przez: ProxyScrape