chcesz pomóc? Oto dostępne opcje:","Crunchbase","O nas","Dziękujemy wszystkim za niesamowite wsparcie!","Szybkie łącza","Program partnerski","ProxyScrape wersja próbna premium","Online Proxy Checker","Typy proxy","Kraje zastępcze","Przypadki użycia proxy","Ważne","Polityka plików cookie","Zastrzeżenie","Polityka prywatności","Zasady i warunki","Media społecznościowe","Facebook","LinkedIn","Twitter","Quora","Telegram","Discord"," © Copyright 2024 - Thib BV | Brugstraat 18 | 2812 Mechelen | Belgia | VAT BE 0749 716 760"]}
Podczas skrobania danych z witryn internetowych na dużą skalę jest najmniej prawdopodobne, że nie musiałeś stawić czoła CAPTCHA, aby udowodnić, że jesteś człowiekiem. Jako skrobak internetowy możesz już wiedzieć, dlaczego specjaliści od cyberbezpieczeństwa zostali zmuszeni do ich wynalezienia. Były one wynikiem automatyzacji przez boty niekończących się żądań dostępu do stron internetowych. Tak więc nawet prawdziwi użytkownicy musieli przejść przez ból konfrontacji z CAPTCHA, które pojawiają się w różnych formach. Możesz jednak ominąć CAPTCHA, niezależnie od tego, czy jesteś web scraperem, czy nie, co będzie celem tego artykułu. Ale najpierw przyjrzyjmy się, czym są CAPTCHA.
CAPTCHA to skrót od Completely Automated Public Turing Test to tell Computers and Humans Apart. To dość długi akronim, prawda? Teraz możesz się zastanawiać, co oznacza ostatnia część tego akronimu, Test Turinga - cóż, jest to prosty test mający na celu określenie, czy człowiek lub bot wchodzi w interakcję ze stroną internetową lub serwerem internetowym.
W końcu CAPTCHA odróżnia ludzi od botów, pomagając analitykom bezpieczeństwa cybernetycznego chronić serwery internetowe przed atakami siłowymi, DDoS, a w niektórych sytuacjach przed skrobaniem stron internetowych.
Dowiedzmy się, jak CAPTCHA odróżniają ludzi od botów.
CAPTCHA można znaleźć w formularzach na stronie internetowej, w tym w formularzach kontaktowych, rejestracyjnych, komentarzy, rejestracji lub wymeldowania.
Tradycyjne CAPTCHA zawierają obraz z rozciągniętymi lub rozmytymi literami, cyframi lub jednym i drugim w polu z kolorem tła lub przezroczystym tłem. Następnie użytkownik musi zidentyfikować znaki i wpisać je w polu tekstowym. Ten proces identyfikacji znaków jest łatwiejszy dla ludzi, ale nieco skomplikowany dla botów.
Z drugiej strony, niektóre zaawansowane boty mogą przechwytywać zniekształcone litery z pomocą uczenia maszynowego na przestrzeni lat. W rezultacie niektóre firmy, takie jak Google, zastąpiły konwencjonalne CAPTCHA zaawansowanymi CAPTCHA. Jednym z takich przykładów jest ReCAPTCHA, którą poznasz w następnej sekcji.
ReCAPTCHA to bezpłatna usługa oferowana przez Google. Prosi użytkowników o zaznaczenie pól zamiast wpisywania tekstu, rozwiązywania zagadek lub równań matematycznych.
Typowa ReCAPTCHA jest bardziej zaawansowana niż konwencjonalne formy CAPTCHA. Wykorzystuje rzeczywiste obrazy i teksty, takie jak sygnalizacja świetlna na ulicach, teksty ze starych gazet i drukowanych książek. W rezultacie użytkownicy nie muszą polegać na oldschoolowych CAPTCHA z rozmytym i zniekształconym tekstem.
Istnieją trzy istotne rodzaje testów ReCAPTCHA, które weryfikują, czy użytkownik jest człowiekiem:
Są to ReCAPTCHA, które proszą użytkowników o zaznaczenie pola wyboru "Nie jestem robotem", jak na powyższym obrazku. Chociaż gołym okiem może się wydawać, że nawet bot mógłby ukończyć ten test, bierze się pod uwagę kilka czynników:
Jeśli ReCAPTCHA nie zweryfikuje, że jesteś człowiekiem, przedstawi ci kolejne wyzwanie.
Te ReCAPTCHA dostarczają użytkownikom dziewięć lub szesnaście kwadratowych obrazów, jak widać na powyższym obrazku. Każdy kwadrat reprezentuje część większego obrazu lub różne obrazy. Użytkownik musi wybrać kwadraty reprezentujące określone obiekty, zwierzęta, drzewa, pojazdy lub sygnalizację świetlną.
Jeśli wybór użytkownika pasuje do wyborów innych użytkowników, którzy wykonali ten sam test, użytkownik zostaje zweryfikowany. W przeciwnym razie ReCAPTCHA przedstawi trudniejszy test.
Czy wiesz, że ReCAPTCHA może zweryfikować, czy jesteś człowiekiem, czy nie, bez użycia pól wyboru lub jakichkolwiek interakcji z użytkownikiem?
Z pewnością robi to, biorąc pod uwagę historię interakcji użytkownika z witrynami internetowymi i ogólne zachowanie użytkownika w Internecie. W większości scenariuszy, na podstawie tych czynników, system byłby w stanie określić, czy użytkownik jest botem.
Jeśli tego nie zrobisz, powrócisz do jednej z dwóch wcześniej wymienionych metod.
CAPTCHA mogą być uruchamiane, jeśli witryna wykryje nietypowe działania przypominające zachowanie botów; takie nietypowe zachowanie obejmuje nieograniczoną liczbę żądań w ciągu ułamków sekund i klikanie linków w znacznie wyższym tempie niż ludzie.
Wtedy niektóre strony internetowe automatycznie miałyby CAPTCHA, aby chronić swoje systemy.
Jeśli chodzi o ReCAPTCHA, nie jest do końca jasne, co je wywołuje. Jednak ogólnymi przyczynami są ruchy myszy, historia przeglądania i śledzenie plików cookie.
Teraz masz jasny przegląd tego, czym są CAPTCHA i Rechaptcha, jak działają i co je wyzwala. Teraz nadszedł czas, aby przyjrzeć się, jak CAPTCHA wpływają na skrobanie stron internetowych.
CAPTCHA mogą utrudniać skrobanie sieci, ponieważ zautomatyzowane boty wykonują większość operacji skrobania. Nie należy się jednak zniechęcać. Jak wspomniano na początku tego artykułu, istnieją sposoby na pokonanie CAPTCHA podczas skrobania sieci. Zanim do nich przejdziemy, zwróćmy uwagę na to, czego należy być świadomym przed skrobaniem.
Gdy użytkownik łączy się z witryną internetową, wysyła do niej informacje o swoim urządzeniu. Mogą one wykorzystywać te informacje do dostosowywania treści do specyfikacji urządzenia i śledzenia metryk. Kiedy więc dowiedzą się, że żądania pochodzą z tego samego urządzenia, każde żądanie wysłane później zostanie zablokowane.
Innym faktem, o którym powinieneś wiedzieć, jest to, że docelowa witryna nie umieściła twojego adresu IP na czarnej liście. Istnieje prawdopodobieństwo, że umieści ona twój adres IP na czarnej liście, jeśli wyślesz zbyt wiele żądań za pomocą scrapera/crawlera.
Rotacja nagłówków HTTP i serwerów proxy (więcej na ten temat w następnej sekcji) z pulą zapewni, że wiele urządzeń uzyska dostęp do strony internetowej z różnych lokalizacji. Powinieneś więc być w stanie kontynuować skrobanie bez zakłóceń ze strony CAPTCHA. Musisz jednak upewnić się, że w żaden sposób nie szkodzisz wydajności witryny.
Oprócz powyższych kluczowych czynników, podczas skrobania stron internetowych za pomocą bota należy znać poniższe CAPTCHA:
Sama zmiana agenta użytkownika nie będzie wystarczająca, ponieważ będziesz musiał mieć listę ciągów agenta użytkownika, a następnie je obracać. Ta rotacja spowoduje, że strona docelowa będzie postrzegać użytkownika jako inne urządzenie, podczas gdy w rzeczywistości jedno urządzenie wysyła wszystkie żądania.
Najlepszą praktyką na tym etapie byłoby przechowywanie bazy danych prawdziwych agentów użytkownika. Należy również usunąć pliki cookie, gdy nie są już potrzebne.
Prostszą, mało techniczną metodą rozwiązania CAPTCHA byłoby skorzystanie z usługi rozwiązywania CAPTCHA. Wykorzystują one sztuczną inteligencję (AI), uczenie maszynowe (MI) i kulminację innych technologii do rozwiązywania CAPTCHA.
Jeśli pozwolisz swojemu scraperowi na bezpośredni dostęp do adresu URL co ułamek sekundy, wówczas strona odbierająca będzie podejrzliwa. W rezultacie strona docelowa uruchomi CAPTCHA.
Aby uniknąć takiego scenariusza, można ustawić nagłówek odsyłacza tak, aby wyglądał na odesłany z innej strony. Zmniejszyłoby to prawdopodobieństwo wykrycia bota. Alternatywnie, możesz sprawić, by bot odwiedził inne strony przed odwiedzeniem żądanego linku.
Honeypoty to ukryte elementy na stronie internetowej, których eksperci ds. bezpieczeństwa używają do zastawiania pułapek na boty lub intruzów. Chociaż przeglądarka renderuje kod HTML, jego właściwości CSS są ustawione na ukrywanie. Jednakże, w przeciwieństwie do ludzi, kod honeypota byłby widoczny dla botów podczas pobierania danych. W rezultacie wpadły one w pułapkę zastawioną przez honeypota.
Dlatego przed rozpoczęciem skrobania należy upewnić się, że właściwości CSS wszystkich elementów na stronie internetowej nie są ukryte lub niewidoczne. Dopiero po upewnieniu się, że żaden z elementów nie jest ukryty, ustawiamy bota na scraping.
Ten artykuł dałby ci kompleksowe wyobrażenie o tym, jak unikać CAPTCHA podczas skrobania sieci. Unikanie CAPTCHA może być skomplikowanym procesem. Jednak przy użyciu konkretnych technik omówionych w tym artykule można opracować bota w taki sposób, aby uniknąć CAPTCHA.
Mamy nadzieję, że wykorzystasz wszystkie techniki omówione w tym artykule.