ciemne logo proxyscrape

Web Scraping dla generowania leadów: Tysiące potencjalnych klientów na wyciągnięcie ręki

Skrobanie, Mar-05-20215 minut czytania

Why Lead Generation Matters Lead generation is an essential part of growing your business. If your sales team doesn’t have leads to approach, they can’t do their job. Cold-calling prospects is rarely effective, especially for brands that sell higher-value products where there’s some friction to the idea of making a purchase. Every Sale Started as

Spis treści

Dlaczego generowanie leadów ma znaczenie

Generowanie leadów jest istotną częścią rozwoju firmy. Jeśli zespół sprzedaży nie ma potencjalnych klientów, nie może wykonywać swojej pracy. Dzwonienie do potencjalnych klientów na zimno rzadko jest skuteczne, szczególnie w przypadku marek, które sprzedają produkty o wyższej wartości, gdzie pomysł dokonania zakupu wiąże się z pewnym tarciem.

Każda sprzedaż zaczyna się od potencjalnego klienta

Sprzedaż pochodzi od potencjalnych klientów. Raport Technology Content Marketing: Benchmarks, Budgets and Trends opracowany przez Content Marketing Institute i MarketingProfs podkreśla, że 77% marketerów technologicznych wykorzystuje marketingowo zakwalifikowane leady do napędzania sprzedaży (wzrost z 64% w 2019 r.).

Kwalifikowani potencjalni klienci są łatwiejsi do konwersji, ponieważ są to osoby (lub firmy), które już wyraziły zainteresowanie Twoim produktem lub usługą. Identyfikując grupę docelową i koncentrując działania marketingowe na tych osobach, oszczędzasz czas i energię zespołu sprzedaży, dzięki czemu może on skupić się na potencjalnych klientach najwyższej jakości.

Moc sieci na wyciągnięcie ręki

Generowanie leadów jest dziś łatwiejsze niż kiedykolwiek wcześniej. Natychmiastowa komunikacja, wysoce ukierunkowane opcje marketingu w mediach społecznościowych i dostęp do baz danych zawierających niemal każdą informację, jaką można sobie wyobrazić, oznaczają, że właściciele małych firm mogą osiągnąć wszystko, co chcą.

W przeszłości, jeśli chciałeś dotrzeć do określonej grupy docelowej, musiałeś zapłacić ogromną kwotę firmie marketingowej, aby móc wysyłać ulotki pocztą do firm znajdujących się w ich bazie danych.

Dziś nie jest to konieczne. Jeśli chcesz znaleźć listę meksykańskich restauracji na wschodnim wybrzeżu lub szkół K-12 w swoim stanie, możesz to znaleźć online. Firmy działające w przestrzeni B2B mogą szybko i łatwo zbudować bazę danych potencjalnych klientów, a następnie filtrować tę listę i wysyłać dostosowane wiadomości marketingowe.

W przypadku podmiotów B2B, które są ukierunkowane na stosunkowo niewielki obszar geograficzny, proste wyszukiwanie w Internecie może wystarczyć do znalezienia listy potencjalnych klientów. Jeśli jednak chcesz dotrzeć do firm w całym stanie lub nawet w całym kraju, ręczne zbieranie wszystkich tych danych byłoby niezwykle czasochłonne.

Skrobanie stron internetowych może zaoszczędzić Tobie i Twojemu zespołowi marketingowemu znaczną ilość czasu i pieniędzy, automatycznie gromadząc potrzebne dane.

Czym jest Web Scraping?

Web Scraping to zautomatyzowana technika wyodrębniania danych ze strony internetowej lub wielu stron internetowych, dzięki czemu można je wykorzystać w innych aplikacjach. Załóżmy na przykład, że chcesz stworzyć listę nazw i adresów restauracji w Twojej okolicy, zamiast ręcznie odwiedzać każdą lokalną restaurację wymienioną na Yelp lub Tripadvisor. W takim przypadku można użyć skrobaka internetowego, aby przejść przez te strony i wyodrębnić te szczegóły, tworząc listę, którą można wykorzystać do wysyłania wiadomości e-mail.

Skrobanie stron internetowych może zaoszczędzić firmom wiele czasu i wysiłku, jeśli chodzi o budowanie listy marketingowej. Jest to również zaskakująco łatwe do zrobienia, jeśli masz odpowiednie narzędzia lub wiedzę programistyczną.

Jak działają skrobaki internetowe?

Skrobaki internetowe działają poprzez ładowanie stron, z których chcesz wyodrębnić dane, a następnie czytanie strony w poszukiwaniu rodzaju informacji, które próbujesz znaleźć. Tymi informacjami mogą być:

  • Nazwy firm
  • Numery telefonów
  • Adresy e-mail
  • Adresy pocztowe
  • Adresy stron internetowych

Gdy web scraper pobiera stronę, odczytuje kod źródłowy w poszukiwaniu wzorców. W zależności od witryny, z której pobierane są dane, może po prostu szukać czegoś, co pasuje do wzorca 123-456-78901 numeru telefonu lub formatu [email protected] adresu e-mail.

Alternatywnie, twórca scrapera może wiedzieć, że na określonej stronie katalogu dane kontaktowe są otoczone określonym zestawem znaczników w kodzie HTML i sprawić, że scraper wyodrębni informacje spomiędzy tych znaczników.

Niektóre programy typu scraper mogą być konfigurowane przez użytkownika końcowego, dzięki czemu można je nauczyć rozumienia niemal każdej strony internetowej.

Wyzwania związane z używaniem skrobaków

Jednym z problemów związanych z korzystaniem z oprogramowania do scraperów jest to, że przepisy takie jak unijne RODO oznaczają, że użytkownicy muszą bardzo uważać na gromadzone dane i sposób ich wykorzystania. Zgodnie z RODO organizacja musi mieć zgodę danej osoby na przechowywanie lub przetwarzanie jej danych.

Niektóre strony internetowe próbują chronić prywatność swoich użytkowników i własne zasoby serwerowe, próbując blokować web scrapery. Istnieje kilka opcji, aby to zrobić, w tym sprawdzanie "agenta użytkownika" zwracanego przez oprogramowanie klienckie i ograniczanie liczby żądań dla stron pochodzących z określonego adresu IP.

Jeśli chcesz skutecznie korzystać ze scraperów, musisz upewnić się, że rozumiesz zasady dotyczące marketingu w swoim kraju, odpowiedzialnie przetwarzasz wszelkie zebrane dane i wiesz, jak zbierać dane z wybranych źródeł w skuteczny, nieniszczący sposób, który nie spowoduje zablokowania Cię na danej stronie.

Na przykład na stronie ProxyScrape, oferujemy rezydencjalne serwery proxy, które mogą być wykorzystywane do gromadzenia danych. Zalecamy, aby w przypadku rozważania korzystania z tych serwerów proxy upewnić się, że skrobak nie wysyła nadmiernej liczby żądań do docelowej witryny w krótkim czasie. Scrape'uj odpowiedzialnie, aby nie wyrządzić szkody witrynom, z którymi pracujesz.

Wybór źródeł danych dla wysokiej jakości leadów

Skrobanie treści daje właścicielom firm dostęp do ogromnych ilości informacji, które w przeciwnym razie byłyby trudne do zebrania, ale informacje te są tak przydatne, jak źródło, z którego pochodzą.

Jednym z wyzwań związanych z gromadzeniem danych ze skrobania jest upewnienie się, że informacje są aktualne. W sieci istnieją tysiące katalogów, a wiele z nich jest źle wyselekcjonowanych i nieaktualnych.

Jeśli zbierasz dane z nieaktualnego źródła o niskiej jakości, w najlepszym przypadku tracisz czas na e-maile, które nie zostaną przeczytane. W najgorszym przypadku możesz spotkać się ze skargami za wielokrotne wykonywanie niechcianych połączeń telefonicznych na numer, który nie należy już do firmy, o której myślałeś.

Jak więc zwiększyć szanse na to, że zebrane dane okażą się przydatne?

Ostrożny wybór źródła danych

Zanim zaczniesz zbierać dane za pomocą narzędzia do scrapingu, sprawdź witrynę, z którą zamierzasz pracować ręcznie. Zbierz kilka potencjalnych klientów ręcznie i zbadaj je.

Czy firmy nadal działają? Czy dane kontaktowe są nadal poprawne? Czy wygląda na to, że właściciel katalogu sprawdza informacje przed ich dodaniem?

Załóżmy, że połowa leadów zebranych ręcznie jest martwa, nieaktualna lub potencjalnie fałszywa. W takim przypadku istnieje duże prawdopodobieństwo, że każda baza danych utworzona przez skrobanie tej witryny będzie niskiej jakości.

Większe witryny z katalogami, takie jak Tripadvisor, Yelp lub FourSquare, mają większe szanse na uzyskanie wysokiej jakości danych niż mniejsze, mniej znane katalogi, ponieważ platformy te mają znacznie większą bazę użytkowników, którzy je aktualizują.

Niszowe katalogi mogą być wartościowe, jeśli chcesz sprzedawać do niejasnej grupy zainteresowań lub wysoce wyspecjalizowanego typu firmy, ale powinieneś spodziewać się, że będziesz musiał dużo wyczyścić dane, zanim wykorzystasz zebrane informacje do celów marketingowych.

Rozważ witryny wymagające logowania

W wielu przypadkach znacznie bardziej wartościowe dane można uzyskać, zbierając je z witryny wymagającej logowania. LinkedIn i Twitter, na przykład, mogą być skrobane, jeśli używasz ogranicznika szybkości, aby utrzymać liczbę żądań wysyłanych przez bota na rozsądnym poziomie i jesteś zalogowany na stronie, gdy wysyłasz żądania.

Inną opcją jest użycie API zamiast prostego scrapera HTTP i zebranie szczegółów z jednej z popularnych usług mapowania. Na przykład Google udostępnia interfejs API wyszukiwania firm, który może być używany do zbierania informacji o organizacjach uwzględnionych w Mapach Google, ale przed uzyskaniem dostępu do interfejsu API należy wyrazić zgodę na przestrzeganie warunków Google.

Ogólnie rzecz biorąc, jeśli dostępny jest interfejs API, lepiej jest gromadzić dane za jego pomocą niż korzystać z web scrapingu. Prawdopodobieństwo napotkania problemów z właścicielami witryn będzie znacznie mniejsze, a czyszczenie danych dostarczanych za pośrednictwem interfejsu API będzie łatwiejsze.

Prawidłowe konstruowanie zapytań

W programowaniu komputerowym istnieje powiedzenie "garbage in, garbage out" i z pewnością ma to zastosowanie do gromadzenia danych. Upewnij się, że starannie konstruujesz wszelkie przeprowadzane wyszukiwania.

Na przykład, jeśli chcesz sprzedawać budowlańcom w Newcastle, nie zapominaj, że w Anglii jest więcej niż jedno Newcastle, a w Australii też jest Newcastle. Jeśli wyszukujesz "Newcastle" za pośrednictwem serwera proxy, większość witryn spróbuje odgadnąć, które Newcastle masz na myśli, sprawdzając, które jest najbliżej lokalizacji geograficznej serwera proxy.

Spróbuj zawęzić wyszukiwanie tak bardzo, jak to możliwe, podając informacje o mieście, stanie, a nawet kraju, jeśli pozwala na to docelowa witryna internetowa. Pomoże to uniknąć sytuacji, w której baza danych będzie pełna danych kontaktowych organizacji oddalonych o setki kilometrów od wybranego obszaru.

Opcje oprogramowania do skrobania: Popularne narzędzia

Web scraping może być tak prosty lub tak złożony, jak tylko chcesz. Jeśli próbujesz scrapingu po raz pierwszy, nie ma potrzeby wydawania dużych pieniędzy na zaawansowane oprogramowanie.

Niektóre dobre opcje obejmują:

  • Skrobak
  • ProWebScraper
  • Scrapy

Scraper to rozszerzenie przeglądarki internetowej, które pozwala użytkownikom szybko i łatwo wyodrębniać dane ze stron internetowych. Jeśli chcesz pobrać informacje z pojedynczej strony wyników lub niewielkiej liczby stron, Scraper jest prostym i skutecznym sposobem na zrobienie tego i może się okazać, że jest znacznie łatwiejszy w użyciu niż bardziej wyrafinowany crawler internetowy.

ProWebScraper to bardziej zaawansowane narzędzie, które ma wersję darmową i premium. Darmowe narzędzie może być używane do skrobania do 100 stron, co oznacza, że powinno być wystarczające dla mniejszej, niszowej firmy. ProWebScraper jest stosunkowo łatwy w użyciu jak na oprogramowanie do scrapingu, z interfejsem typu "wskaż i kliknij" i wstępnie zaprojektowanymi regułami, które pozwalają skonfigurować scraping, nawet jeśli nie jesteś pewny siebie od strony technicznej.

ProWebScraper może pobierać obrazy i tworzyć zrzuty JSON, CSV lub XML. Można go nawet skonfigurować tak, aby skrobał witryny zgodnie z harmonogramem, dzięki czemu można zbierać dane i aktualizować rekordy marketingowe.

Scrapy to framework do skrobania stron internetowych, który jest darmowy i open source. Narzędzie to wymaga wiedzy technicznej, ale jest szybkie, elastyczne i może być używane do skrobania dużych ilości danych. Scrapy można uruchomić na własnym komputerze z systemem Linux, OS X, Windows lub BSD lub na serwerze internetowym.

Istnieje aktywna społeczność Scrapy, w tym czat IRC, Reddit i StackOverflow. Możesz zasięgnąć porady od społeczności i być w stanie skorzystać z rozszerzeń lub modułów stworzonych przez społeczność, odblokowując moc Scrapy, nawet jeśli sam nie jesteś pewnym siebie programistą.

Kodowanie własnego scrapera

Jeśli musisz zebrać dużo danych lub planujesz regularnie skrobać, darmowe narzędzia i narzędzia oparte na GUI mogą nie być wystarczająco wydajne dla twojego przypadku użycia. Dobrym rozwiązaniem jest zakodowanie własnego scrapera lub zatrudnienie programisty, który zrobi to za Ciebie.

Istnieje kilka darmowych frameworków typu open-source, które można wykorzystać do zakodowania scrapera w popularnych językach, takich jak Python, Perl, Java, R lub PHP.

Jedną z najpopularniejszych bibliotek do skrobania stron internetowych jest BeautifulSoup. Jest to narzędzie do skrobania w języku Python, które jest w stanie szybko i łatwo wyodrębniać dane z plików HTML lub XML. Aby z niego korzystać, trzeba posiadać pewną wiedzę z zakresu programowania, ale wykonuje ono wiele szczegółowych czynności związanych ze scrapingiem, dzięki czemu nie trzeba wymyślać koła na nowo.

Po wyodrębnieniu danych można je wyeksportować jako plik CSV lub wyświetlić w różnych formatach przy użyciu biblioteki przetwarzania danych, takiej jak Pandas.

Plusy i minusy kodowania własnego scrapera

Zakodowanie własnego scrapera jest dobrym pomysłem, jeśli posiadasz pewną wiedzę programistyczną. Zakodowanie własnego scrapera może być również przydatne, jeśli chcesz wyodrębnić wiele danych z nietypowej strony internetowej, z którą nie radzą sobie darmowe narzędzia do scrapingu.

Zakodowanie własnego scrapera lub zapłacenie komuś za zrobienie tego za Ciebie może być dobrym pomysłem, jeśli masz konkretne, wyrafinowane potrzeby. Niestandardowy scraper może być zaprojektowany wokół strony docelowej bardziej efektywnie niż bardziej ogólne narzędzie, więc jest mniej prawdopodobne, że napotkasz błędy lub problemy z obsługą danych.

Z drugiej strony, niestandardowe skrobaki są również przydatne do mniejszych, prostych zadań. Po napisaniu scrapera raz można dostosować procedurę parsowania i użyć tego samego skryptu do wyodrębnienia danych z innych stron.

Wadą korzystania z niestandardowego scrapera jest to, że napisanie scrapera po raz pierwszy wymaga czasu, a jeśli nie jesteś doświadczonym programistą, możesz spędzić więcej czasu zmagając się z formatowaniem JSON lub próbując nauczyć się nowej biblioteki, niż zajęłoby to po prostu przeczytanie instrukcji obsługi ProWebScrapera i skonfigurowanie go.

W zależności od zadania, bardziej opłacalne może być zapłacenie za narzędzie niż napisanie własnego.

Ponadto, jeśli planujesz napisać własny scraper, musisz być świadomy najlepszych praktyk scrapingu i kwestii związanych z kodowaniem, takich jak:

  • Używanie User-Agent do identyfikacji bota
  • Sposób obsługi uwierzytelniania dla witryn wymagających logowania
  • Zgodność z wszelkimi warunkami korzystania ze strony internetowej
  • Ograniczenie liczby żądań w celu uniknięcia nadmiernego obciążenia witryny.
  • Wysyłanie prawidłowo sformułowanych żądań
  • Używanie (i regularne zmienianie) serwerów proxy
  • Oczyszczanie wszelkich informacji zwracanych przez serwer
  • Zasady ochrony danych dotyczące sposobu i miejsca przechowywania zwróconych informacji
  • Rozwiązywanie CAPTCHA

Napisanie małego scrapera do pobierania informacji o kilkuset lub kilku tysiącach firm ma wiele sensu. Jeśli pobierasz większe ilości danych, możesz zasięgnąć porady lub współpracować z ekspertem, aby upewnić się, że jesteś w pełni zgodny z lokalnymi przepisami dotyczącymi prywatności.

Złote zasady skrobania stron internetowych

Jeśli zdecydujesz się napisać własny scraper, pamiętaj, aby "być miłym". Dołóż wszelkich starań, aby scrape'ować w przemyślany sposób, wysyłając prawidłowo sformułowane żądania, scrape'ując powoli i używając zakresu adresów IP podczas scrape'owania.

Postaraj się, aby Twój scraper wyglądał jak człowiek. Oznacza to powolne żądanie stron i staranie się nie podążać za ustalonym wzorcem podczas przeglądania stron. Rozważmy na przykład pobranie listy wyników wyszukiwania, sporządzenie listy linków na stronie wyników, a następnie przejście do tych linków w losowej kolejności, aby było mniej oczywiste, że jesteś botem.

Nie wysyłaj wielu żądań z tego samego adresu IP w tym samym czasie. Narzędzia anty-scrapingowe wykryją, że obciążasz serwer w nieprawidłowy sposób.

Przestrzegaj informacji zawartych w pliku robots.txt witryny. Jeśli istnieją strony, webmaster nie chce, aby były indeksowane. Zignorowanie tego byłoby nieetyczne.

Rozważ użycie biblioteki takiej jak Selenium, aby twój bot wyglądał bardziej ludzko, wysyłając kliknięcia na stronę lub w inny sposób wchodząc z nią w interakcję. Niektóre bardziej zaawansowane narzędzia ant-scraper szukają wzorców interakcji podobnych do botów i blokują adres IP, jeśli zauważą brak przewijania, klikania i innych interakcji.

Istnieje technologiczny wyścig zbrojeń między twórcami scraperów a tymi, którzy próbują zablokować scrapery na swoich stronach internetowych. Bardzo trudno jest stworzyć scrapera, który może zbierać ogromne ilości danych bez wykrycia. Jednak w przypadku mniejszych lub średnich projektów, jeśli będziesz przestrzegać zasad bycia miłym i nie będziesz chciwy, powinieneś być w stanie uzyskać potrzebne dane za pomocą powolnego, stabilnego scrapera i kilku serwerów proxy.

Pamiętaj, że twój bot może pracować 24 godziny na dobę, zbierając dane w tle, więc nie ma potrzeby pobierania całej listy małych firm na Yelp za jednym razem.

Rozwiązywanie problemów ze skrobaczką

Istnieje kilka potencjalnych problemów, które można napotkać podczas korzystania ze skrobaka. Mogą one obejmować:

  • Zablokowanie adresu IP przez webmastera
  • Zablokowanie klienta scrapingu przez webmastera
  • Twój scraper myli się podczas próby poruszania się po witrynie
  • Śmieciowe dane zbierane przez "honeypoty" ukryte na stronach internetowych
  • Ograniczenie szybkości uniemożliwiające szybką pracę skrobaka
  • Zmiany w projektach witryn przerywają działanie scrapera, który kiedyś działał

Dobrą wiadomością jest to, że wszystkie te problemy można naprawić, jeśli zrozumie się, jak działają scrapery.

Proste skrobaki internetowe działają według pewnego schematu:

  1. Scraper wysyła żądanie HTTP do strony internetowej
  2. Witryna wysyła odpowiedź, tak jak w przypadku zwykłej przeglądarki internetowej
  3. Scraper odczytuje odpowiedź, szukając wzorca w kodzie HTML
  4. Wzorzec jest wyodrębniany i zapisywany w pliku JSON do późniejszego przetworzenia
  5. Następnie scraper może kontynuować czytanie odpowiedzi w poszukiwaniu kolejnych wzorców lub wysłać kolejne żądanie

Istnieje kilka obszarów, w których coś może pójść nie tak.

Skrobaczka nie pobiera żadnych danych

Jeśli scraper w ogóle nie zbiera żadnych danych, może to być spowodowane problemem ze sposobem skonfigurowania parsera lub tym, że scraper nie widzi tej samej witryny, co użytkownik korzystający z przeglądarki internetowej.

Aby dowiedzieć się, co poszło nie tak, ustaw scrapera tak, aby wyświetlał kod HTML strony i porównaj go z normalnym wyjściem przeglądarki.

Jeśli zobaczysz błąd lub inną stronę, może to oznaczać, że Twój klient scrapingu został zablokowany. Witryna mogła zablokować twój adres IP lub oprogramowanie klienta scrapera.

Spróbuj zmienić User-Agent identyfikowany przez scrapera na taki, który sprawia, że wygląda on jak nowoczesna przeglądarka internetowa, taka jak Firefox lub Chrome. Może to pomóc w obejściu prostych ograniczeń na niektórych stronach.

Jeśli to nie zadziała, rozważ ustawienie skrobaka tak, aby używał serwera proxy do łączenia się z daną witryną. Serwer proxy to serwer, który wysyła żądania internetowe w imieniu użytkownika, dzięki czemu witryna nie może stwierdzić, że pochodzą one z połączenia internetowego użytkownika.

Jeśli widzisz "normalną" stronę, to problem jest bardziej prawdopodobny ze sposobem, w jaki ustawiłeś scrapera do wyodrębniania danych. Każdy program skrobiący ma swój własny sposób dopasowywania wzorców, chociaż większość z nich wykorzystuje pewną odmianę wyrażeń regularnych. Upewnij się, że w dopasowywaniu wzorców nie ma błędów typograficznych. Pamiętaj, że program robi dokładnie to, co mu każesz, więc nawet jeden mały błąd całkowicie złamie zasady dopasowywania!

Skrobaczka działa przez chwilę, po czym przestaje działać

Innym częstym problemem jest to, że scraper działa przez krótki czas, a następnie przestaje działać. Zwykle oznacza to, że witryna zablokowała adres IP użytkownika, tymczasowo lub na stałe, ponieważ wysłał on zbyt wiele żądań w krótkim czasie.

Jeśli tak się stanie, można obejść zakaz, korzystając z serwera proxy. Proxyscrape oferuje zarówno proxy premium, jak i proxy dla użytkowników indywidualnych, których można używać do skrobania danych. Premium datacenter proxy są szybkie i oferują nieograniczoną przepustowość, ale mają adresy IP, które webmasterzy mogą rozpoznać jako pochodzące z centrum danych. Mieszkaniowe serwery proxy wyglądają jak "dla użytkowników domowych", ale dostępna na nich przepustowość może być niższa.

Rozważ zmianę serwera proxy po kilku żądaniach, aby zmniejszyć ryzyko zablokowania adresu IP serwera proxy. Ryzyko zablokowania adresu IP można również zmniejszyć, zmniejszając prędkość, z jaką scraper wysyła żądania.

Pamiętaj, że scraper może pracować w tle, 24 godziny na dobę, bez przerw. Nawet jeśli ograniczysz prędkość scrapera do analizowania jednej strony co 15-30 sekund, będzie on działał szybciej niż człowiek.

Należy pamiętać, że wiele stron internetowych, zwłaszcza mniejszych, jest hostowanych na serwerach, które mają ograniczenia prędkości i ilości danych, które mogą przesyłać każdego miesiąca. Możesz uważać, że pobieranie danych przez twojego bota nie jest nieuzasadnione, ale jeśli wielu innych użytkowników robi to samo lub twój bot "gubi się" i próbuje bez końca pobierać te same strony w kółko, możesz pogorszyć wydajność witryny dla użytkowników lub kosztować webmastera pieniądze, zużywając nadmierne zasoby.

Scraper jest zdezorientowany i przechodzi przez niekończącą się pętlę stron

Innym częstym problemem napotykanym przez marketerów podczas korzystania ze skrobaka internetowego jest to, że skrobak się myli i pobiera strony, których nie powinien.

Wyobraźmy sobie, że planem scrapera jest znalezienie listy murarzy w Twoim mieście i wysyłasz go do katalogu, w którym to wyszukuje. Scraper powinien:

  • Przesłanie żądania HTTP zawierającego żądany ciąg wyszukiwania
  • Pobierz stronę wyników
  • Przeanalizuj stronę wyników, aby znaleźć link do pierwszego wyniku
  • Otwórz ten link
  • Wyodrębnij dane kontaktowe z tej nowej strony
  • Kontynuuj analizowanie strony wyników, aby znaleźć drugi wynik
  • Otwórz ten link
  • I tak dalej...

Niektóre strony internetowe są zbudowane tak, aby zawierały "honeypoty", które przechwytują i dezorientują boty. Te honeypoty to fragmenty kodu HTML, które są ustawione z tagiem "display:none", więc nie będą wyświetlane w normalnej przeglądarce. Boty mogą je jednak zobaczyć i jeśli nie są skonfigurowane tak, aby je ignorować, będą je przetwarzać tak jak normalny HTML.

Bardzo trudno jest zaprogramować bota tak, aby całkowicie ignorował wszystkie pułapki HTML, ponieważ niektóre z nich są niezwykle wyrafinowane. To, co można jednak zrobić, to ustawić limity liczby linków, za którymi bot będzie podążał. Możesz także samodzielnie przejrzeć źródło strony i poszukać wszelkich oczywistych pułapek, aby ustawić bota tak, aby je ignorował.

Etyczny marketing: Mądrze korzystaj z pozyskanych leadów

Web scraping to coś, na co wiele witryn nie zwraca uwagi i co właściciele firm powinni robić ostrożnie. Zgodnie z RODO nielegalne jest na przykład pozyskiwanie informacji o mieszkańcach UE bez ich zgody.

Ponadto wiele witryn, które ukrywają dane za ekranem logowania, wyraźnie zakazuje skrobania stron internetowych w swoich warunkach. Oznacza to, że istnieje ryzyko zablokowania dostępu do tej witryny, jeśli okaże się, że korzystasz ze skrobaka.

Jeśli zdecydujesz się na wykorzystanie scrapingu do zbierania leadów, staraj się robić to rozsądnie. Pomyśl o scrapingu jako o sposobie na zaoszczędzenie czasu podczas zbierania potencjalnych klientów, których i tak byś zebrał, a nie jako o sposobie na przeprowadzenie masowej kampanii marketingowej.

Unikaj zarzucania zbyt szerokiej sieci za pomocą scrapingu. Kuszące może być zebranie danych kontaktowych każdej firmy lub osoby w Twojej okolicy i okolicach w nadziei na przekształcenie jednej z tych firm w klienta, ale taka szeroka, nieukierunkowana kampania najprawdopodobniej przyniesie odwrotny skutek.

Czyszczenie i konserwacja bazy danych

Przed rozpoczęciem kampanii marketingowej należy sprawdzić zebrane dane. Wyczyść bazę danych, aby usunąć wszelkie oczywiście nieprawidłowe dane, takie jak firmy, które zostały zamknięte, zduplikowane rekordy lub rekordy osób, które nie znajdują się w obszarze docelowym.

Po rozpoczęciu kampanii należy na bieżąco aktualizować bazę danych. Jeśli potencjalny klient poprosi o usunięcie z bazy danych, usuń go. Jeśli możesz to zrobić zgodnie z prawem w swojej jurysdykcji, zachowaj wystarczającą ilość danych na ich temat, aby dodać ich adres e-mail lub numer telefonu do listy "nie kontaktować się", aby nie można ich było ponownie dodać do marketingowej bazy danych przy następnym skrobaniu.

Inne rzeczy, o których należy pamiętać podczas zarządzania kampaniami marketingowymi to:

  • Ogranicz liczbę wiadomości e-mail lub połączeń wykonywanych do potencjalnych klientów.
  • Udostępnianie informacji o rezygnacji we wszystkich wysyłanych kontaktach.
  • Respektowanie żądań rezygnacji i ich niezwłoczne wykonywanie.
  • Jeśli ktoś odpowie na Twój marketing, zaktualizuj jego dane

Istnieje cienka granica między proaktywnym marketingiem a agresywnym spamem. Powtarzające się kontakty od marketerów są częścią podróży klienta i ważne jest, aby pozostać w kontakcie z potencjalnymi klientami, ale zbyt agresywny marketing może zrazić potencjalnych klientów i dać Twojej marce złą reputację.

Rozważ zaimportowanie danych uzyskanych ze skrobania do systemu CRM, abyś mógł śledzić każdego klienta, na jakim etapie procesu konwersji się znajduje i jak reaguje na wiadomości marketingowe.

Pomoże to nie tylko być na bieżąco z indywidualnymi klientami, ale także ułatwi sprawdzenie, jak kampanie marketingowe działają zbiorczo, dzięki czemu można udoskonalić komunikaty.

Śledzenie źródła potencjalnych klientów może być również pomocne, ponieważ daje wyobrażenie o tym, które źródła danych zawierają informacje najwyższej jakości.