ciemne logo proxyscrape

Jak skrobać Twittera za pomocą Pythona - proste podejście w 2024 roku

Jak to zrobić, Python, Grudzień-03-20225 minut czytania

Niewiele witryn może odnieść się do słowa "big data". Ale Twitter może, ponieważ codziennie na jego platformie wymienianych jest ponad 500 milionów tweetów, w tym ogromny procent obrazów, tekstu i filmów. Pojedynczy tweet może dostarczyć informacji o:

  • Liczba osób, które zobaczyły tweeta
  • Dane demograficzne osób, które polubiły lub retweetowały tweeta
  • Łączna liczba kliknięć na profilu użytkownika

W przeciwieństwie do wielu innych platform mediów społecznościowych, Twitter ma bardzo przyjazne, drogie i bezpłatne publiczne API, które można wykorzystać do uzyskania dostępu do danych na swojej platformie. Zapewnia on również API streamingowe, umożliwiające dostęp do danych na żywo z Twittera. Interfejsy API mają jednak pewne ograniczenia dotyczące liczby żądań, które można wysłać w określonym czasie. Potrzeba skrobania Twittera pojawia się, gdy nie można uzyskać dostępu do żądanych danych za pośrednictwem interfejsów API. Scraping automatyzuje proces zbierania danych z Twittera, dzięki czemu można je wykorzystać w arkuszach kalkulacyjnych, raportach, aplikacjach i bazach danych. 

Zanim zagłębimy się w kod Pythona do skrobania danych z Twittera, zobaczmy, dlaczego musimy skrobać dane z Twittera.

Przejdź do dowolnej sekcji, aby dowiedzieć się, jak skrobać Twittera za pomocą Pythona!

Spis treści

Dlaczego warto skrobać Twittera?

Wiesz, że Twitter jest serwisem mikroblogowym i idealnym miejscem do przechowywania bogatych informacji, które można skrobać. Ale czy wiesz, dlaczego musisz skrobać te informacje?

Poniżej wymieniono niektóre z powodów skrobania danych z Twittera, które pomagają badaczom:

  • Zrozumienie swojej sieci na Twitterze i wpływu swoich tweetów
  • Wiedza o tym, kto jest wymieniany poprzez @nazwy użytkowników
  • Badanie sposobu rozpowszechniania informacji
  • Badanie rozwoju i zmian trendów w czasie
  • Badanie sieci i społeczności
  • Znajomość popularności/wpływu tweetów i osób
  • Zbieranie danych o użytkownikach Twittera, które mogą obejmować:
    • Przyjaciele
    • Obserwujący
    • Ulubione
    • Zdjęcie profilowe
    • Data rejestracji itp.

Podobnie, skrobanie Twittera może pomóc marketerom:

  • Skuteczne monitorowanie konkurencji
  • Targetowanie odbiorców marketingowych za pomocą odpowiednich tweetów
  • Przeprowadzanie analizy nastrojów
  • Monitorowanie marek rynkowych
  • Nawiązywanie kontaktów z wpływowymi osobami na rynku
  • Badanie zachowań klientów

Jak skrobać Twittera za pomocą Pythona

Dostępnych jest wiele narzędzi do skrobania danych z Twittera w ustrukturyzowanym formacie. Niektóre z nich to:

  • Beautiful Soup - Jest to pakiet Pythona, który analizuje dokumenty HTML i XML i jest bardzo przydatny do skrobania Twittera.
  • API Twittera to wrapper Pythona, który wykonuje żądania API, takie jak pobieranie tweetów, wyszukiwanie użytkowników i wiele więcej. Można utworzyć aplikację Twittera do pobierania kluczy OAuth i uzyskiwania dostępu do API Twittera.
  • Twitter Scraper - Możesz użyć Twitter Scraper do skrobania danych z Twittera za pomocą słów kluczowych lub innych specyfikacji. 

Zobaczmy, jak zeskrobać tweety dla określonego tematu za pomocą biblioteki twitterscraper Pythona.

Zainstaluj twitterscraper

Bibliotekę twitterscraper można zainstalować za pomocą poniższego polecenia:

pip install twitterscraper

Możesz użyć poniższego polecenia, aby zainstalować najnowszą wersję.

pip install twitterscraper==1.6.1

LUB

pip install twitterscraper --upgrade

Import bibliotek

Zaimportujesz trzy rzeczy, tj;

  1. get_tweets
  2. pandy

from twitter_scraper import get_tweets
import pandas as pd

Specyfikacja

Załóżmy, że jesteśmy zainteresowani skrobaniem następującej listy hashtagów:

  • Uczenie maszynowe
  • Uczenie głębokie
  • NLP
  • Wizja komputerowa
  • AI
  • Tensorflow
  • Pytorch
  • Datascience 
  • Analiza danych itp.

keywords = ['machinelearning', ' ML', 'deeplearning', 
            ' #artificialintelligence', ' #NLP', 'computervision', 'AI', 
            ' tensorflow', 'pytorch', 'sklearn', 'pandas', 'plotly', 
            " spacy", "fastai", ' datascience', 'dataanalysis'].

.

Tworzenie DataFrame

Uruchomimy jedną iterację, aby zrozumieć, jak zaimplementować bibliotekę get_tweets. Przekazujemy nasz pierwszy argument lub temat jako hashtag, z którego chcemy zbierać tweety. 

tweets = get_tweets("#machinelearning", pages = 5)

Tutaj tweet jest obiektem. Musimy utworzyć Pandas DataFrame używając poniższego kodu:

tweets_df = pd.DataFrame()

Używamy poniższej funkcji, aby wydrukować klucze i uzyskane wartości.

for tweet in tweets:
 print('Klucze:', list(tweet.keys()), '\n')
  break

Wyświetlane są następujące klawisze:

Wyodrębnianie odpowiednich danych

Teraz uruchamiamy kod dla jednego słowa kluczowego i wyodrębniamy odpowiednie dane. Załóżmy, że chcemy wyodrębnić następujące dane:

  • tekst
  • isRetweet
  • odpowiedzi
  • retweety
  • upodobania

Możemy użyć pętli for, aby wyodrębnić te dane, a następnie możemy użyć funkcji head(), aby uzyskać pierwsze pięć wierszy naszych danych.

for tweet in tweets:
  _ = pd.DataFrame({'text' : [tweet['text']],
                    'isRetweet' : tweet['isRetweet'],
                    'replies' : tweet['replies'],
                    'retweets' : tweet['retweets'],
                    'likes' : tweet['likes']
                    })
  tweets_df = tweets_df.append(_, ignore_index = True)
tweets_df.head()

Oto ramka danych zawierająca nasze pożądane dane, dzięki której można łatwo wizualizować wszystkie zebrane tweety. 

Gratulacje za usunięcie tweetów z Twittera. Teraz przechodzimy do zrozumienia potrzeby korzystania z serwerów proxy Twittera.

Dlaczego warto korzystać z serwerów proxy Twittera?

Czy kiedykolwiek opublikowałeś coś, czego nie powinieneś? Serwery proxy na Twitterze są najlepszym rozwiązaniem dla użytkowników, którzy nie mogą sobie pozwolić na pozostawienie legionu obserwujących bez świeżych treści przez dłuższy czas. Bez nich nie miałbyś szczęścia i mógłbyś stracić obserwujących z powodu braku aktywności. Te serwery proxy działają w imieniu komputera użytkownika i ukrywają jego adres IP przed serwerami Twittera. Dzięki temu można uzyskać dostęp do platformy bez blokowania konta.

Podczas korzystania z narzędzia do skrobania danych na Twitterze potrzebny jest również odpowiedni serwer proxy. Na przykład marketerzy na całym świecie używają proxy do automatyzacji Twittera z narzędziami do skrobania, aby skrobać Twittera w celu uzyskania cennych informacji rynkowych w ułamku czasu.

Domowe serwery proxy - można korzystać z domowych serwerów proxy, które są szybkie, bezpieczne, niezawodne i opłacalne. Zapewniają one wyjątkowo wysoką jakość, ponieważ są bezpiecznymi i legalnymi adresami IP dostawców usług internetowych.

Narzędzia do automatyzacji - podczas korzystania z proxy Twittera można również użyć narzędzia do automatyzacji. Narzędzia te pomagają zarządzać wieloma kontami, ponieważ mogą obsługiwać wiele zadań jednocześnie.

Na przykład TwitterAttackPro to świetne narzędzie, które może obsłużyć prawie wszystkie obowiązki związane z Twitterem, w tym:

  • Śledzenie/nieśledzenie
  • Tweetowanie/Retweetowanie
  • Odpowiadanie na komentarz
  • Faworyzowanie

Aby korzystać z tych narzędzi automatyzacji, musisz użyć proxy Twittera. W przeciwnym razie Twitter zablokuje wszystkie konta.

Jaki jest najlepszy serwer proxy do skrobania Twittera w Pythonie?

ProxyScrape jest jednym z najpopularniejszych i najbardziej niezawodnych dostawców proxy online. Trzy usługi proxy obejmują dedykowane serwery proxy w centrach danych, domowe serwery proxy i serwery proxy premium. Jaki jest więc najlepszy możliwy serwer proxy do skrobania Twittera za pomocą Pythona? Zanim odpowiemy na to pytanie, najlepiej jest zapoznać się z funkcjami każdego serwera proxy.

Dedykowany serwer proxy centrum danych najlepiej nadaje się do szybkich zadań online, takich jak przesyłanie strumieniowe dużych ilości danych (pod względem rozmiaru) z różnych serwerów do celów analitycznych. Jest to jeden z głównych powodów, dla których organizacje wybierają dedykowane serwery proxy do przesyłania dużych ilości danych w krótkim czasie.

Dedykowany serwer proxy centrum danych ma kilka funkcji, takich jak nieograniczona przepustowość i jednoczesne połączenia, dedykowane serwery proxy HTTP ułatwiające komunikację oraz uwierzytelnianie IP dla większego bezpieczeństwa. Dzięki 99,9% uptime można mieć pewność, że dedykowane centrum danych będzie zawsze działać podczas każdej sesji. Wreszcie, ProxyScrape zapewnia doskonałą obsługę klienta i pomoże rozwiązać problem w ciągu 24-48 godzin roboczych. 

Następny jest mieszkaniowy serwer proxy. Residential to proxy dla każdego konsumenta. Głównym powodem jest to, że adres IP domowego serwera proxy przypomina adres IP dostarczony przez dostawcę usług internetowych. Oznacza to, że uzyskanie pozwolenia od serwera docelowego na dostęp do jego danych będzie łatwiejsze niż zwykle. 

Inną cechą domowego serwera proxy ProxyScrapejest funkcja rotacji. Rotacyjny serwer proxy pomaga uniknąć trwałego zablokowania konta, ponieważ domowy serwer proxy dynamicznie zmienia adres IP, utrudniając serwerowi docelowemu sprawdzenie, czy korzystasz z serwera proxy, czy nie. 

Oprócz tego, inne cechy proxy mieszkaniowego to: nieograniczona przepustowość, wraz z jednoczesnym połączeniem, dedykowane proxy HTTP/s, proxy w dowolnym momencie sesji ze względu na ponad 7 milionów proxy w puli proxy, uwierzytelnianie nazwy użytkownika i hasła dla większego bezpieczeństwa, a także, co nie mniej ważne, możliwość zmiany serwera krajowego. Możesz wybrać żądany serwer, dołączając kod kraju do uwierzytelniania nazwy użytkownika. 

Ostatni z nich to proxy premium. Premium proxy są takie same jak dedykowane proxy centrów danych. Funkcjonalność pozostaje taka sama. Główną różnicą jest dostępność. W przypadku proxy premium lista proxy (lista zawierająca proxy) jest udostępniana każdemu użytkownikowi w sieci ProxyScrape. Dlatego też proxy premium kosztują mniej niż dedykowane proxy centrów danych.

Jakie jest więc najlepsze możliwe proxy do skrobania Twittera za pomocą Pythona? Odpowiedzią jest "residential proxy". Powód jest prosty. Jak wspomniano powyżej, rezydencjalny serwer proxy jest obrotowym serwerem proxy, co oznacza, że adres IP użytkownika będzie dynamicznie zmieniany przez pewien okres czasu, co może być pomocne w oszukiwaniu serwera poprzez wysyłanie wielu żądań w krótkim czasie bez blokowania adresu IP. 

Następnie najlepiej byłoby zmienić serwer proxy na podstawie kraju. Wystarczy dodać kraj ISO_CODE na końcu uwierzytelniania IP lub uwierzytelniania nazwy użytkownika i hasła. 

Najczęściej zadawane pytania:

1. Jak zeskrobać Twittera za pomocą Pythona?
Możesz skrobać Twittera za pomocą Pythona z pomocą biblioteki Pythona o nazwie "twitterscraper". Jest ona znacznie łatwiejsza w użyciu w porównaniu do innych bibliotek skrobiących. Dzięki tej bibliotece można szybko skrobać dane, takie jak retweety, odpowiedzi, komentarze i wiele innych.
2. Czy skrobanie Twittera jest legalne?
To zależy. Publiczne dane z Twittera można pobierać bez żadnych problemów. Twitter może jednak zablokować użytkownika, jeśli wyśle on nadmierną liczbę żądań w krótkim czasie. Lepiej jest użyć serwera proxy, aby ukryć swój adres IP.
3. Jaki jest najlepszy serwer proxy do skrobania Twittera za pomocą Pythona?
Pełnomocnik mieszkaniowy jest najlepszym pełnomocnikiem do skrobania Twittera za pomocą Pythona. Powód jest prosty. Mieszkaniowy serwer proxy jest obrotowym serwerem proxy, co oznacza, że adres IP użytkownika będzie dynamicznie zmieniany przez pewien okres czasu, co może być pomocne w oszukiwaniu serwera poprzez wysyłanie wielu żądań w krótkim czasie bez blokowania adresu IP.

Wnioski

Omówiliśmy, że można skrobać Twittera za pomocą interfejsów API Twittera i skrobaków. Możesz użyć skrobaka Twittera do skrobania Twittera, wymieniając słowa kluczowe i inne specyfikacje, tak jak zrobiliśmy to powyżej. Marketerzy mediów społecznościowych, którzy chcą mieć więcej niż jedno konto na Twitterze, aby uzyskać szerszy zasięg, muszą korzystać z serwerów proxy Twittera, aby zapobiec zablokowaniu konta. Najlepszymi serwerami proxy są rezydencjalne serwery proxy, które są bardzo szybkie i nigdy nie są blokowane. 

Mam nadzieję, że wiesz już jak skrobać Twittera za pomocą Pythona.