Scrapy (Software)
Scrapy (Free and Open Source“-Webcrawling- und Scraping-Framework, das in der Programmiersprache Python geschrieben wurde.[7] Ursprünglich wurde Scrapy für Webscraping designt, jedoch kann es als Allzweck-Webcrawler oder auch zur Extraktion von Daten mittels API genutzt werden. Gegenwärtig wird es von der Firma Zyte Limited (früher Scrapinghub Ltd.) betreut.
) ist ein „Scrapy
| |
---|---|
Basisdaten
| |
Entwickler | Zyte Limited |
Erscheinungsjahr | 26. Juni 2008 |
Aktuelle Version | 2.11.2[1] (14. Mai 2024) |
Betriebssystem | Microsoft Windows[2], Linux[2], macOS[2], Berkeley Software Distribution[3] |
Programmiersprache | Python[4] |
Kategorie | Webcrawler, Screen Scraping |
Lizenz | 3-Klausel-BSD[5][6] |
scrapy.org, GitHub |
Die Architektur baut auf sogenannten Spiders auf. Dies sind in sich geschlossene Crawler, denen eine Reihe von Anweisungen gegeben werden. Nach dem Prinzip anderer „Don’t repeat yourself“-Frameworks, wie beispielsweise Django,[8] vereinfacht das Framework den Aufbau und die Skalierung von großen Crawling-Projekten, indem es Entwicklern erlaubt, den Code wiederzuverwenden. Scrapy bietet auch eine Shell, die Entwickler nutzen können, um ihre Annahmen auf das Verhalten einer Website zu testen.[9]
Einige Unternehmen und Produkte, die Scrapy nutzen, sind:[10]
Geschichte
BearbeitenScrapy entstand in dem in London ansässigen E-Commerce-Unternehmen Mydeco, wo es von Angestellten von Mydeco und Insophia (ein Unternehmen für Web-Beratung, ansässig in Montevideo, Uruguay) entwickelt und betrieben wurde. Die erste Veröffentlichung fand im August 2008 unter der BSD-Lizenz statt; die Version 1.0 erschien im Juni 2015.[17] Im Jahre 2011 wurde Scrapinghub der offizielle Betreuer des Projekts.[18][19]
Weblinks
Bearbeiten- Offizielle Website (englisch)
Einzelnachweise
Bearbeiten- ↑ Release 2.11.2. 14. Mai 2024 (abgerufen am 17. Mai 2024).
- ↑ a b c Installation guide. (abgerufen am 9. April 2022).
- ↑ Scrapy. (abgerufen am 9. April 2022).
- ↑ The scrapy Open Source Project on Open Hub: Languages Page. In: Open Hub. (abgerufen am 18. Juli 2018).
- ↑ directory.fsf.org. In: Free Software Directory. (abgerufen am 26. März 2017).
- ↑ The scrapy Open Source Project on Open Hub: Licenses Page. In: Open Hub. (abgerufen am 18. Juli 2018).
- ↑ Scrapy auf GitHub
- ↑ Frequently Asked Questions. Abgerufen am 28. Juli 2015.
- ↑ Scrapy shell. Abgerufen am 28. Juli 2015.
- ↑ Scrapy | Companies using Scrapy. Abgerufen am 9. April 2022 (englisch).
- ↑ Eddie Bell, Jonathan Heusser: Scalable Scraping Using Machine Learning. Archiviert vom am 9. Oktober 2016; abgerufen am 28. Juli 2015. Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.
- ↑ Scrapy | Companies using Scrapy
- ↑ Andrew Montalenti: Web Crawling & Metadata Extraction in Python.
- ↑ Scrapy Companies. In: Scrapy website.
- ↑ Hyphe v0.0.0: the first release of our new webcrawler is out!
- ↑ World Govt Data site uses Django, Solr, Haystack, Scrapy and other exciting buzzwords http://bit.ly/5jU3La #opendata #datastore.
- ↑ Scrapy 1.0 official release out! 19. Juni 2015 .
- ↑ Pablo Hoffman: List of the primary authors & contributors. 2013 (github.com [abgerufen am 18. November 2013]).
- ↑ Interview Scraping Hub.