Scrapy (Software)

Scrapy
Basisdaten
Entwickler	Zyte Limited
Erscheinungsjahr	26. Juni 2008
Aktuelle Version	2.11.2 ; (14. Mai 2024)
Betriebssystem	Microsoft Windows, Linux, macOS, Berkeley Software Distribution
Programmiersprache	Python
Kategorie	Webcrawler, Screen Scraping
Lizenz	3-Klausel-BSD
	scrapy.org, GitHub

Scrapy ([skrɛɪ̯pi̯]) ist ein „Free and Open Source“-Webcrawling- und Scraping-Framework, das in der Programmiersprache Python geschrieben wurde.^[7] Ursprünglich wurde Scrapy für Webscraping designt, jedoch kann es als Allzweck-Webcrawler oder auch zur Extraktion von Daten mittels API genutzt werden. Gegenwärtig wird es von der Firma Zyte Limited (früher Scrapinghub Ltd.) betreut.

Die Architektur baut auf sogenannten Spiders auf. Dies sind in sich geschlossene Crawler, denen eine Reihe von Anweisungen gegeben werden. Nach dem Prinzip anderer „Don’t repeat yourself“-Frameworks, wie beispielsweise Django,^[8] vereinfacht das Framework den Aufbau und die Skalierung von großen Crawling-Projekten, indem es Entwicklern erlaubt, den Code wiederzuverwenden. Scrapy bietet auch eine Shell, die Entwickler nutzen können, um ihre Annahmen auf das Verhalten einer Website zu testen.^[9]

Einige Unternehmen und Produkte, die Scrapy nutzen, sind:^[10]

Lyst^[11]^[12]
Parse.ly^[13]
Sayone Technologies^[14]
Sciences Po Medialab^[15]
Data.gov.uk^[16]

Geschichte

Scrapy entstand in dem in London ansässigen E-Commerce-Unternehmen Mydeco, wo es von Angestellten von Mydeco und Insophia (ein Unternehmen für Web-Beratung, ansässig in Montevideo, Uruguay) entwickelt und betrieben wurde. Die erste Veröffentlichung fand im August 2008 unter der BSD-Lizenz statt; die Version 1.0 erschien im Juni 2015.^[17] Im Jahre 2011 wurde Scrapinghub der offizielle Betreuer des Projekts.^[18]^[19]

Weblinks

Offizielle Website (englisch)

Einzelnachweise

↑ Release 2.11.2. 14. Mai 2024 (abgerufen am 17. Mai 2024).
↑ ^a ^b ^c Installation guide. (abgerufen am 9. April 2022).
↑ Scrapy. (abgerufen am 9. April 2022).
↑ The scrapy Open Source Project on Open Hub: Languages Page. In: Open Hub. (abgerufen am 18. Juli 2018).
↑ directory.fsf.org. In: Free Software Directory. (abgerufen am 26. März 2017).
↑ The scrapy Open Source Project on Open Hub: Licenses Page. In: Open Hub. (abgerufen am 18. Juli 2018).
↑ Scrapy auf GitHub
↑ Frequently Asked Questions. Abgerufen am 28. Juli 2015.
↑ Scrapy shell. Abgerufen am 28. Juli 2015.
↑ Scrapy | Companies using Scrapy. Abgerufen am 9. April 2022 (englisch).
↑ Eddie Bell, Jonathan Heusser: Scalable Scraping Using Machine Learning. Archiviert vom Original am 9. Oktober 2016; abgerufen am 28. Juli 2015. Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/talks.lystit.com
↑ Scrapy | Companies using Scrapy
↑ Andrew Montalenti: Web Crawling & Metadata Extraction in Python. Abgerufen im 1. Januar 1
↑ Scrapy Companies. In: Scrapy website. Abgerufen im 1. Januar 1
↑ Hyphe v0.0.0: the first release of our new webcrawler is out!
↑ World Govt Data site uses Django, Solr, Haystack, Scrapy and other exciting buzzwords http://bit.ly/5jU3La #opendata #datastore. Abgerufen im 1. Januar 1
↑ Scrapy 1.0 official release out! 19. Juni 2015; abgerufen im 1. Januar 1.
↑ Pablo Hoffman: List of the primary authors & contributors. 2013 (github.com [abgerufen am 18. November 2013]).
↑ Interview Scraping Hub.

[_f25044f392a4adfc-1] Release 2.11.2. 14. Mai 2024 (abgerufen am 17. Mai 2024).

[_d5579ae239add261-2] Installation guide. (abgerufen am 9. April 2022).

[_fe140d653310d378-3] Scrapy. (abgerufen am 9. April 2022).

[_35b2fd8b09f2aba6-4] The scrapy Open Source Project on Open Hub: Languages Page. In: Open Hub. (abgerufen am 18. Juli 2018).

[_aa831be6998104ac-5] rectory.fsf.org. In: Free Software Directory. (abgerufen am 26. März 2017).

[_fc61091b5327d760-6] The scrapy Open Source Project on Open Hub: Licenses Page. In: Open Hub. (abgerufen am 18. Juli 2018).

[7] Scrapy auf GitHub

[8] Frequently Asked Questions. Abgerufen am 28. Juli 2015.

[9] Scrapy shell. Abgerufen am 28. Juli 2015.

[10] Scrapy | Companies using Scrapy. Abgerufen am 9. April 2022 (englisch).

[11] Eddie Bell, Jonathan Heusser: Scalable Scraping Using Machine Learning. Archiviert vom Original am 9. Oktober 2016; abgerufen am 28. Juli 2015. Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/talks.lystit.com

[12] Scrapy | Companies using Scrapy

[13] Andrew Montalenti: Web Crawling & Metadata Extraction in Python. Abgerufen im 1. Januar 1

[14] Scrapy Companies. In: Scrapy website. Abgerufen im 1. Januar 1

[15] Hyphe v0.0.0: the first release of our new webcrawler is out!

[16] World Govt Data site uses Django, Solr, Haystack, Scrapy and other exciting buzzwords http://bit.ly/5jU3La #opendata #datastore. Abgerufen im 1. Januar 1

[17] Scrapy 1.0 official release out! 19. Juni 2015; abgerufen im 1. Januar 1.

[list-18] Pablo Hoffman: List of the primary authors & contributors. 2013 (github.com [abgerufen am 18. November 2013]).

[19] Interview Scraping Hub.

[7]

[1]

[2]

[3]

[4]

[5]

[6]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

Scrapy

Basisdaten
Entwickler	Zyte Limited
Erscheinungsjahr	26. Juni 2008
Aktuelle Version	2.11.2^[1] (14. Mai 2024)
Betriebssystem	Microsoft Windows^[2], Linux^[2], macOS^[2], Berkeley Software Distribution^[3]
Programmiersprache	Python^[4]
Kategorie	Webcrawler, Screen Scraping
Lizenz	3-Klausel-BSD^[5]^[6]
scrapy.org, GitHub