Semalt-Experte erklärt, wie das Scraping von Webdaten mit einem Gerichtsurteil legalisiert wurde

Während es möglicherweise illegal ist, Daten von Websites ohne die ausdrückliche Genehmigung der Eigentümer der Website zu kratzen, hat ein Richter kürzlich unter bestimmten Umständen etwas anderes entschieden. hiQ Labs hat kürzlich eine Klage gegen LinkedIn eingereicht, weil sie daran gehindert haben, Daten von LinkedIn-Seiten zu extrahieren.

Für die meisten Menschen war es ein grober Schock, dass LinkedIn dem Startup den freien Zugang zu seinen Webseiten gewähren sollte. hiQ hat seine Algorithmen verwendet, um anhand der Änderungen, die der Benutzer an seinem öffentlichen Profil vornimmt, zu erkennen, wann ein LinkedIn-Benutzer nach einem Job sucht.

Die Algorithmen werden mit Daten ausgeführt, die von den LinkedIn-Webseiten extrahiert wurden. Wie erwartet gefiel es LinkedIn nicht und es wurden Gegenmaßnahmen ergriffen, um zu verhindern, dass hiQ weitere Daten extrahiert. Neben den technischen Hindernissen wurden auch stark formulierte rechtliche Warnungen herausgegeben.

Das Startup hatte keine andere Wahl, als das Thema legal aufzugreifen. hiQ musste Rechtsmittel einlegen. Das Unternehmen wollte, dass LinkedIn seine technischen Hindernisse beseitigt. hiQ wollte auch, dass der Datenextraktionsprozess auf LinkedIn legalisiert wird.

Zum Glück für das Startup hat es bekommen, was es wollte. Das Urteil war zugunsten von hiQ. LinkedIn wurde angewiesen, alle Gegenmaßnahmen zu entfernen, die hiQ daran hindern, seine (LinkedIn) Webseiten zu kratzen, und hiQ freie Hand zu lassen, da die Handlung völlig legal ist. Der Richter hat seine Entscheidung von der Tatsache abhängig gemacht, dass hiQ Daten kratzen will, die für die Öffentlichkeit angezeigt wurden.

Der Richter ordnete nicht nur an, dass der Angeklagte alle gegen hiQ eingerichteten Präventionsmechanismen aufhebt, sondern befahl auch, dass der Angeklagte künftig von solchen Handlungen Abstand nehmen sollte.

Förderung offener Webdaten

Während das Urteil immer noch eine vorübergehende Verfügung ist, ist es herzerwärmend zu hören, dass das Gesetz offene Webdaten und den freien Zugang zu Informationen im Internet unterstützt, da dieses Urteil dies bestätigt. Selbst wenn die endgültige Entscheidung zugunsten des Angeklagten getroffen wird, wurde diese Tatsache bereits festgestellt.

Der Richter förderte diese Politik, indem er praktisch alle Argumente von LinkedIn schloss. Während LinkedIn versuchte festzustellen, dass der Kläger seine Privatsphäre verletzt, konterte der Richter dies mit der Tatsache, dass der Angeklagte auch die Daten verkauft.

Als das Argument kein Wasser enthielt, erklärte der Angeklagte auch, dass die Handlung von hiQ einen groben Verstoß gegen das Gesetz über Computerbetrug und -missbrauch (CFAA) darstelle, da das Startup auf seine Server zugegriffen habe, um illegal Daten zu sammeln. Wieder wurde das Argument durchstochen. Es wurde mit der Begründung abgelehnt, dass hiQ nur Inhalte auf öffentlichen, nicht geschützten Seiten kratzt.

Der Richter hat den Fall als jemanden analogisiert, der während der Geschäftszeiten in ein offenes Geschäft geht. Von einer solchen Person kann nicht gesagt werden, dass sie sie betritt. HiQ hat also nicht betreten. Interessanterweise ging der Richter weiter, um zu erklären, warum seine Entscheidung im öffentlichen Interesse liegt.

Kurz gesagt, das Gericht akzeptierte, dass es im öffentlichen Interesse liegt, das Crawlen, Extrahieren und Analysieren von Daten zu ermöglichen. Es wird daher eine nachteilige Politik sein, die Platzierung von Hindernissen für den freien Informationsfluss zu fördern.

Was Sie aus dem Urteil lernen sollten

Obwohl Sie möglicherweise keine Gründe haben, Daten direkt von LinkedIn zu extrahieren, sollten Sie aus dem Urteil lernen. Es ist besser, auf Nummer sicher zu gehen, indem Sie die robots.txt-Datei aller Websites lesen und respektieren. Denken Sie daran, das Urteil ist immer noch eine einstweilige Verfügung. Es könnte schließlich zugunsten von LinkedIn gehen.

Obwohl das Urteil Sie möglicherweise nicht direkt betrifft, ist es erfreulich, dass ein Bundesgericht die Politik der Offenhaltung des Internets für die Öffentlichkeit einhält. Informationen sollten daher für diejenigen verfügbar und zugänglich sein, die sie suchen und gut nutzen können.

Webdaten sind für alle äußerst nützlich, insbesondere für Medienanalysten, Entwickler, Datenwissenschaftler und einige andere Fachleute. Insofern ist das Urteil eine willkommene Entwicklung.