Expert Semalt sur le grattage de données de sites Web - bons et mauvais robots

Le scraping Web existe depuis longtemps et est considéré comme utile pour les webmasters, les journalistes, les pigistes, les programmeurs, les non-programmeurs, les chercheurs en marketing, les universitaires et les experts des médias sociaux. Il existe deux types de bots: les bons et les mauvais bots. Les bons robots permettent aux moteurs de recherche d'indexer le contenu Web et sont privilégiés par les experts du marché et les spécialistes du marketing numérique. Les mauvais robots, en revanche, sont inutiles et visent à endommager le classement des moteurs de recherche d'un site. La légalité du scraping Web dépend du type de bots que vous avez utilisé.

Par exemple, si vous utilisez les mauvais robots qui récupèrent le contenu de différentes pages Web avec l'intention de l'utiliser illégalement, le grattage Web peut être dangereux. Mais si vous utilisez les bons robots et évitez les activités nuisibles, y compris les attaques par déni de service, les fraudes en ligne, les stratégies concurrentielles d'exploration de données, les vols de données, les détournements de compte, l'analyse de vulnérabilité non autorisée, les fraudes publicitaires numériques et le vol des propriétés intellectuelles, alors la procédure de grattage Web est bonne et utile pour développer votre entreprise sur Internet.

Malheureusement, la plupart des pigistes et des startups aiment les mauvais bots car ils sont un moyen bon marché, puissant et complet de collecter des données sans avoir besoin d'un partenariat. Cependant, les grandes entreprises utilisent les grattoirs Web légaux pour leurs gains et ne veulent pas ruiner leur réputation sur Internet avec des grattoirs Web illégaux. Les opinions générales sur la légalité du scraping web ne semblent pas avoir d'importance car au cours des derniers mois, il est devenu clair que les systèmes judiciaires fédéraux répriment de plus en plus les stratégies illégales de scraping web.

Le grattage du Web a commencé comme un processus illégal en 2000, lorsque l'utilisation de robots et d'araignées pour gratter des sites Web était considérée comme un non-sens. Peu de pratiques ont été adaptées pour empêcher cette procédure de se propager sur Internet jusqu'en 2010. eBay a d'abord déposé les injonctions préliminaires contre Bidder's Edge, affirmant que l'utilisation de robots sur le site Web avait violé les lois sur l'intrusion contre les biens meubles. Le tribunal a rapidement accordé les injonctions car les utilisateurs devaient accepter les termes et conditions du site et un grand nombre de robots ont été désactivés car ils pouvaient être destructeurs pour les machines informatiques d'eBay. Le procès a rapidement été réglé à l'amiable, et eBay a empêché tout le monde d'utiliser des robots pour gratter le Web, qu'ils soient bons ou mauvais.

En 2001, une agence de voyages avait poursuivi les concurrents qui avaient retiré son contenu du site Web à l'aide d'araignées nuisibles et de mauvais robots. Les juges ont de nouveau pris des mesures contre le crime et ont favorisé les victimes, affirmant que le grattage du Web et l'utilisation de robots pouvaient nuire à diverses entreprises en ligne.

De nos jours, pour l'agrégation académique, privée et de l'information, beaucoup de gens comptent sur des procédures équitables de grattage Web, et de nombreux outils de grattage Web ont été développés à cet égard. Maintenant, les fonctionnaires disent que tous ces outils ne sont pas fiables, mais ceux qui viennent dans les versions payantes ou premium sont meilleurs que les grattoirs Web gratuits .

En 2016, le Congrès avait adopté la première législation visant à cibler les mauvais robots et à favoriser les bons robots. La loi sur l'amélioration des ventes de billets en ligne (BOTS) a été créée, qui interdit l'utilisation de logiciels illégaux pouvant cibler les sites Web, endommageant les rangs des moteurs de recherche et détruisant leurs entreprises. Il y a des questions d'équité. Par exemple, LinkedIn a dépensé beaucoup d'argent pour les outils qui bloquent ou éliminent les mauvais bots et encouragent les bons bots. Alors que les tribunaux tentent de décider de la légalité du scraping web, les entreprises se font voler leurs données.

mass gmail