Catégories
français tech

Le secret de Babbar pour calculer la duplication interne

Nous avons récemment introduit dans Babbar la possibilité de calculer la distribution de la duplication interne à un site. Alors vous vous posez sans doute la question de savoir comment marche le calcul de ces near-duplicates ? Notre CTO Guillaume Pitel répond ici à votre question. Tout part du contenu de chaque page Le premier élément […]

Catégories
english tech

How Babbar is crawling billions of webpages? (2/2)

In part 1 of this article, you learned how Babbar crawls the web, extracts the links and computes the metrics (more to come on this subject soon) and now, you know almost everything there is to know about Babbar’s computing side. Let’s now talk about how Babbar makes all these data available to its clients. […]

Catégories
english tech

How Babbar is crawling billions of webpages? (1/2)

Those of you who follow Babbar since the beginning already know that Babbar is the reunion of both Exensa and ix-labs teams, people that have known each other for up to 20 years but chose to work together only a few months back. Today we start sharing some technical details about what Babbar does. First, […]

Catégories
français tech

Babbar crawle des dizaines de milliards de pages, mais comment ? (2/2)

Dans la première partie de ce billet, vous avez pu découvrir comment Babbar opère le crawl, récupère les liens, et calcule les métriques (que nous vous décrirons dans un prochain billet). C’est-à-dire que vous savez tout ou presque du fonctionnement de la partie “compute” de Babbar. Voyons maintenant comment Babbar peut vous donner efficacement accès […]

Catégories
français tech

Babbar crawle des dizaines de milliards de pages, mais comment ? (1/2)

Si vous suivez les aventures de Babbar depuis le début, vous savez déjà que Babbar c’est la réunion des équipes d’Exensa et des ix-labs, des personnes qui se connaissent depuis parfois près de 20 ans, mais qui ont choisi de travailler ensemble depuis seulement quelques mois. Aujourd’hui, nous allons commencer à rentrer dans les détails […]