CommonCrawl (Pagerank + Harmonic Centrality)

Домен/поддомен:

Данные по домену/поддомену из ссылочных данных CommonCrawl.org. По каждому году-сезону есть PR (отмасштабированный до некрасивой единицы,типа 00003233e7) и Harmonic Centrality (какая-то хрень на омериканском, "менее подверженная ссылочному спаму", сами прочитаете). Из интересного то, что какой-то чувак из примеров применения посчитал, что HC и PR коррелируют всего на 0,004, и это прекрасно.

Занимает это всё овердохрена места, поэтому может исчезнуть при бесполезности.

Данные о позиции по пузомеркам имеют стрёмный смысл, т.к. при одинаковых значениях место выдаётся по алфавиту. Учёные вроде, а ведут себя как пидагасы :(
Почитать, когда Солнце столкнётся с Луной: https://webgraph.di.unimi.it/docs/it/unimi/dsi/webgraph/algo/HyperBall.html
Какой-то грандиозный чувак, в общем https://dsiutils.di.unimi.it/docs/
https://neo4j.com/docs/graph-data-science/current/algorithms/harmonic-centrality/