Данные по домену/поддомену из ссылочных данных CommonCrawl.org. По каждому году-сезону есть PR (отмасштабированный до некрасивой единицы,типа 00003233e7) и Harmonic Centrality (какая-то хрень на омериканском, "менее подверженная ссылочному спаму", сами прочитаете). Из интересного то, что какой-то чувак из примеров применения посчитал, что HC и PR коррелируют всего на 0,004, и это прекрасно.
Занимает это всё овердохрена места, поэтому может исчезнуть при бесполезности.