Новая система индексирования от Google

6

Завершились работы над системой Caffeine, которая на 50% «свежее» предыдущего индекса и представляет собой самую большую коллекцию веб-страниц за всю историю Google. Теперь новости, сообщения в блогах или на форумах еще быстрее попадут в индекс, а пользователь сможет их быстрее найти.

Зачем понадобилось создавать новую систему индексации? Во-первых, количество информации в сети растет, а форматы ее представления становятся все разнообразнее. На современном сайте находятся видеоролики, изображения, новости, он обновляется в реальном времени. Страницы стали насыщеннее и сложнее по структуре. Во-вторых, люди ждут большего от поиска. Их интересует самая свежая информация по теме, а издатели хотят, чтобы их аудитория могла найти материал сразу же после публикации.

В старом индексе было несколько слоев, c разными интервалами обновления. Большая часть индекса обновлялась каждые две недели. Для обновления слоя индекса нужно было проанализировать всю сеть, что создавало задержку между моментом нахождения страницы и тем, когда она становилась доступной пользователю.

Чтобы не отставать от стремительного развития сети и удовлетворять растущим ожиданиям пользователей, была создана Caffeine. Эта система позволяет анализировать информацию в Интернете «по частям» и непрерывно обновлять поисковый индекс Google. Теперь результаты поиска будут отображать максимально свежую информацию, независимо от времени и места публикации.

В базе данных Caffeine содержится порядка 100 млн. гигабайт данных, а новая информация добавляется со скоростью нескольких сотен тысяч гигабайт в день. Система является основой для построения других, более быстрых и объемных индексов, так как она способна быстро адаптироваться к развитию сети.

ПОДЕЛИТЬСЯ


Предыдущая статьяРакета среди жестких дисков
Следующая статьяНовые бизнес-проекторы Samsung
КОММЕНТАРИИ



    Загрузка...
    MEDIAMETRICS