Мрежови приложения

© Христо Тужаров, 2012

 

Структура на търсеща система

 

Home | Съдържание | Облачен компютинг | Консултации | Асеневци

Търсещи системи

 

История на търсещите системи

 

Структура на търсеща система

 

Google

 

 

 

Компоненти на търсеща система

В детайлната си реализация търсещите системи се отличават една от друга, но структурата им съдържа едни и същи компоненти.

 

структура на търсеща система

 

            Spider (паяк)

Програма, която сваля Web страници, както  Web браузъра. Разликата е, че браузърът показва информацията, съдържаща се на страницата (текст, графики и т.н.), докато паякът не показва никакви визуални компоненти и работи директно с HTML- кода на страниците.


            Crawler
(навигатор на паяка)

Избира всички връзки, които се намират на страницата. Неговата задача е  да се определи къде да отидe  паяка, основавайки се на връзките или на предварително зададен списък от адреси.  Crawler следвайки намерените връзки осъществява търсене на нови документи, още неизвестни на търсещата система.


             Indexer
(индексатор на страница)

Индексаторът разделя страницата на части и ги анализира.  Отделят се и се анализират различни елементи на страницата, такива като текст, заглавие, специални служебни html-тагове и т.н.

           Database (
База данни)

Хранилише на всички данни, които търсещата система извлича и анализира.


             Search Engine Results Engine (анализатор на страници)

 Системата за извеждане на  резултати се занимава с изследване на страниците. Тя решава кои страници удовлетворяват заявката на потребителя и в какъв ред те трябва да бъдат сортирани. Това се извършва в съответствие с алгоритъма по подреждане на страниците от търсещата система.  Тази информация се явява най ценна за тези които се стремят да  оптимизират съответната позиция на даден сайт.

 

          Web server (Web сървър)

Като правило  на сървъра присъства  html-страница,  на която потребителят може да направи своята заявка, като използва съответен термин (ключова дума) за търсене.

Сървърът също отговаря за представяне на потребителя на резултатите от осъщественото от търсещата система търсене във вид на html-страници.

 

 

Изисквания към структурата на търсещата система

  • Данните трябва да бъдат събрани и системно разпределени в големи „складове” преди да бъдат достъпни за обработка и анализ;

  • Търсещата система трябва да има ефективни филтри, позволяващи и автоматично да се избавя от  милиони ненужни страници;

  • Търсещата система трябва сама да определя честотата на сканиране на един или друг сайт, в зависимост от множество фактори;

Характеристики на търсещите системи

  • Търсещите системи индексират информацията подобно на каталог в библиотека;

  • Търсещите алгоритми (математически методи  на програмиране, сортиращи намерените резултати) за всяка от търсещите системи са уникални;

  • Търсещите системи са компютърни програми, които се занимават с краулинг на Web  страници.

            Краулинг – процес на изтегляне на Web  страници, преглеждане на текст и връзки към тях и приемане на съответно решение.