Глоссарий информационно-поисковой терминологии

Автор Максим Герцен На чтение 2 мин Просмотров 385 Опубликовано 8 апреля, 2022

[ad_1]

Глоссарий информационно-поисковой терминологии

Много раз, читая сложные темы, исследовательские работы или даже блоги некоторых из наиболее продвинутых SEO-специалистов в отрасли, я теряюсь в значении терминов, и весь абзац или документ может быть потерян из-за моего невежества. К счастью, есть отличные ресурсы, такие как Modern Information Retrieval Glossary от Университета Беркли.

Я выбрал некоторые из наиболее важных терминов, которые нужно знать:

Кластеризация — группировка документов, удовлетворяющих набору общих свойств. Цель состоит в том, чтобы собрать вместе документы, которые связаны между собой. Кластеризацию можно использовать, например, для расширения пользовательского запроса новыми и связанными терминами индекса.
Е мера — мера производительности поиска информации, отличная от гармонического среднего, которая сочетает полноту и точность.
Обобщенная модель векторного пространства — обобщение классической векторной модели, основанное на менее ограничительной интерпретации почленной независимости.
Поиск информации — (IR) часть информатики, изучающая поиск информации (не данных) из коллекции письменных документов. Извлеченные документы направлены на удовлетворение потребность в информации пользователя обычно выражается на естественном языке.
Скрытая семантическая индексация — алгебраическая модель поиска документов, основанная на сингулярной декомпозиции векторного пространства индексных терминов.
Вероятностная модель — классическая модель поиска документов, основанная на вероятностной интерпретации релевантности документа (заданному запросу пользователя).
Стемминг — прием приведения слов к их грамматическим корням.
Коллекция ТРЭК — справочная коллекция, которая содержит более миллиона документов и широко использовалась на конференциях TREC. Коллекция TREC была организована NIST и становится стандартом для сравнения моделей и алгоритмов IR.
Закон Ципфа — эмпирическое правило, описывающее частотность слов в тексте. В нем говорится, что я-th наиболее часто встречающееся слово встречается столько раз, сколько наиболее часто встречающееся слово делится на я^Ã¸для некоторых Ã¸ <= 1.

[ad_2]