[ad_1]
Много раз, читая сложные темы, исследовательские работы или даже блоги некоторых из наиболее продвинутых SEO-специалистов в отрасли, я теряюсь в значении терминов, и весь абзац или документ может быть потерян из-за моего невежества. К счастью, есть отличные ресурсы, такие как Modern Information Retrieval Glossary от Университета Беркли.
Я выбрал некоторые из наиболее важных терминов, которые нужно знать:
- Кластеризация — группировка документов, удовлетворяющих набору общих свойств. Цель состоит в том, чтобы собрать вместе документы, которые связаны между собой. Кластеризацию можно использовать, например, для расширения пользовательского запроса новыми и связанными терминами индекса.
- Е мера — мера производительности поиска информации, отличная от гармонического среднего, которая сочетает полноту и точность.
- Обобщенная модель векторного пространства — обобщение классической векторной модели, основанное на менее ограничительной интерпретации почленной независимости.
- Поиск информации — (IR) часть информатики, изучающая поиск информации (не данных) из коллекции письменных документов. Извлеченные документы направлены на удовлетворение потребность в информации пользователя обычно выражается на естественном языке.
- Скрытая семантическая индексация — алгебраическая модель поиска документов, основанная на сингулярной декомпозиции векторного пространства индексных терминов.
- Вероятностная модель — классическая модель поиска документов, основанная на вероятностной интерпретации релевантности документа (заданному запросу пользователя).
- Стемминг — прием приведения слов к их грамматическим корням.
- Коллекция ТРЭК — справочная коллекция, которая содержит более миллиона документов и широко использовалась на конференциях TREC. Коллекция TREC была организована NIST и становится стандартом для сравнения моделей и алгоритмов IR.
- Закон Ципфа — эмпирическое правило, описывающее частотность слов в тексте. В нем говорится, что я-th наиболее часто встречающееся слово встречается столько раз, сколько наиболее часто встречающееся слово делится на яøдля некоторых ø <= 1.
[ad_2]