Как сделать веб-бота |

Как сделать веб-бота | Технологии


Поисковые системы, такие как Google или Yahoo!, втягивают веб-страницы в свои результаты поиска с помощью веб-ботов (также иногда называемых поисковыми роботами или поисковыми роботами), которые представляют собой программы, сканирующие Интернет и индексирующие веб-сайты в базе данных. Веб-боты могут быть созданы с использованием большинства языков программирования, включая C, Perl, Python и PHP, каждый из которых позволяет разработчикам программного обеспечения писать сценарии, выполняющие процедурные задачи, такие как веб-сканирование и индексирование.

Реклама

ИДЕАЛЬНЫЙ НОВОГОДНИЙ ПОДАРОК!
Детский интерактивный набор для рисования в темноте Волшебный луч

Интерактивный набор для рисования в темноте, состоит из фотолюминесцентного экрана в рамке-планшете, светового маркера и трафаретов. Благодаря уникальной технологии, рисунки будут светиться в темноте до 30-ти минут!

  • АРТ-ТЕРАПИЯ
  • СНИЖЕНИЕ СТРАХА ТЕМНОТЫ
  • РАЗВИТИЕ ТВОРЧЕСКИХ НАВЫКОВ

Подробнее >>>

Рекламное объявление

Шаг 1

Откройте приложение для редактирования обычного текста, например Блокнот, входящий в состав Microsoft Windows, или TextEdit в Mac OS X, где вы создадите приложение веб-бота Python.

Шаг 2

Запустите сценарий Python, включив следующие строки кода и заменив URL-адрес примера на URL-адрес веб-сайта, который вы хотите сканировать, и имя базы данных-образца на базу данных, в которой будут храниться результаты:

Рекламное объявление

импортировать urllib2, re, строку enter_point=»http://www.exampleurl.com’ db_name=»example.sql»

Шаг 3

Включите следующие строки кода, чтобы определить последовательность операций, которым будет следовать веб-бот:

Рекламное объявление

def uniq(seq): set = {} map(set.setitemпоследовательность, []) вернуть set.keys()

Шаг 4

Получите URL-адреса в структуре веб-сайта, используя следующие строки кода:

Рекламное объявление

def geturls(url): элементы = [] request = urllib2.Request(url) request.add.header(‘Пользователь’, ‘Bot_name;)’) content = urllib2.urlopen(request).read() items = re.findall(‘href=»http:// .?»‘, содержание) urls = [] возвращаемые URL

Рекламное объявление

Шаг 5

Определите базу данных, которую будет использовать веб-бот, и укажите, какую информацию он должен хранить для завершения создания веб-бота:

db = open(db_name, ‘a’) allurls = uniq(geturls(enter_point))

Рекламное объявление

Шаг 6

Сохраните текстовый документ и загрузите его на сервер или компьютер с подключением к Интернету, где вы сможете выполнить сценарий и начать сканирование веб-страниц.

Рекламное объявление

Рекламное объявление

Оцените статью
( Пока оценок нет )
Добавить комментарий

Top.Mail.Ru