Парсить - что это значит? Определение и цели

Гуглить давно уже стало привычкой. Причем совершенно неважно, какой поисковый механизм для этого использовать. Google - это идея, а как ее реализовать, вопрос второй.

Какую бы поисковую машину ни использовал человек, в результате он стремится получить нужное решение быстро и правильно. В большинстве случаев достаточно полистать нужные книжки и найти информацию. Но всегда все хочется сделать быстрее и качественнее.

как парсить сайт

Классический парсинг информации

Читать книжки - парсить. Что это значит? Это когда человек просто понимает прочитанное и оценивает его относительно автора и издательства. Но это очень эффективный процесс, хотя длительный и трудоемкий.

Гораздо эффективнее использовать поисковые машины интернета: быстро и много информации. Есть выбор.

Однако поиск в интернете:

  • не дает гарантии свежести результата;
  • не дает гарантированного авторитета автора;
  • без издательства, редактора или хотя бы одного цензора написанному.

Но поиск в интернете быстр и объемен - есть выбор. А если выборка велика, то обобщение результата дает необходимые гарантии.

Можно парсить на PHP и тогда автоматом можно оценить свежесть каждого элемента выборки, но редкая поисковая машина не проверяет посетителя на робота и в обязательном порядке потребует капчу или иным образом постарается подтвердить посещение человеком, а не роботом или пауком.

Интернет-парсинг

В интернете есть сайты и поисковые машины. Первые предоставляют информацию, вторые предлагают информацию, которую собрали сами, анализируя многочисленные сайты длительное время.

парсить php

Найти нужные сайты не так легко для конкретной цели. Воспользоваться поисковыми машинами просто для человека, но не для задачи парсить PHP-скриптом, "интеллектуальным" AJAX-запросом или иным оригинальным образом.

Поисковики стараются работать на человека и "бесплатно" отдавать результаты многолетней работы по разработке алгоритмов поиска и парсинга информации не намерены.

Ответить на капчу не каждому PHP-скрипту возможно, потому вопрос о том, как парсить сайты, фактически означает: как создать собственную поисковую машину. Многие авторитетные поисковики не ограничиваются капчей для проверки того, кто обратился с запросом. Есть множество более простых способов обнаружить робота или паука. Результат выборки будет нежелательным для "искателя" информации.

Определение цели

Поиск информации - поиск сайтов или источников информации. Книжные издания и иные классические формы выражения знаний и опыта, подтвержденные авторитетными авторами, редакторами, издательствами, - это не парсинг, это длительный, убедительно верный процесс поиска нужной информации.

Определение цели

А в современном информационном мире парсить - что это значит? Эту задачу решает конкретный скрипт, написанный конкретным программистом для решения конкретной задачи. Постановщик задачи может и не предполагать, что и как делает этот скрипт. Но он всегда знает, что и как он хочет найти.

При любом положении вещей определение цели заказчика - задача исполнителя. Но вопрос даже не в том, насколько полно они поймут друг друга, вопрос в том, как сделать качественный парсинг.

Хорошая идея - поставить цель найти информацию свежую, точную и объективно достоверную. Отличная идея - определить достижение цели как правильное движение по тегам страниц. HTML - это реальная среда для представления информации, и она идеально точно позволяет различить нужную информацию от рекламного спама.

Статья закончилась. Вопросы остались?
Комментарии 0
Подписаться
Я хочу получать
Правила публикации
Редактирование комментария возможно в течении пяти минут после его создания, либо до момента появления ответа на данный комментарий.