Гуглить давно уже стало привычкой. Причем совершенно неважно, какой поисковый механизм для этого использовать. Google - это идея, а как ее реализовать, вопрос второй.
Какую бы поисковую машину ни использовал человек, в результате он стремится получить нужное решение быстро и правильно. В большинстве случаев достаточно полистать нужные книжки и найти информацию. Но всегда все хочется сделать быстрее и качественнее.
![как парсить сайт](/misc/i/gallery/41493/2315362.jpg)
Классический парсинг информации
Читать книжки - парсить. Что это значит? Это когда человек просто понимает прочитанное и оценивает его относительно автора и издательства. Но это очень эффективный процесс, хотя длительный и трудоемкий.
Гораздо эффективнее использовать поисковые машины интернета: быстро и много информации. Есть выбор.
Однако поиск в интернете:
- не дает гарантии свежести результата;
- не дает гарантированного авторитета автора;
- без издательства, редактора или хотя бы одного цензора написанному.
Но поиск в интернете быстр и объемен - есть выбор. А если выборка велика, то обобщение результата дает необходимые гарантии.
Можно парсить на PHP и тогда автоматом можно оценить свежесть каждого элемента выборки, но редкая поисковая машина не проверяет посетителя на робота и в обязательном порядке потребует капчу или иным образом постарается подтвердить посещение человеком, а не роботом или пауком.
Интернет-парсинг
В интернете есть сайты и поисковые машины. Первые предоставляют информацию, вторые предлагают информацию, которую собрали сами, анализируя многочисленные сайты длительное время.
![парсить php](/misc/i/gallery/41493/2315384.jpg)
Найти нужные сайты не так легко для конкретной цели. Воспользоваться поисковыми машинами просто для человека, но не для задачи парсить PHP-скриптом, "интеллектуальным" AJAX-запросом или иным оригинальным образом.
Поисковики стараются работать на человека и "бесплатно" отдавать результаты многолетней работы по разработке алгоритмов поиска и парсинга информации не намерены.
Ответить на капчу не каждому PHP-скрипту возможно, потому вопрос о том, как парсить сайты, фактически означает: как создать собственную поисковую машину. Многие авторитетные поисковики не ограничиваются капчей для проверки того, кто обратился с запросом. Есть множество более простых способов обнаружить робота или паука. Результат выборки будет нежелательным для "искателя" информации.
Определение цели
Поиск информации - поиск сайтов или источников информации. Книжные издания и иные классические формы выражения знаний и опыта, подтвержденные авторитетными авторами, редакторами, издательствами, - это не парсинг, это длительный, убедительно верный процесс поиска нужной информации.
![Определение цели](/misc/i/gallery/41493/2314143.jpg)
А в современном информационном мире парсить - что это значит? Эту задачу решает конкретный скрипт, написанный конкретным программистом для решения конкретной задачи. Постановщик задачи может и не предполагать, что и как делает этот скрипт. Но он всегда знает, что и как он хочет найти.
При любом положении вещей определение цели заказчика - задача исполнителя. Но вопрос даже не в том, насколько полно они поймут друг друга, вопрос в том, как сделать качественный парсинг.
Хорошая идея - поставить цель найти информацию свежую, точную и объективно достоверную. Отличная идея - определить достижение цели как правильное движение по тегам страниц. HTML - это реальная среда для представления информации, и она идеально точно позволяет различить нужную информацию от рекламного спама.