Парсить - что это значит? Определение и цели

Гуглить давно уже стало привычкой. Причем совершенно неважно, какой поисковый механизм для этого использовать. Google - это идея, а как ее реализовать, вопрос второй.

Какую бы поисковую машину ни использовал человек, в результате он стремится получить нужное решение быстро и правильно. В большинстве случаев достаточно полистать нужные книжки и найти информацию. Но всегда все хочется сделать быстрее и качественнее.

Классический парсинг информации

Читать книжки - парсить. Что это значит? Это когда человек просто понимает прочитанное и оценивает его относительно автора и издательства. Но это очень эффективный процесс, хотя длительный и трудоемкий.

Гораздо эффективнее использовать поисковые машины интернета: быстро и много информации. Есть выбор.

Однако поиск в интернете:

не дает гарантии свежести результата;
не дает гарантированного авторитета автора;
без издательства, редактора или хотя бы одного цензора написанному.

Но поиск в интернете быстр и объемен - есть выбор. А если выборка велика, то обобщение результата дает необходимые гарантии.

Можно парсить на PHP и тогда автоматом можно оценить свежесть каждого элемента выборки, но редкая поисковая машина не проверяет посетителя на робота и в обязательном порядке потребует капчу или иным образом постарается подтвердить посещение человеком, а не роботом или пауком.

Интернет-парсинг

В интернете есть сайты и поисковые машины. Первые предоставляют информацию, вторые предлагают информацию, которую собрали сами, анализируя многочисленные сайты длительное время.

Найти нужные сайты не так легко для конкретной цели. Воспользоваться поисковыми машинами просто для человека, но не для задачи парсить PHP-скриптом, "интеллектуальным" AJAX-запросом или иным оригинальным образом.

Поисковики стараются работать на человека и "бесплатно" отдавать результаты многолетней работы по разработке алгоритмов поиска и парсинга информации не намерены.

Ответить на капчу не каждому PHP-скрипту возможно, потому вопрос о том, как парсить сайты, фактически означает: как создать собственную поисковую машину. Многие авторитетные поисковики не ограничиваются капчей для проверки того, кто обратился с запросом. Есть множество более простых способов обнаружить робота или паука. Результат выборки будет нежелательным для "искателя" информации.

Определение цели

Поиск информации - поиск сайтов или источников информации. Книжные издания и иные классические формы выражения знаний и опыта, подтвержденные авторитетными авторами, редакторами, издательствами, - это не парсинг, это длительный, убедительно верный процесс поиска нужной информации.

А в современном информационном мире парсить - что это значит? Эту задачу решает конкретный скрипт, написанный конкретным программистом для решения конкретной задачи. Постановщик задачи может и не предполагать, что и как делает этот скрипт. Но он всегда знает, что и как он хочет найти.

При любом положении вещей определение цели заказчика - задача исполнителя. Но вопрос даже не в том, насколько полно они поймут друг друга, вопрос в том, как сделать качественный парсинг.

Хорошая идея - поставить цель найти информацию свежую, точную и объективно достоверную. Отличная идея - определить достижение цели как правильное движение по тегам страниц. HTML - это реальная среда для представления информации, и она идеально точно позволяет различить нужную информацию от рекламного спама.

Парсить - что это значит? Определение и цели

Классический парсинг информации

Интернет-парсинг

Определение цели

Когда-то 13-летнего мальчика назвали самым молодым отцом в мире. Спустя несколько лет он рассказал, как это разрушило его жизнь

Мужчина и женщина не стриглись более 10 лет. Когда они все же решились сменить имидж, то окружающие не поверили своим глазам, настолько изменилась их внешность

Девочка поцеловала свою собаку, но никто не ожидал, что пес отреагирует (видео)

Мальчик вернул бумажник миллионеру и попросил у него лишь доллар. Когда он рассказал, зачем ему нужны деньги, то растопил сердце богача

Кто-то бросил кота с запущенной шерстью возле приюта. Только после того, как колтуны были сострижены, все смогли увидеть его настоящую красоту: фото

Рассмеялся и отпустил: охранник магазина попросил девушку расстегнуть пуховик

Текст на логику: две одинаковые девушки, но только одна из них богата. Кто?

Муж повез жену в больницу рожать пятерняшек, но врачи быстро раскрыли обман

Когда малышка появилась на свет, многие посчитали ее некрасивой. Сейчас девочке 6 лет, и она очень изменилась

"Дно и максимальный стыд": Юлия Меньшова о Татьяне Лазаревой

Бездомный попросил полицейского о горячем душе. В итоге его внешность изменилась

Нелепая ошибка: фото пользователей, которые были забанены на Facebook