Парсинг: Алгоритм создания парсера.

Posted by Громит On May - 16 - 2010

Привет, друзья-парсеры!!

Я ведь то самого главного о парсинге не написал, а именно алгоритм написания парсера.

Ведь способов написания скрипта уйма, но для них действует лишь одно правило-алгоритм.

Пункт 1 – Изучение HTML структуры

Изучаем структуру страницы, то, как верстальщик сверстал тот или иной блок, панель и т.п. Какие тэги использовал.  И здесь же плавно переходим в пункт 2.

Пункт 2 – Анализ. Выбор способа парсинга

И начинаем мы думать, как сделать так, чтобы парсер кушал минимум ресурсов и делал все на «УРА!».

Можно использовать регулярные выражения и потом обрабатывать полученные массивы с нужными данными…

Можно обратится к Объектной Модели Документа (DOM). Если мы видим в структуре HTML какую-то закономерность в див блоках или в списках  и т.п. Это золотой способ №2.

Есть ещё корявый способ парсинга при помощи строковых функций, но, простите, для меня это издевательство над собой.

Если исходный файл не HTML, а XML, то здесь уже на выбор:

  • 1)      Регулярные выражения
  • 2)      SimleXML

Пункт 3 – Приступаем к работе

Половина работы уже за спиной, но оставшаяся часть пути, куда не проще. Здесь мы начинаем рыться в своих знаниях PHP и думать, как лучше все реализовать один из выбранных способ.

Ведь здесь важно правильно построить структуру парсера. Я всегда использую ООП PHP. С классами куда проще всего реализовать задуманное. И вам советую углубиться в ООП!!!!

Поэтому берем бумажку и ручку, рисуем простую блок-схему класса-парсера и пишем код!!!

Эхх.. эти старые привычки со схемами, как приучили, так и до сих пор работаю.

Надеюсь, это вам поможет, спасибо.  До встречи в следующем уроке!


Остались вопросы? Милости прошу в комментарии!
Сосед со скуки в петлю полез? Ну а ты - читай RSS!

One Response to “Парсинг: Алгоритм создания парсера.”

  1. [...] This post was mentioned on Twitter by Громит. Громит said: Парсинг: Алгоритм создания парсера. http://goo.gl/fb/8bDbi [...]

Leave a Reply

Метки