Привет, друзья-парсеры!!
Я ведь то самого главного о парсинге не написал, а именно алгоритм написания парсера.
Ведь способов написания скрипта уйма, но для них действует лишь одно правило-алгоритм.
Пункт 1 – Изучение HTML структуры
Изучаем структуру страницы, то, как верстальщик сверстал тот или иной блок, панель и т.п. Какие тэги использовал. И здесь же плавно переходим в пункт 2.
Пункт 2 – Анализ. Выбор способа парсинга
И начинаем мы думать, как сделать так, чтобы парсер кушал минимум ресурсов и делал все на «УРА!».
Можно использовать регулярные выражения и потом обрабатывать полученные массивы с нужными данными…
Можно обратится к Объектной Модели Документа (DOM). Если мы видим в структуре HTML какую-то закономерность в див блоках или в списках и т.п. Это золотой способ №2.
Есть ещё корявый способ парсинга при помощи строковых функций, но, простите, для меня это издевательство над собой.
Если исходный файл не HTML, а XML, то здесь уже на выбор:
- 1) Регулярные выражения
- 2) SimleXML
Пункт 3 – Приступаем к работе
Половина работы уже за спиной, но оставшаяся часть пути, куда не проще. Здесь мы начинаем рыться в своих знаниях PHP и думать, как лучше все реализовать один из выбранных способ.
Ведь здесь важно правильно построить структуру парсера. Я всегда использую ООП PHP. С классами куда проще всего реализовать задуманное. И вам советую углубиться в ООП!!!!
Поэтому берем бумажку и ручку, рисуем простую блок-схему класса-парсера и пишем код!!!
Эхх.. эти старые привычки со схемами, как приучили, так и до сих пор работаю.
Надеюсь, это вам поможет, спасибо. До встречи в следующем уроке!
Остались вопросы? Милости прошу в комментарии!
Сосед со скуки в петлю полез? Ну а ты - читай RSS!


[...] This post was mentioned on Twitter by Громит. Громит said: Парсинг: Алгоритм создания парсера. http://goo.gl/fb/8bDbi [...]