Иван Маркеев: Парсинг сайтов на python

28 февр. 2012 г.

Парсинг сайтов на python

Привет, друзья!
Нужен ваш профессиональный совет: чем современный питонист должен парсить сайты?
Поводом для обращения к аудитории для меня послужило открытие либы pyquery, которая позволяет делать jqurey-style запросы по xml-документам. Я вдруг осознал, что есть много нетрадиционных, но весьма удобных подходов к проблемме.
А какие интересные и удобные способы парсинга известны вам?

11 комментариев:

Alexander Dinu комментирует...: Если документы не слишком большие —BeautifulSoup. Не?; 28 февраля 2012 г. в 17:17
Анонимный комментирует...: Регэкспами.; 28 февраля 2012 г. в 18:21
Анонимный комментирует...: scrapy; 28 февраля 2012 г. в 19:31
Анонимный комментирует...: scrapy; 28 февраля 2012 г. в 19:31
Grigoriy Petukhov комментирует...: http://grablib.org - это обёртка над pycurl/lxml. pyquery - кстати, это тоже обёртка над lxml

Независимо от использования pyquery или grab, современный питонист должен знать lxml, как единственную адекватную библиотеку для парсинга lxml/html.; 28 февраля 2012 г. в 19:56
Анонимный комментирует...: Григорий, поправь кодировку на grablib.org.; 29 февраля 2012 г. в 09:52
tibalt комментирует...: еще на хабре что-то такое проскакивало - http://habrahabr.ru/blogs/python/127584/; 29 февраля 2012 г. в 11:09
Анонимный комментирует...: http://scrapy.org/; 29 февраля 2012 г. в 21:44
egrachev комментирует...: Мне больше нравится lxml:
from lxml.html import parse
root = parse(url).getroot()
results = root.cssselect(".company-data h1"); 1 марта 2012 г. в 12:59
Анонимный комментирует...: Асинхроный Grab, уже использовал в парсинге десятка сайтов, остались только позитивные впечатления.; 5 марта 2012 г. в 09:50
Анонимный комментирует...: perl и только он); 17 июля 2012 г. в 16:28

Отправить комментарий

28 февр. 2012 г.

Парсинг сайтов на python

11 комментариев:

28 февр. 2012 г.