28 февр. 2012 г.

Парсинг сайтов на python

Привет, друзья!
Нужен ваш профессиональный совет: чем современный питонист должен парсить сайты?
Поводом для обращения к аудитории для меня послужило открытие либы pyquery, которая позволяет делать jqurey-style  запросы по xml-документам. Я вдруг осознал, что есть много нетрадиционных, но весьма удобных подходов к проблемме.
А какие интересные и удобные способы парсинга известны вам?

11 комментариев:

  1. Если документы не слишком большие —BeautifulSoup. Не?

    ОтветитьУдалить
  2. http://grablib.org - это обёртка над pycurl/lxml. pyquery - кстати, это тоже обёртка над lxml

    Независимо от использования pyquery или grab, современный питонист должен знать lxml, как единственную адекватную библиотеку для парсинга lxml/html.

    ОтветитьУдалить
  3. Григорий, поправь кодировку на grablib.org.

    ОтветитьУдалить
  4. еще на хабре что-то такое проскакивало - http://habrahabr.ru/blogs/python/127584/

    ОтветитьУдалить
  5. Мне больше нравится lxml:
    from lxml.html import parse
    root = parse(url).getroot()
    results = root.cssselect(".company-data h1")

    ОтветитьУдалить
  6. Асинхроный Grab, уже использовал в парсинге десятка сайтов, остались только позитивные впечатления.

    ОтветитьУдалить
  7. perl и только он)

    ОтветитьУдалить