Content on this page requires a newer version of Adobe Flash Player.

Get Adobe Flash player

+ Ответить в теме
Страница 1 из 3 1 2 3 ПоследняяПоследняя
Показано с 1 по 10 из 26.

Тема: Agress Parser - Универсальный суко :) (Мануал)

  1. #1

    Хорошо Agress Parser - Универсальный суко :) (Мануал)

    Agress Parser
    Сегодня я расскажу как заточить Agress Parser под парсинг разных ресурсов.
    В папке search находяться файлы настроек для парсинга (Google.txt Yahoo.txt и т.д.)
    AbsoluteUrl- это первый урл на который зайдет парсер, макроподстановкой {REQUEST} можно подставить запрос.
    UntilTextAfter-<a href=”{TEXT}” это то что парситься, то есть парсер выдерет все между <a href=” и “.
    UntilNextLinkAfter-<a href="{NEXTLINK}" Ссылка на следующую страницу
    Url- подставляеться перед напарсеным следующим урлом, то есть если напарсеный урл неполный например /search.php=asdf, то сюда нужно написать http://google.com.
    Pattern-{TEXT}{BLACKWORD(www.yahoo.com/|%25} - Убрать строки содержащие такие знаки, то есть www.yahoo.com/ и %25

    Вот настройки для парсера Yahoo Site Explorer (там можно парсить беклинки конкурентов) В этом случае запросы будут доменами например umaxforum.com и тогда мы пропарсим беки умакса :
    url-
    AbsoluteUrl-http://siteexplorer.search.yahoo.com/advsearch?p=link:{REQUEST}&bwm=i&bwmo=d&bwmf=u
    UntilTextAfter-<a class="yschttl" href="{TEXT}"
    UntilNextLinkAfter-<a id="yschnxt" href="{NEXTLINK}"
    Pattern-{TEXT}

    А вот парсер Yahoo :
    AbsoluteUrl-http://search.yahoo.com/search?ei=UTF-8&fr=sfp&p={REQUEST}{system\topdomains.txt}&fspl=1 &n=100
    UntilTextAfter-/**http%3a//{TEXT}"
    UntilNextLinkAfter-<a id="pg-next" class="pg" href="{NEXTLINK}">
    Pattern-{TEXT}{BLACKWORD(%25|www.yahoo.com/|my.yahoo.com/|mail.yahoo.com/|help.yahoo.com/help/us/ysearch/|tools.search.yahoo.com/about/forsearchers.html|education.yahoo.com/reference/dictionary/search%3fp=article|education.yahoo.com/reference/dictionary/search%3fp=intext|education.yahoo.com/reference/dictionary/search%3fp=article|/search/cache)}
    Url-http://

    Надеюсь это кому то пригодится На этой основе можно сделать парсер других поисковиков.

    Автор статьи : BeRsERk

    ЗЫ выкладываю здесь, а не на своём блоге, потому что при посте блогер выдаёт ошибки, а если игнорировать их, то получится бред
    Последний раз редактировалось BeRsERk-Fh-; 10.02.2008 в 18:45

  2. #2

    По умолчанию

    Эх видимо никому не надо даже никто спасибо не скажет...

  3. #3
    Members Cabal - просто великолепная личность Cabal - просто великолепная личность Cabal - просто великолепная личность Cabal - просто великолепная личность Cabal - просто великолепная личность Cabal - просто великолепная личность
    Регистрация
    02.11.2007
    Сообщений
    1,831

    По умолчанию

    Спасибо огромное. Жаль что поздно.
    Я когда им пользовался сам дотумкал вроде чё там править чтоб всё жужало, но новички на этот
    мануал молится должны имхо. Просто последний раз когда я видел дефолтный конфиг им Яху было
    невозможно парсить.

  4. #4

    По умолчанию

    Во выпросил спасибо

  5. #5
    Проверенные Zilly на пути к лучшему
    Регистрация
    21.12.2007
    Сообщений
    1

    По умолчанию

    Спасибо большое!
    Правда настройки к Yahoo site explorer у меня не заработали... но благодаря идее, сам сделал все как надо =)

  6. #6
    Проверенные Comedy на пути к лучшему
    Регистрация
    16.12.2007
    Сообщений
    1

    По умолчанию

    Цитата Сообщение от Zilly Посмотреть сообщение
    Спасибо большое!
    Правда настройки к Yahoo site explorer у меня не заработали... но благодаря идее, сам сделал все как надо =)
    а как сделал? у меня что то тоже не парсит

  7. #7

    По умолчанию

    Поправил парсер беклинков

  8. #8
    Members virgillio репутация неоспорима virgillio репутация неоспорима virgillio репутация неоспорима virgillio репутация неоспорима virgillio репутация неоспорима virgillio репутация неоспорима virgillio репутация неоспорима virgillio репутация неоспорима virgillio репутация неоспорима virgillio репутация неоспорима virgillio репутация неоспорима Аватар для virgillio
    Регистрация
    19.11.2006
    Адрес
    на пятом этаже
    Сообщений
    1,340

    По умолчанию

    Берсерк, аватарка те подходит!

  9. #9
    Members superwert пока неопределено Аватар для superwert
    Регистрация
    09.11.2006
    Адрес
    Сочи
    Сообщений
    202

    По умолчанию

    А про Яндекс можете расказать, как заточить парсер, что бы беки собирал, а то дальше трёх страниц идти не хочет.

  10. #10
    Проверенные Akpatir на пути к лучшему
    Регистрация
    24.03.2008
    Сообщений
    20

    По умолчанию

    а этот агресс вроде стучится к сайту разработчика и как я понял, сливает все напарсенное?

+ Ответить в теме

Ваши права в разделе

  • Вы не можете создавать новые темы
  • Вы не можете отвечать в темах
  • Вы не можете прикреплять вложения
  • Вы не можете редактировать свои сообщения