четверг, 24 сентября 2009 г.

Парсер снипетов гугла

Решил выложить свой парсер снипетов гугла.
Работает шустро. Поддерживает прокси.
Для парсинга я использовал свой класс для работы c cURL'ом, так как планировалось менять прокси в процессе парсинга, но по моим наблюдениям гугл почему-то не банит.
Парсил ~600 по кеям, и бана не было.
За раз выходит где-то 6 метров текста. Но текст получается в UTF-8, поэтому после парсинга файл надо пересохранить в нужную кодировку.

Настройки в файле snipit.php

  •  $num = 2  - Глубина парсинга. Не рискую ставить больше 2, но вы можете попробовать.
  •  $file = "text.txt" - Файл куда будет скидыватся текст
  •  $lang = "en" - Язык парсинга. Для русских кеев нужно поставить ru
  •  $fkeys = "keys.txt" - Файл с кеями(по одному на строчку)
Вот и все настройки.

Ах да, еще есть //$http->setProxy("proxy:port");
Кому нужны прокси, просто уберите // и впишите прокси.

 В архиве так же лежит дистр PHP урезаный.
Это для тех, кому лень ставить PHP.
Настраиваем парсер, и запускаем parse.bat, и радуемся результатам.
Скачать Самый Лучший Парсер Снипетов Гугла ~5mb (перезалит)

6 комментариев:

  1. Обязательно скачаю и попробую, давно уже хочу текстовку сменить...только надо на депозите дождаться 56 мин..)))

    ОтветитьУдалить
  2. 56 минут?
    Странно.. Сейчас проверю.

    ОтветитьУдалить
  3. У меня все нормально. 60сек как обычно ждать.

    ОтветитьУдалить
  4. Просто у меня весь район в инет через 1 айпи ходит))) вот и приходится ждать...

    ОтветитьУдалить
  5. А сейча вообще пишет "Такого файла не существует или он был удален из-за нарушения авторских прав. "

    ОтветитьУдалить
  6. Перезалил файл, так как в прошлый раз самый главный файл не зазиповал

    ОтветитьУдалить