• Главная
  • Об авторе
Blue Orange Green Pink Purple

Парсер MirSovetov.ru

Рубрики: Без рубрики. Опубликовано 28.12.2009 Теги: PHP, монетизация, парсер
Дек 28

Тема этой записи – парсер сайта MirSovetov.ru написанный на PHP. Его исходный код выложен ниже. А пока – предыстория:
Я начинал свой путь к монетизации сайтов с клепания СДЛов на базе копи-паста и продаже ссылок через SAPE (в простонародии – сапа). Дизайн, не долго думая, я брал из паблика и переделывал под свои нужны. Контент получал через собственноручно написанный парсер сайта MirSovetov.ru. Таким образом у меня получилось около пяти сайтов – на каждом по 2-3 раздела с мирсоветов. Часть из этих сайтов прожили пару месяцев до введения АГСа и успешно канули в лету – сначало в поиске осталось по паре страниц, потом наступил бан. Остальные сайты провиселе в индекса по три месяца и ушли сразу же в бан после введения АГС-30. По какой причине часть сайтов прожила дольше мне так и не понятно, при том что дизайн и количество ссылок в сапе было совершенно одинаково.
В гугле эти сайты до сих пор живы и посещалка на них колеблется от 10 до 40 человек в день. Когда-нибудь у меня дойдут руки оптимизировать их под низкочастотники и зарабатывать на тизерах и AdSense.

Вернемся к главному – парсеру. Так как дальнейшее развитие моих сайтов с контентом от МирСоветов пока не предвидется я решил явить миру главную часть этих сайтов – парсер контента. Движок для отображения сайтов также самописный, но его я пока публиковать не буду. Покажу лишь главные функции для работы с контентом.
Итак, код парсера:


(.*) // (.*)


\'.*\'
(.*)

|sU',$lines,$matches);
	$left=array();
	for ($i=0;$i
(.*) // (.*)


\'.*\'
(.*)

|sU',$lines,$matches);
	for ($i=0;$i]*>|iU','',$lines);
	$lines=preg_replace('||iU','',$lines);
	$lines=preg_replace('|МирСоветов|i','"О здоровье"',$lines);
	preg_match('|

(.*)

|sU',$lines,$h1); $h1=$h1[1]; preg_match('|
[^<]*(.*)[^<]*
|sU',$lines,$matches); preg_match_all('|'.$h1.' '.$text; } function prpl($m){ return '

Пометка для PHP-программистов – код я писал довольно давно, в нем куча ляпов и недочетов, эти моменты просьба не комментировать ;)
Спарсенный контент складывается в директорию content, картинки копируются туда же. Также в этой директории создается файл индекса статей.
Вывод меню:

    $lf){ echo '
  • '.$cat.'
  • '; } ?>

Вывод контента:

$list=unserialize(file_get_contents('content/index'));
foreach ($list as $cat=>$lf){
        foreach ($lf as $img=>$text){
                echo '

'.$text.' // '.
$cat.'


\''.$text.'\'
'.str_replace('','',preg_replace('||sU','',preg_replace('|МирСоветов|i','"Мы"',file_get_contents('content/ann_'.$img)))).'


';
        }
}

В коде есть замена текста «МирСоветов» на «Мы» – копирайтеры сайта-донора контента любят в текст упоминание о себе вставлять ;)

На сегодня всё. Надеюсь, кому-то этот парсер пригодится. Читайте меня по RSS – будет еще много интересного.

Похожие посты:

  • PHP: Слияние массивов со сложением значений с одним ключем.

Поделись ссылкой:
  • Print
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google Bookmarks

2 комментариев

  1. Андрей 06.02.2010

    Ругается на
    |sU’,$lines,$matches);
    Parse error: syntax error, unexpected ‘,’ in C:\бла-бла-сервер\index.php on line 32
    что не правильно делаю? Там всё верно в коде?
    Если всё норм, то как пользоваться правильно. Я видимо что-то не так делаю.

  2. Magir 09.02.2010

    Андрей, посмотрите 32 и предыдущие строки в редакторе с подсветкой синтаксиса – где-то проблемы с кавычками.



Оставить комментарий

Манускрипты IT-шника

  • Страницы
    • Об авторе
  • Метки
    НДВ ОК 012-93 ЕСКД РД НДВ СЕО монетизация ФИКС ЭДО парсер блог браузеры заработок в Интернете синонимизация синонимайзер хостинг Acronis C++ Cisco CodeHealer CodeVisual2Flowchart CSA DebugView Delphi GeoIP google translate IBM interzet ISS Mantis microsoft OutputDebugString PHP Proventia SEO SiteProtector SOCK VWWare ESX XPU
  • Комментарии
    • so к записи Простой синонимайзер на PHP
    • Magir к записи Парсер MirSovetov.ru
    • Андрей к записи Парсер MirSovetov.ru
    • Magir к записи Проверки проводимые по РД НДВ и их автоматизация.
    • Денис к записи Проверки проводимые по РД НДВ и их автоматизация.
  • Мета
    • Регистрация
    • Войти
    • RSS записей
  • Подписка по e-mail:





© 2009-2010 Magir Вверх