Взлом RSS фида
31.05.2008Мой предыдущий пост http://blogclient.ru/zapret-pingovaniya-iz-vybrannoj-zapisi-wordpress.htm Мой ум, не занятый в глобальном проекте не дает мне покоя. Ну вот например легко, как два пальца обоссать, можно получить с любого блога на WordPress rss ленту с полным текстом постов. в тартарары идут теги more и прочая хрень в оригинальном фиде.
А что собственно для этого нужно? Да почти что ничего: урл страницы поста. Отпарсить html страницу несложно. Возможно даже обойтись одним регэкспом: найти где страничная ссылка more и взять текст между тегами div, которыми как правило закавычивается пост. удалить из текста все ссылки и урлы - это еще один грегэксп.
Неохота становиться на путь вора контента - я все таки бережно отношусь к своей карме (не знаю как она относиться ко мне, подозреваю, что наплевательски). Вобщем я на грани - деньги мне нужны...
Мой блог находят по следующим фразам
• xml Delphi
• плагин бесплатного доступа на сайт
• КАК УДАЛИТЬ ПЛАГИН
• спам
• html тэги читать дальше
• скачать программу для просмотра xml файлов
• Клиент для комментариев WordPress
Комментарии (10) на запись “Взлом RSS фида”
Пингбеки
Оставить комментарий
:)
На ее основе продается софт для наполнения сплогов контентом из заданных источников в автоматическом режиме.
Работает как с RSS так и с HTML источниками.
Ознакомиться:http://splog.name/shop/Antipiar-splog_assembling.html
Ссылка реферальная, если хозяину блога религия не позволяет размещать на своем блоге реферальные ссылки, то можно рефер откусить, оставив только первую часть урла для ознакомления с софтом.
легко реализуемо на python. допустим есть урл страницы и url фида. парсим с главной страницы заголовки, если данного заголовка еще нет в бд, то начинаем грабеж с помощью rss. это дело ставим на крон и радуемся своему чудо блогу :)