• AftParser — бесплатный парсер

  •  

aftp

Плагин парсера, написанный мной на самой заре моего «пути». Вполне достойная разработка, хотя в данный момент уровень говнокода в ней просто зашкаливает, что не мешает ей исправно трудиться на благо сетевого пролетариата. Используя этот парсер вы можете сделать свою собственную читалку rss лент или наполнить свой сайт кучей наворованных статей.
Внимание: Как настроить AftParser можно прочитать тут.

Нововведения:

  1. Убрана возможность вставлять картинки из гугла в посты. К сожалению API гугла, позволяющее искать картинки более недоступно.
  2. Добавлена обработка ошибок
  3. Добавлена поддержка tidy
  4. Улучшен парсер rss лент

Скачать:

Желающие могут скачать плагин, перейдя во ссылке:

(если вы обновляете парсер, то посмотрите инструкцию по установке)

Aftparser
Скачано: 3389, размер: 1.6 MB, дата: 28.Мар.2017

Зачем я написал этот парсер?

Делал изначально для себя, с элементарной целью — заработать на Sape. В 2013 году она еще была актуальным способом поднять пару кредитов, особенно для студента. Сейчас сапа уже не актуальна, вы, к превеликому прискорбию, не сможете там даже деньги, потраченные на домен окупить. Яндекс очень быстро банит молодые сайты, если на них начинают продавать ссылки. Даже не пытайтесь, короче. Ну хотя, все познается в сравнении, вдруг вам повезет =)

Почему выложил за бесплатно?

Потому что парсер стал неактуален. Году эдак в 2008 я был бы сказочно рад такому плагину. Еще бы! К сожалению в 2008 я только-только купил свой первый компьютер.(в конце 2007го) Разумеется тогда я понятия не имел ни о каком php и только-только начинал постигать этот неизведанный мир интернетов. Но… кто знает, вдруг вам он поможет начать свое дело в сети. Маловероятно конечно, но вдруг!

Можно ли заработать на копипасте? (мини-кейс)

Разумеется. Посмотрите вокруг. Вбейте в гугл и найдите кучу варезников — сайтов по тематике «скачать бесплатно», например. Копипаст — один из столпов интернета, тут 70% всей информации — не уникально. Но тут есть весьма существенная проблема. Дело в том, что вы не сможете получить прибыль с сайта на копипасте СРАЗУ. Только через год или полтора, причем это я описываю вам удачный вариант развития событий. Если вам вот прям срочно сегодня или через пол года нужны деньги — мой плагин вам никак не поможет, только навредит.

Ну и еще. Как говорит Кейсуха: «копипаст должен быть вкусным». Собирайте данные с разных источников. Хорошо оформляйте. Представьте, что вы готовите не сайт, а кулинарный шедевр. И будет вам счастье. Но не сразу, а через год-полтора.

Еще лучше будет, если вы спарсите, например 200 статей по какой-нибудь тематике и уникализируете их своими руками. В день можно переписывать по 20 статей, особенно если вы студент и у вас полно времени до сессии. За 10 дней вы получите вполне годный сайт с хорошим контентом, который начнет приносить трафик уже через полгода. Главное не лениться.

Если уж совсем в лом — просто поменяйте названия скопированных статей на близкие по тематике. Причем новое название должно быть чуть длиннее старого. Если вы скопировали плагином статью, например, с названием «здоровое питание», поменяйте его на «Здоровье и питание» или «Польза здорового питания». Тогда ваша статья будет собирать трафик по этим ключам и таким образом где-то даже сможет вылезти в топ по поиску. Если же оставлять старые заголовки то ваш сайт всегда будет ниже в поиске, чем сайт, с которого вы взяли статью.

Мифы о копипасте

Многие сеошники распространяют такой фэйк:

Если в скопированной статье вставлять ссылку на источник — не получишь бана.

Это голимый пи*дежь. Не ведитесь на это, нечего буржуям трафик наращивать, пусть идут в самую глубокую «марианскую впадину». Никаких ссылок на источник делать не надо!

Так-же скажу вам, что за копипаст не дают бана (АГС). Могут исключить из основной выдачи поисковика, это да, но бан вы не получите.

Трафик

В среднем с 3000 страниц я получил пять хомяков через пол года и около 50ти через год(а потом получил ручные санкции от гугла из-за своей криворукости). При этом никаких дополнительных работ по уникализации я не делал.

Мало, согласен. Поэтому уникализируйте статьи и заголовки, как я писал выше. Тогда трафик вполне может перевалить и за 800 хомяков в сутки. Но тут уж как повезет, знаете ли.

 110 комментариев
Страница 1 из 1
    Саша

    Дядька огромное тебе спасибо, добавил твой сайт в закладки! Буду посматривать ^_^

    Владимир

    а как выбрать не только категорию, но и автора?
    Заранее благодарен.

    Сергей

    Не загружается контекст на страницу, только в записи (без рубрики) и то через раз. Сервер (Open Server) на компе. Писал код с названием страницы и создавал страницу, и ее название указывал и вручную ставил галочку, куда загружать контекст. Ни разу там ничего не было. На сервере php 5.4, windows xp выше не позволяет. В чем дело? Помоги.

    Сергей

    Сайт вырубается после активации плагина, вордпресс 4.7
    пробовал на нескольких сайтах, т.е. очень удобная программулина, которую потом только физически с сервера в ручную удалять, либо сайт недоступен никак. Если вы не в курсе где ваши файлы лежат, то лучше не трогайте сторонние программы

    Said

    Огромное спасибо!

    Андрей

    Как открыть настройки плагина в админ панели?

    Роман

    Привет. Плагин удобный, но чет плохо пашет.
    По селекторам вроде делает, но картинки не грузит.
    А вот второй способ чет не пашет.
    Все делаю, проверяю, парсит текст в тесте, а как нажимаю парсить на сайт, висит и парсинг не проиходит

      Иван

      Тоже по селекторам на VPS картинки не скачивает. Нашли в чем проблема? С этого же источника качалось, когда был на виртуальном хостинге.

    Роман

    Скинул вам все, даже данные с доступом в админку.

    1

    Неплохо .неплох
    Есть что дописать,но за основу возьму
    QIWI есть?

    max

    что за хомики?, и пол года не долго ли?

    Сергей

    Здравствуй! Спасибо тебе за полезную вещь, очень выручает. Подскажи пожалуйста как реализовать такую мелочь как ссылку на источник в конце статьи, типа: Источник
    Заранее благодарен!

    zorca

    Очень понравился парсер. Хотел спросить у автора, можно ли его выложить на Гитхаб и дорабатывать коммюнити под лицензией MIT???

    Андрей

    Спасибо за парсер, ты нереально крут!!! Сначала не мог разобраться, но опытным путем всё получилось)) Хотя и сейчас сложную разметку не всегда могу правильно спарсить, но думаю, разберусь со временем.)

    вася

    А тут как быть? http://prntscr.com/el0dex

    Дмитрий

    Скажите, а как можно дать доступ к плагину для редактора?

    tomatyss

    прошу прощение а если так:
    Fatal error: Cannot declare class Parser, because the name is already in use in /Users/tomatyss/Documents/Sites/bar/wp-content/plugins/aftparser/class/parser.php on line 7

    Евгений

    Понравился ваш парсер. Он быстрый и удобный. Как активный пользователь на ваш суд предложу несколько поправок: при отложенном парсере парсит одну и ту же ссылку. Если парсить онлайн в 1 поток или в 50 потоков на отложенном, сервак перегружается и вырубает парсер. При переводе с англицкого, парсер [title] переводит на [заголовок] например и тулит уже в текст, и в результате статьи без заголовков. Глюк при выборе разделов, шоб не выбрал, тулит в основоной(но тут может быть причина в новом вордпресе)

    Александр

    а как парсить, например, дескриптор span, который находится в h1 по jquery селекторам

    Александр

    спасибо

    AASE

    предворительный просмотр не работает (выполнить тестирование)

    Сергей

    Чет я вчера начитался комментов и понял, что парсер обновили. Решил и себе обновить. Теперь не хочет работать. Получается если настраиваю, то вроди все нормально, но после сохранения и входа в готовый парсер границы слетают, новые добавить не дает. Название фрагмента текста стает «fragment_NaN»

    Создаю новый парсер. При сохранении дает ошибку.

    Ошибка сохранения! Возможно ссылок в списке — слишком дох…я.

    Ошибка!

    [«error»,»\u041e\u0448\u0438\u0431\u043a\u0430 \u0441\u043e\u0445\u0440\u0430\u043d\u0435\u043d\u0438\u044f! \u0412\u043e\u0437\u043c\u043e\u0436\u043d\u043e \u0441\u0441\u044b\u043b\u043e\u043a \u0432 \u0441\u043f\u0438\u0441\u043a\u0435 — \u0441\u043b\u0438\u0448\u043a\u043e\u043c \u0434\u043e\u0445\u0443\u044f.»]

    Ссылок в списке 26 штук. А проблема просто в названии парсера, стоит по умолчанию с нулем в конце, но такой уже есть и если переименовать, то сохраняет.

    Павел

    Автор, респект! Крутой парсер, давно че-то типа такого искал) вот если бы еще запилить к нему дополнение, чтобы товары в woocommerce парсить — если возьмешься — то самый большой головняк, которого нету у других парсеров — это сбор полей по шаблону: например, есть товар, у него есть производитель, модель и собственно название (это в отдельных полях) и в краткое описание нужно засунуть что-то типа «{ПРОИЗВОДИТЕЛЬ}{МОДЕЛЬ}{НАЗВАНИЕ} купить в {ГОРОД}, низкие цены бла бла бла …. {ПЕРВОЕ ПРЕДЛОЖЕНИЕ ИЗ ДЛИННОГО ОПИСАНИЯ}… И еще один — часто при парсинге нужно тянуть кучу полей из таблиц (таблицы строки по ID или class тянуться без проблем), чтобы потом это в атрибуты засунуть — вот вообще просто цены не будет!!! Кстати если под wocommerce запилишь — можешь продавать запросто по 50$ минимум — спрос просто огромен сейчас…

    Ogrodav

    Пишет ошибку, заголовок по селектору не найдет. Что хочу спарсить? [скрыто]

    Алексей

    Доброго времени суток.
    Почему парсер может не парсить ссылок с сайта? (http://coffee-ucc.com/)??
    не парсит ни с сайта ни с sitemap

    Иван

    Спасибо за плагин! С его помощью напарсил около 200 статей используя выборку по селекторам, но на этом мое счастье закончилось. Теперь выдает пустую страницу. https://screenpresso.com/=3Ny3b
    Использовал прокси, менял сервер — без толку.

      Иван

      Самый большой прикол в том, что сегодня снова решил попробовать парсить и о чудо, снова работает парсинг с разных источников. Но только когда напарсил где-то 200 статей, то же самое, что и 2 дня назад. Что это?

    Артем

    Привет, такая проблема… Парсер почему то неправильно берет главную картинку записи. Вместо оригинальной вставляет какие то странные картинки..
    http://desfor.me/wp-content/uploads/2017/09/Sky-768×473.jpg
    http://desfor.me/wp-content/uploads/2017/09/drupal-development-640×320.png
    Типо вот таких.. В оригинальных статьях ничего подобного нету.
    + возможно будет лучше, если сперва будет отрабатывать удаление всех тегов и селекторов которые ввел пользователи и только после этого запускать удаление все остальных лишних тегов. На данный момент нельзя удалять по классу.. Переделал под себя..

    Иван

    С этого сайта: http://zhenskoe-mnenie.ru не качает изображения при парсинге по селекторам, а если и скачивает, то эти:
    http://s008.radikal.ru/i306/1709/c5/f3b16fa1e848.jpg
    http://s019.radikal.ru/i630/1709/fc/d82d8450fef9.png
    http://s018.radikal.ru/i501/1709/b7/d27579e3b296.png
    http://s011.radikal.ru/i315/1709/1c/60b3cf6ff27d.jpg

    Иван

    Нет возможности сделать перевод через Гугл переводчик? Он в последнее время сделал большой в прыжок в качестве переводов.

    Марио

    Спасибо за скрипт. Помогите надо удалить этот код. сам хз как это сделать

    (adsbygoogle = window.adsbygoogle || []).push({}); (adsbygoogle = window.adsbygoogle || []).push({});

    Алексей

    Доброго времени суток, у меня прасер не активируется выдаёт ошибку , Parse error: syntax error, unexpected T_STRING in /home/u2672/compzone.ru.com/www/wp-content/plugins/aftparser/class/parser.php on line 426

    Алексей

    версия ВП 01.10.2107

    Woodire

    Warning: Missing argument 2 for wpdb::prepare()
    Эта когда пробую включить парсер в работу!

    Pavel

    Привет. Можешь за допюплату настроить свой парсер?

    Олег

    Отличный парсер, всё работает! Спасибо за разработку)

    Дмитрий

    Здравствуйте, а вы можете добавить функцию в этот плагин, чтобы при парсинге материала миниатюра для поста бралась из мета тега:

    Алексей

    Здравствуйте! Очень нужен парсер для модуля woocommerce.
    Сможете ли вы сделать подобное? Если да, то сколько это будет стоить?

    Игорь

    Добрый день!

    Из описания вашего замечательного парсера не понял одного важного вопроса под мою задачу:

    1. Допустим, я парсю контент с сайта на котором много категорий. На моем сайте соот-но эти же категории (или больше), как научить парсер отожествлять статью с релевантной для нее категорией? На сайте доноре есть явные указаная на категории статей (обычным текстом прописаны в столбик).

    2. Допустим, я спарсил категорию сатей сайта-донора. Начав парсить вторую категорию, я буду встречать дубли статей, которые находятся в обоих категориях сайта-донора. Есть ли такой вариант настройки парсера, где парсер может повторяющиеся статьи просто присваивать новой категории?

    Вообще тут я могу сделать так, поправьте, если я ошибаюсь: спарсить карту сайта-донора по первой категории, при парсинге первой категории (если парсер умеет это) соотнести статьи по категориям, которые заранее я создал на своем сайте.
    Спарсить список статей из карты сайта-донора и убрать все дубли, повторить шаг 1.
    Так делать пока все категории не кончатся 🙂

Добавить Комментарий