Мир, Труд, Май, товарищи! А значит самое время для очередного обновления моего парсера. Судя по количеству обращений он пришелся вам по нраву. Сегодня я представляю вам автосбор обновлений, прокси и обрезку изображений.
Скачать последнюю версию плагина.
Парсинг обновлений с сайтов
По многочисленным просьбам трудящихся, я добавил в плагин функционал автоматического сбора новостей с вебсайтов. Выглядит все это следующим образом:
В данном случае настроен автосбор новостей с рамблера(раздел — бизнес), а регулярка подбиралась под ссылки вот такого вида:
Если вы, что называется, «не шарите» в том, как составлять регулярные выражения, вот вам статья, я ее специально для этого случая написал — регулярные выражения для чайников.
При тестировании, если все работает правильно, вы получите список ссылок для актуальных новостей.
Парсер проверяет наличие новостей всякий раз, как срабатывает CRON, после чего добавляет все новости к вам на сайт. Как правило, процесс идет весьма бойко и … спустя некоторое время ваш сайт заполняется доверху целой кучей материалов.
Наш девиз — пятилетку за четыре года! Ударными темпами идем вперед, товарищи!
Обрезка изображений
Опять-же, по просьбам трудящихся, теперь можно обрезать картинки с сайтов-источников, уникализируя их и убирая ватермарки.
Делается это макросом-функцией process_images, которой, в качестве второго параметра, надо передать количество пикселей для обрезки.
Внимание: теперь парсер требует, чтобы на вашем сервере обязательно было активное расширение php_gd, без этого расширения обрезка работать не будет.
$res = $this->process_images($res,35);
В данном случае у изображения снизу будет отрезано 35 пикселей.
Давайте проверим. Запустим сначала тест без обрезки и найдем ссылку на картинку в тексте результата.
И так, сейчас я перейду и посмотрю, что там.
А теперь, добавим к методу process_images второй параметр, пусть это будет 35 пикселей, после чего перезапустим тест. Макрос у меня выглядит так:
Теперь запускаю тестирование и снова смотрю на картинку.
Идеально, никаких сторонних надписей + изображение будет выглядеть уникальным для поисковых систем. Так это и работает.
Прокси
Так-же, я добавил прокси для парсинга материалов. Это весьма важное нововведение, с целью обезопасить ваши айпи-адреса с сайтами от банов и претензий со стороны авторов оригинального контента… Однако, прокси замедляет (сильно) работу парсера, так что… использовать его или нет — решать вам.
Давайте проверим. Возьмем любой публичный бесплатный прокси, например отсюда —
Вставляем и смотрим:
Теперь запустим тестирование, оно в этом случае будет слегка замедленно (или не пройдет, если проксюк — не рабочий).
Все нормально. Берем и используем. Я рекомендую парсить всякие там рамблеры и прочие новостные сайты крупных буржуев-монополистов только через прокси. И да, их может быть несколько в списке, тогда при обращениях парсер будет выбирать случайный вариант.
P.S: Парсер RSS пока у меня отстает немного в плане обновлений, но всему свое время.
Спасибо за вашу поддержку в развитии этого проекта!
Уникальным не будет изображение)) Там надо еще кучу фильтров применить к нему чтобы оно стало уникальным в глазах ПС
хм, не знал, спасибо за уточнение
подскажите пожалуйста на примере, вот сайт http://interfax.com.ua/news/sport.html
хочу с него настроить автосбор новостей, регулярное выражения для поиска ссылки категории спорта я указал
href=[‘»](\/sport\/[^»’]+?)[«‘] я понимаю что это не правильно, не могли бы вы подсказать как составить правильно, большое спасибо заранее за ответ.
попробуйте сделать так:
сам я не проверял, у себя проверьте.
Спасибо, всё работает
Подскажите, а как полностью отключить загрузку изображения, ставлю на парсинг просто текст, а загружаються вообще левые картинки. Спаксибо
это возможно только в парсере по границам, парсер по селекторам всегда загружает изображения
Привет, можно попросить сделать регулярку для этого примера [скрыто]
сам пробую что-то никак …. Спасибо!!!
вот так
скрин — http://take.ms/4R1QW
Все получилось работает Спасибо!!!! огромное человеческое !!!
хотел спросить, настроил парсер все работает, а потом нужно от редактить настройки или линк сменить, у меня нет нигде опций не нашел …. WP Версия 4.8.3 парсер «Главная» просто серое поле и нет ничего… (так и должно быть ?)
поставил обновление кнопка сверху появилась, но главная страница не изменилась.
Очень интересной темой занимаешься, тоже интересуюсь но в програмировании … нул 🙁
хм, у некоторых пользователей главная страница тормозит да, но я причины не знаю т.к. у меня то таких проблем нет. Так вот, я хочу эту проблему исправить. Мне надо чтобы вы включили wp_debug в файле wp_config.php(находится в корне сайта, скрин — http://take.ms/Sa7xg). После чего вам надо зайти на главную страницу плагина — http://take.ms/xXgp5 и показать мне ошибки, которые там есть.
Если ошибок не видно сверните боковую панель, вот по тыку этой кнопки — http://take.ms/m4Xlf
Отключил почти все виджеты только после этого что-то появилось на главной плагина :
[скрыто]
баг исправлен
подставляю рабочие прокси. руками каждый проверил в формате *** ***
и все равно получаю «С вашего IP-адреса поступает много запросов,подтвердите, что вы человек»
посоветуете что делать?
понятия не имею
Спасибо за «помощь»
Нажимаю «Сохранить и тестировать»: Неизвестная ошибка! Возможно не работает макрос.
В какую сторону копать