Решил зафиксировать изменения, внесенные за 2018 год в плагин WPGrabber.
[19.02.2018] Отладка
При настройке лент, случаются разные ситуации:
- сервер донора не доступен
- ваш ip адрес забанен админом донора
- старая версия SSL (Ошибка сертификата SSL: [Errno 1])
- при парсинге картинка битая, потому что в заголовках отсутствует "Accept-Encoding: gzip"
И чтобы быстро понять в чём дело, очень помогают следующии моменты.
Запись getContent запросов.
Все ссылки страниц, которые загружает парсер будут сохранены в Каталог временных файлов
по умочанию это /wp-content/wpgrabber_tmp/
Запись copyUrlFile запросов - аналогично, только для картинок.
Чтобы посмотреть заголовки ответа сервера есть
констатнта CURLOPT_HEADER
Чтобы посмотреть все отправляемые заголовки HTTP-запроса, с помощью функций cURL, необходимо добавить после всех вызовов функций curl_setopt() такой вызов: curl_setopt($ch, CURLINFO_HEADER_OUT, true)
Константа CURLINFO_HEADER_OUT в функции curl_getinfo() выведет все отправляемые заголовки.
и запишет в файл "curlinfo_header_out_md5(url).txt" в Каталог временных файлов.
Будет создан файл вида curlGetInfo2File240c3a72d902fdecbc3f8fc45b4b70bb.txt
и файл curl_error.txt, в котором при нормальном ходе ничего быть не должно. :)
[04.03.2018] COOKIEFILE, PROXY
Для чего прокси нужны объяснять, думаю, не надо :)- Работа через прокси сервер да/нет
- Прокси в формате host:port, собственно тут и прописываете ваш прокси, например 127.0.0.1:8080
- Тип прокси: -HTTP proxy.
По умолчанию, у данного типа прокси используются порты 80, 81, 8080,
3128.
-SOCKS proxy имеют такой же вид, как и http прокси, но используют в своей работе другие порты: 1080, 1081: - Если у вас есть свои прокси, которые требуют авторизации, то это поле для этого :)
- Сохраняет и читает cookie из файла cookies.txt, находится в каталоге временных файлов. Второй пункт, соответствено, при каждом запуске парсинга будет удалять и создавать заново этот файл.
- Подделка User-agent
- Сообщит серверу, что он модет отправить данные в сжатом виде. На практике, почти все серверы отдают в gzip, Опцию лучше включить.
- Задает задержку в секундах между импортом статей с донора! Подсмотрел у Евгения )
[06.03.2018] img_text_crop
Добавил Параметры картинок в основном тексте
Если выбрать "кадрирование", подобрать ширину и высоту можно добиться интересного эффекта -
исчезновение водяных знаков :)
[07.03.2018] fulltext_size_on
Можно задать размер полного текста, по аноалогии с анонсом.Текст будет без html разметки.
[14.05.2018] getMDNameFile, copyUrlFile
Иногда картинки имеют URL вида /images/2018.02/original/5a759684370f2c84128b46334812261?ut=noinвопрос решен.
[16.05.2018] vk fix
Импорт контента в блог со стен групп и сообществ соц. сети Вконтакте
Добавлено: Фотки с article_snippet__image, page_album_photos, background-image c видео
[07.06.2018] режим MULTIKEY yandexTRNSL
Сделан MULTIKEY режим для Яндекс.ПереводКлючи в случайном порядке, при каждом обращении к API Яндекс.Перевода
[02.08.2018] imagesContentNoSave
Корректно работает без Не сохранять записи без картинок дополнительных движений.[13.10.2018] url type text
Проблема видна на сайтах с кирилическими url. Не со всеми, я так подозреваю, а где этот адрес имеет большое количество символов. Пример: http://www.prokurorhbr.ru/%D0%BD%D0%BE%D0%B2%D0%BE%D1%81%D1%82%D0%B8Тест все проходит отлично:
но, как только нажимаешь импорт, то получаешь вот такую ошибку:
и ничего не сохраняется.
Решение:
[28.11.2018] delFirstPic
Тоже, подсмотрел у Евгения :)
Удалить первое изображение из статьи — Для тем в которых отображаются миниатюры и дублируются в статье
Простое включение этой функции вырежет первое изображение из статьи, а не будет скрыто атрибутами!
Обязательно включите — Для скачивания файлов (картинок) использовать метод CURL