Po ostrzeżeniu: Przeszukaj całą witrynę Wordpress w tekście źródłowym, aby znaleźć słowo

Pliki z pewnymi rozszerzeniami w nazwie pliku można bardzo łatwo odfiltrować za pomocą wyrażeń regularnych.

Wczoraj po raz kolejny miałem problem, na który na pierwszy rzut oka nie było rozwiązania. Klient otrzymał ostrzeżenie od prawnika, że ​​nie może już używać określonego słowa na swojej stronie internetowej.

Czy otrzymujesz ostrzeżenie, ponieważ wielokrotnie użyłeś słowa na swoim blogu Wordpress, którego nie wolno ci używać? Następnie mam dla ciebie przewodnik, jak rozwiązać problem.
Czy otrzymujesz ostrzeżenie, ponieważ wielokrotnie użyłeś słowa na swoim blogu Wordpress, którego nie wolno ci używać? Następnie mam dla ciebie przewodnik, jak rozwiązać problem.

Teraz możesz pomyśleć: Nie ma problemu, do tego służy funkcja wyszukiwania stron i postów w Wordpressie. To też prawda, ale niestety funkcja wyszukiwania nie zawiera suwaków, metatagów itp., którymi zarządza się za pomocą wtyczek w bazie danych. Zakodowana na stałe treść na pasku bocznym iw obszarze stopki lub w jakichkolwiek plikach motywu PHP również nie jest rejestrowana.

Ważna uwaga: nie oferuję porad prawnych ani niczego w tym rodzaju. Proszę w tym celu skontaktować się z prawnikiem. Mój przewodnik to tylko techniczne rozwiązanie, jak znaleźć określone słowo na blogu Wordpress, które chcesz usunąć lub zmienić.

Wyszukiwarka Google tylko częściowo pomocna

Wyszukiwarka Google z zapytaniem ala „strona: www.sir-apfelot.de złe słowo” niestety też nie pomaga, ponieważ usuwa tylko zarchiwizowane dane, które mają kilka dni. I nie ma sposobu, aby przeszukać Google, aby upewnić się, że nie przegapiłeś zmiany w witrynie. Będziesz musiał poczekać, aż bot Google ponownie zindeksuje wszystkie strony, a następnie ponownie wyszukać.

Jeśli chcesz przeszukać witrynę za pomocą wyszukiwarki Google, pracujesz z operatorem „site:”. Ponieważ nie mogę podać nazwy strony internetowej klienta, przeszukałem blog Sir Apfelot w poszukiwaniu „ostrzeżenia”.
Jeśli chcesz przeszukać witrynę za pomocą wyszukiwarki Google, pracujesz z operatorem „site:”. Ponieważ nie mogę podać nazwy strony internetowej klienta, przeszukałem blog Sir Apfelot w poszukiwaniu „ostrzeżenia”.

Niestety, jeśli chodzi o listy od prawnika, rzadko masz wystarczająco dużo czasu, aby zmusić Google do ponownego zindeksowania strony w celu ponownego sprawdzenia stron za pomocą wyszukiwarki Google. Trzeba więc znaleźć inny sposób, aby dokładnie przeszukać witrynę.

Drugim wyzwaniem jest to, że jeśli po ostrzeżeniu ponownie popełnisz ten sam błąd, zwykle robi się to naprawdę drogie. Z tego powodu muszę podwójnie upewnić się, że termin ten nie został pominięty gdzieś na podstronie.

Czytnik offline SiteSucker ładuje wszystkie podstrony na Macu

Moje rozwiązanie zostało zaprojektowane w taki sposób, że najpierw chciałem załadować całą witrynę, w tym wszystkie podstrony, na mojego Maca, a następnie użyć funkcji wyszukiwania wielu plików BBEdit, aby ją przeszukać.

Jeśli jednak witryna jest oparta na systemie CMS, takim jak Wordpress, nie można po prostu pobrać stron przez FTP, ponieważ są one dynamicznie składane z plików szablonów i treści z bazy danych.

Darmowe narzędzie o nazwie „StronaSucker"(Link do App Store), który działa na komputerze Mac i daje możliwość wykonania kopii zapasowej całej witryny wraz ze wszystkimi podstronami, grafiką i innymi plikami. SiteSucker pierwotnie miał oferować funkcję czytnika offline. Oznacza to, że ładujesz zawartość witryny internetowej na Maca, a adresy URL są przepisywane przez program w taki sposób, że możesz również przeglądać witrynę w trybie offline lokalnie na komputerze Mac. Mogło to mieć sens w przeszłości, gdy byłeś na wakacjach, ale obecnie masz wszędzie WiFi i nie potrzebujesz takich programów.

Ale SiteSucker jest idealnym narzędziem do moich celów, ponieważ chcę, aby cała witryna była dostępna lokalnie, abym mógł przeszukiwać kod źródłowy.

[sklep z aplikacjami 442168834]

Przydatne ustawienia w SiteSucker

Ponieważ wiele witryn Wordpress jest obecnie wyposażonych we wtyczki bezpieczeństwa, które blokują automatyczne żądania, SiteSucker powinien być ustawiony tak, aby zawsze zezwalał na 3 do 5 sekund między załadowaniem strony, aby żadne wtyczki nie były uruchamiane. Wielu dostawców usług hostingowych ma również zapory ogniowe działające po stronie serwera, które rozpoznają, kiedy bot wysyła wiele żądań na sekundę.

Jeśli więc uruchomisz SiteSucker na stronie bez ograniczeń, istnieje duża szansa, że ​​Twój adres IP zostanie zablokowany i nie będziesz mógł uzyskać dostępu do danej witryny przez kilka minut.

W przypadku opóźnienia w SiteSucker zalecałbym wartość od 2 do 5 sekund, tak aby żaden blok IP nie był wyzwalany przez zaporę sieciową hosta.
W przypadku opóźnienia w SiteSucker zalecałbym wartość od 2 do 5 sekund, tak aby żaden blok IP nie był wyzwalany przez zaporę sieciową hosta.

Możesz też ograniczyć żądania, wyłączając – w moim przypadku – pliki typu JS, JPEG, GIF, PNG i CSS. Powinno to być łatwo możliwe dzięki ustawieniom, ale dla mnie to nie działało.

W pewnym momencie pracowałem z pewnymi wyrażeniami regularnymi, które mogą być również używane do wykluczania plików i adresów URL. Jeśli chcesz zrobić to samo, odpowiedni zrzut ekranu z niezbędnymi wpisami znajdziesz tutaj:

Pliki z pewnymi rozszerzeniami w nazwie pliku można bardzo łatwo odfiltrować za pomocą wyrażeń regularnych.
Pliki z pewnymi rozszerzeniami w nazwie pliku można bardzo łatwo odfiltrować za pomocą wyrażeń regularnych.

Teraz klikasz przycisk Start i możesz obserwować, jak SiteSucker działa na stronie i tworzy kopie zapasowe wszystkich plików krok po kroku. Możesz również szybko sprawdzić, czy wyrażenie regularne (wyrażenia regularne) działa poprawnie, ponieważ wszystkie pliki są wyświetlane na żywo na liście. Jeśli widzisz tam pliki JPG, coś nie działało z filtrem.

Lista pokazuje, jak działają poszczególne procesy SiteSucker i które pliki są ładowane.
Lista pokazuje, jak działają poszczególne procesy SiteSucker i które pliki są ładowane.

Przeszukuj foldery stron internetowych - z BBEdit

Kiedy SiteSucker jest gotowy, masz folder ze wszystkimi plikami HTML, w których może się ukrywać odpowiednie „złe słowo”. Przeszukałem je za pomocą funkcji wyszukiwania wielu plików BBEdit, która otwiera pliki i wyszukuje słowo w tekście źródłowym.

Nie mogłem sprawdzić, czy Spotlight też będzie działał tutaj, ponieważ mój reflektor na tygodnie ma dziwactwo (Czysta instalacja ma nastąpić w ciągu kilku dni!). Ale z BBEdit zadziałało bezproblemowo i myślę, że w zasadzie może reflektor również pracować z treścią HTML. Pytanie tylko, czy znalazłby również słowa w tekście źródłowym (tagi graficzne itp.).

Dzięki funkcji wyszukiwania wielu plików BBEdit, całe foldery mogą być przeszukiwane pod kątem wystąpienia danego słowa. Ważne: nie zaznaczaj opcji Rozróżnianie wielkości liter.
Dzięki funkcji wyszukiwania wielu plików BBEdit, całe foldery mogą być przeszukiwane pod kątem wystąpienia danego słowa. Ważne: nie zaznaczaj opcji Rozróżnianie wielkości liter.

Podczas wyszukiwania w plikach HTML należy wziąć pod uwagę, że na niektórych stronach internetowych przeoczysz słowa z przegłosami, ponieważ znak specjalny HTML mógł zostać użyty dla odpowiedniego przegłosu (zobacz SelfHTML).

Przykład: zamiast "mięso duszone" czy tam też? "mięso duszone" stać.

Jeśli to wiesz, możesz odpowiednio zmienić wyszukiwanie i znaleźć wszystkie wystąpienia. Z tą „listą lokalizacji” poszedłem następnie do administratora Wordpressa, aby wyczyścić wszystkie strony.

Wyniki BBEdit służą następnie jako podstawa robocza do rewizji odpowiednich stron w Wordpress.
Wyniki BBEdit służą następnie jako podstawa robocza do rewizji odpowiednich stron w Wordpress.

Możliwe pułapki: Nazwy plików graficznych i zawartość obrazu

Zauważyłem tylko dwa możliwe obszary problemowe później: słowo, którego szukasz, może być również ukryte w nazwie pliku obrazu, a nawet w samym obrazie. Klient nie mógł mi powiedzieć, czy samo nazwanie pliku z problematycznym terminem wystarczy, aby ponownie sprawić mu problemy, więc postanowiliśmy wszystko złagodzić.

Wyszukiwanie plików o odpowiedniej nazwie odbywało się również lokalnie w folderze „Uploads” Wordpressa. Do tego mam (z powodu wadliwego reflektora) na narzędziu Znajdź dowolny plik Thomasa Tempelmanna, który z powodzeniem wykonał zadanie w ułamku sekundy.

Tekst osadzony w grafice, którego nie można znaleźć za pomocą wyszukiwania tekstowego, jest tak samo podatny na ostrzeżenia, jak „prawdziwy” tekst.
Tekst osadzony w grafice, którego nie można znaleźć za pomocą wyszukiwania tekstowego, jest tak samo podatny na ostrzeżenia jak „prawdziwy” tekst.

Ostatnim placem budowy jest wyszukiwanie w treści obrazu. To znaczy fotografie, banery lub tym podobne, w których słowo, którego szukasz, zostało włączone za pomocą przetwarzania obrazu. Te wystąpienia również muszą zostać usunięte. Jednak żadne z narzędzi, które znam, nie pomaga tutaj i po prostu trzeba „przewijać” grafikę ręcznie z podglądem.

W pewnych okolicznościach wyszukiwarka grafiki Google może być również pomocna, jeśli chcesz sprawdzić zdjęcia i grafikę na pojedynczej stronie internetowej.
W pewnych okolicznościach wyszukiwarka grafiki Google może być również pomocna, jeśli chcesz sprawdzić zdjęcia i grafikę na pojedynczej stronie internetowej.

Następnie „oczyściłem” problematyczne grafiki i zdjęcia za pomocą Photoshopa i ponownie wrzuciłem je na serwer przez FTP. Ponieważ nie chciałem przerabiać każdej miniatury, przerobiłem tylko i zamieniłem „duże” wersje obrazu, a następnie użyłem wszystkich miniatur z wtyczką „Miniatury Regeneruje siły” Pedra Elsnera.

Wniosek: dużo pracy rozwiązanej przy rozsądnym wysiłku

Ogólnie rzecz biorąc, wszystko można było rozwiązać w rozsądnym czasie, pomimo wielu podstron i grafik. Jeśli zmagasz się z takimi problemami i nie wiesz, jak mogę rozwiązać pewne zadanie półautomatycznie, napisz do mnie krótki komentarz lub napisz do mnie bezpośrednio. Może mogę ci pomóc!

 

 

Podobał Ci się artykuł i czy instrukcje na blogu Ci pomogły? Wtedy byłbym szczęśliwy, gdybyś bloga poprzez stałe członkostwo będzie wspierać.

10 komentarzy do „Po ostrzeżeniu: przeszukaj całą witrynę Wordpress w kodzie źródłowym dla słowa”

  1. Dlaczego nie przeszukać bazy danych MySQL w poszukiwaniu terminu za pomocą phpMyAdmin? Przynajmniej w przypadku samoobsługowych witryn Worspress, to nie powinno być problemem... czy może czegoś brakuje?

    1. sir appleot

      Zasadniczo również podejście, ale nie znajdziesz tam żadnych plików graficznych, które zostały przesłane, ale nie są już połączone w poście. Jednak wyszukiwarka grafiki Google i prawnik strony przeciwnej mogą już je znaleźć. ;-)
      Mam też kilku klientów, którzy nadal mają motywy, w których mój poprzednik programował menu i małe pola informacyjne lub zmieniał nagłówki bezpośrednio w kodzie motywu. Prześlizgują się też przez szczeliny.

  2. Dzięki za wskazówkę dotyczącą plików graficznych.

    Byłoby również interesujące wiedzieć, które słowo zostało ostrzeżone (ale nie możesz już tego pisać). Możliwe, że w komentarzach nadal istnieje niebezpieczeństwo.

    Życzę prawnikowi, który wydał ostrzeżenie, trzech miesięcy zaparć, a jego klientom trzech miesięcy biegunki i wzdęć.

    1. sir appleot

      Witaj Kenneth! To było coś wyjątkowego: ktoś, kto mocuje izolowane blachy warstwowe jako dach, nie może mówić o „pokryciu dachowym”, ponieważ ten termin jest prawdopodobnie zarezerwowany dla dekarzy, którzy również „pokrywają dachówki”. Nie pytaj mnie o szczegóły. :D
      I tak, teoretycznie też jest niebezpieczeństwo w komentarzach, ale z jednej strony mój sposób wyszukiwania znajduje również wzmiankę w komentarzach, az drugiej zawsze wyłączam funkcję komentarza na stronach firmowych. Więc pod tym względem nie było niebezpieczeństwa w obecnym przypadku. I z powodu twoich życzeń: Tak, życzę mu tego z tobą! :D

  3. Myślę, że odniesienie do bazy danych ma sens, jeśli chodzi o WordPress. Teoretycznie jest z pewnością możliwe, że ciągi tekstowe są z tego „rysowane” przed/w momencie dostarczenia strony (stron), które następnie pojawiają się tylko w kodzie źródłowym stron wyświetlanych przez przeglądarkę odwiedzającego, prawda? (Nie ma ich w żadnych plikach PHP instalacji WordPress na serwerze).

    Niedawno miałem przypadek, że – po WordFence – niektóre hacki zostały użyte do wstrzyknięcia adresów URL podejrzanych o złośliwe oprogramowanie do pól „Opis” grafiki witryny. Informacje te powinny przynajmniej początkowo znajdować się TYLKO w bazie danych (tj. nie być zapisywane w pliku obrazu), a stamtąd na serwerze powinny zostać ponownie wstawione do tekstu źródłowego strony, który dociera do odwiedzającego witrynę. Czy się mylę?

    1. sir appleot

      Cześć Piotr! Tak, oczywiście możesz też przeszukiwać bazę danych, ale trafienia znajdziesz również w rewizjach iw innych miejscach. Moim zdaniem pole „Opis” w bibliotece multimediów to po prostu tekst, który pomaga w administrowaniu. Nie jest wyświetlany na obrazie w interfejsie użytkownika. Z tego powodu adresy URL złośliwego oprogramowania również nie powinny tam działać. Ale jeśli haker może opublikować takie adresy URL w dowolnym miejscu, zawsze zaleca się ostrożność. W końcu w jakiś sposób uzyskał już dostęp do Twojej bazy danych, a przynajmniej jej części. W takich przypadkach zawsze sprawdzam, czy przypadkiem nowy użytkownik nie pojawia się w obszarze „Użytkownicy”. Zdarzyło mi się to kilka razy.

  4. Właściwie: wymagana jest ostrożność... Jednak: właściwie nie było nowych użytkowników, których sam nie założyłem, a obecni (oprócz mnie) wszyscy mają tylko rolę subskrybenta, w której nie powinni mieć dostępu do takich rzeczy . Ponadto na stronie nie jest aktywna funkcja komentowania. W JAKI SPOSÓB przemycanie tego kodu jest dla mnie wielką tajemnicą. Może przez formularz kontaktowy?

    W jakiś sposób adres URL, o którym mowa, musiał znaleźć się w interfejsie użytkownika, nawet jeśli nie był od razu widoczny. Wygląda na to, że przynajmniej Chrome był w stanie wykryć swoją obecność na wszystkich stronach zawierających jedną z grafik, których dotyczy problem, i (choć nie wszystkim odwiedzającym tę stronę) wydał odpowiednie ostrzeżenie. Z drugiej strony, myślę, że Firefox dziwnie nie wyświetlał żadnych dopasowań podczas wyszukiwania adresu URL w kodzie źródłowym (tak jak do niego dotarł) - bardzo dziwne!

    Pole „Opis” dla obrazów w bibliotece multimediów było tylko marginalnie zaznaczone i nigdy go nie używałem (tj. zawsze pozostawiałem puste). Jeśli jednak dobrze to zrozumiałem podczas moich badań, powinieneś być w stanie odczytać treść w interfejsie, jeśli obraz ma link do siebie, a następnie możesz go wywołać jednym kliknięciem. Następnie tekst „opisu” powinien być załącznikiem, który jest wyświetlany wraz z obrazem (lub coś w tym stylu…).

    1. sir appleot

      Złośliwe oprogramowanie zwykle pojawia się za pośrednictwem jakiejś wtyczki. Śmieszne nawet od czasu do czasu luki w zabezpieczeniach w Wordfence, chociaż wtyczka ma przed tym chronić. Ale czytałem o tym kilka razy i na dwóch lub trzech stronach miałem szczęście, że udało mi się prześledzić hakera z powrotem do wtyczki przed datą zmiany pliku. Od tego czasu nie używałem Wordfence. :D

      Ze względu na tekst opisu: Tak, może używa jakiejś funkcji. Ale gdy obraz jest wyświetlany w dużym rozmiarze, większość motywów wyświetla podpis obrazu. Ale nigdy nie przestajesz się uczyć. Może się mylę!

  5. Ciekawy artykuł, dziękuję. Czy praca naprawdę się powiodła i czy prawnik strony przeciwnej nie ruszał się potem, czy też coś poszło dalej?
    Jak duży był wysiłek, zanim wszystko zostało naprawdę uporządkowane?

    1. Cześć Aleks! Tak, to się udało. Brak wiadomości od adwokata, ale jestem pewien, że szukali. Drugie naruszenie jest zawsze o wiele bardziej opłacalne dla drugiej strony. Nie mogę już oszacować wysiłku. Ale myślę, że to trwało pół dnia lub więcej.

Napisz komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone * oznakowane

Na blogu Sir Apfelot znajdziesz porady, instrukcje i recenzje produktów Apple, takich jak iPhone, iPad, Apple Watch, AirPods, iMac, Mac Pro, Mac Mini i Mac Studio.

Promocje