Hej, niestety ze względu na ograniczenia obecnego robota indeksującego skupiamy się wyłącznie na stronach posiadających coś w stylu pliku sitemap.xml (można oczywiście zagnieżdżać kolejne, to też przejdzie). Jak sprawdzałem kiedyś sitemap.xml Szmeru, to było tylko kilkaset najnowszych postów (a dobrze by było też mieć łatwiejszy dostęp do starszych). Kiedyś mieliśmy nową wersję crawlera, która robiła robotę dużo lepiej odnośnie indeksowania, ale się często zacinała.
Planujemy przepisać crawler na Rusta, dzięki czemu będzie nieporównywalnie mniejsze zużycie zasobów na serwerach pod naszą kontrolą (no i będzie dzięki temu stabilniej, tak myślę).
No to chyba dobry moment, żeby spytać, czy Szmer powinien się wyszukiwać.
Podejście wielu osób na fedi (w tym moje) do wyszukiwania jest raczej sceptyczne. Głównie ze względu na skomplikowaną sprawę tego, z jakim wykorzystaniem ich postów osoby na fedi czują się komfortowo: https://nexusofprivacy.net/consent-for-fediverse-developers/
Ale hmmm… Szmer (i ogólnie threadiverse) wydaje mi jednak cokolwiek inną przestrzenią. Chyba miałbym mniejsze zastrzeżenia do pomysłu wyszkiwania postów (a może i i komentarzy) na Szmerze, niż do pomysłu wyszukiwania postów na całej fedi. Sam jestem tym trochę zaskoczony w sumie. :-)
Generalnie to pytanie do społeczności. Dobrze by było je zadać w kontekście Peekra, ale na tej bazie może ustalić zasady ogólnie dla wyszukiwarek i scraperów?
Ja to bardziej widzę tak, że jak coś jest publiczne, to raczej nie powinno być przeszkód do tego, żeby to pokazać w wyszukiwarce. Teoretycznie.
W praktyce, jest to nieco bardziej skomplikowane; są ci, którym to pasuje, i są ci, którzy tego nie chcą. Po coś są dodatkowe metatagi, które określają jasno np. “tego nie indeksuj, bo właściciel konta nie chce być pokazywany w wyszukiwarce”. Dobrze napisany crawler to zrozumie. Niemniej, obawy podnoszone przez co niektóre osoby z fediwersowej społeczności są w pełni zrozumiałe, i robiąc jakieś większe zmiany (tak jak wspomniane wyszukiwanie postów z Mastodona czy innej mikroblogowej platformy), pytamy się po prostu społeczności, czy im to pasuje, czy nie.
Propsy za Wasz wkład, powodzenia!
Planujemy przepisać crawler na Rusta, dzięki czemu będzie nieporównywalnie mniejsze zużycie zasobów na serwerach pod naszą kontrolą (no i będzie dzięki temu stabilniej, tak myślę).
Mam nadzieję, że nie zabrzmi arogancko – polecam skromnie Waszej uprzejmej uwadze tzw. formalną weryfikację projektu/oprogramowania, z rygorystyczną selekcją zastosowanych algorytmów (implikuje uwzględnienie złożoności czasowo-pamięciowej, zrównoleglalności) czy heurystyk oraz ich implementacji. Zważcie uprzejmie na to, iż każda decyzja o przepisaniu softu w nowym języku/ekosystemie oznacza wielki (z punktu widzenia projektu FLOSS) koszt i na pewien czas “znikacie z widnokręgu”. Jeśli pracujecie wolontaryjnie, to uważajcie, aby nie wypalić devów.
Disclaimer: szukając w Webie, nieraz używa[łe]m kombinacji SVMetaSearch + Qwant + Ecosia.
Jeśli pracujecie wolontaryjnie, to uważajcie, aby nie wypalić devów.
Nas jest czterech, ile to “wypaleń” mieliśmy - aż ciężko zliczyć. No ale koniec końców, udało się. I działamy dalej. Na razie się zastanawiamy nad tym, jak możemy zindeksować obrazki (bo niestety nie znam żadnej publicznej instancji SearXNG, która oferuje pobieranie wyników w JSONie - niemniej funkcję też pod pobieranie obrazków z właśnie stąd napisaliśmy, żeby mieć ją w gotowości).
Disclaimer: szukając w Webie, nieraz używam kombinacji SVMetaSearch + Qwant + Ecosia.
Ciekawa kombinacja! Ogólnie wyszedłem z założenia, że wbrew pozorom warto sobie rozdzielać aktywność między wielu dostawców. Skuteczne jest to w szczególności gdy przechodzisz z jednej instancji na drugą, żeby wyszukać coś co potrzebujesz. I tak w kółko. Są nawet wtyczki pod to, żeby to sobie ułatwić (ja korzystam z LibRedirecta).
Zaznaczę też, że SVMetaSearch już od dłuższego czasu nie istnieje; głównie ze względu na boty, które spamują zapytaniami, wyłączyłem tę instancję - i tak całkiem sporo zasobów już SearXNG zużywa, jakby nie patrzeć. Ale postępy można wciąż obserwować - sam projekt wyszukiwarki istnieje od 2022 roku, tylko już pod inną nazwą.
Zważcie uprzejmie na to, iż każda decyzja o przepisaniu softu w nowym języku/ekosystemie oznacza wielki (z punktu widzenia projektu FLOSS) koszt i na pewien czas “znikacie z widnokręgu”.
To była decyzja, którą podjęliśmy już pewien czas temu, nie podejmowaliśmy jej z dnia na dzień. Na ten moment jedynym dostępnym repozytorium jest ten od frontendu. Można jednak przejrzeć wszystko, co udało nam się już wypuścić, na https://git.nove.team/peekr.