Trwa praca nad tekstem Louise Michell. Mam tekst w PDF, za pomoca programu przerobiłem go na plik tekstowy.

I teraz ten tekst w tym pliku tekstowym jest jak w PDF, to znaczy szerokość jest taka sama, jest bardzo dużo rozdzielonych słów (z myślnikami, gdy na końcu linijki słowo się nie kończy, na przykład rozdzie- lonych).

Czy da się to jakoś automatycznie pousuwać, czy trzeba ręcznie? A może istnieje jakiś lepszy pogram, który od razu to zrobi?

  • Waćpan
    link
    fedilink
    Polski
    arrow-up
    3
    ·
    22 hours ago

    Hej @dj1936@szmer.info , aktualnie w takich zagadnieniach siedzę – podeślij ten PDF albo plik tekstowy, spróbuję pomóc!

    @pfm@szmer.info: jeśli jakiś pdftotext rygorystycznie trzyma się tzw. dywizów (łączników, “myślników”, “-”) zamiast myślników (“–”, “—”), to tzw. wyrażeniem regularnym, regexem PCRE i substytucją: s/(\b)-\n(\b)/\1\2/gmu: http://regex101.com/r/BJMjRG/1.

  • pfm
    link
    fedilink
    Polski
    arrow-up
    2
    ·
    1 day ago

    Posklejać to automatycznie może być ciężko… Czy takie rozdzielone słowa mają myślniki w miejscu podziału? To by pomogło.