Trwa praca nad tekstem Louise Michell. Mam tekst w PDF, za pomoca programu przerobiłem go na plik tekstowy.

I teraz ten tekst w tym pliku tekstowym jest jak w PDF, to znaczy szerokość jest taka sama, jest bardzo dużo rozdzielonych słów (z myślnikami, gdy na końcu linijki słowo się nie kończy, na przykład rozdzie- lonych).

Czy da się to jakoś automatycznie pousuwać, czy trzeba ręcznie? A może istnieje jakiś lepszy pogram, który od razu to zrobi?

  • Waćpan
    link
    fedilink
    Polski
    arrow-up
    3
    ·
    1 month ago

    Hej @dj1936@szmer.info , aktualnie w takich zagadnieniach siedzę – podeślij ten PDF albo plik tekstowy, spróbuję pomóc!

    @pfm@szmer.info: jeśli jakiś pdftotext rygorystycznie trzyma się tzw. dywizów (łączników, “myślników”, “-”) zamiast myślników (“–”, “—”), to tzw. wyrażeniem regularnym, regexem PCRE i substytucją: s/(\b)-\n(\b)/\1\2/gmu: http://regex101.com/r/BJMjRG/1.

    • dj1936OP
      link
      fedilink
      Polski
      arrow-up
      2
      ·
      28 days ago

      Hej Waćpan! PFM już się tym zajął, ale w razie czego będę na przyszłość o Tobie pamiętał! Dzięki!