Trwa praca nad tekstem Louise Michell. Mam tekst w PDF, za pomoca programu przerobiłem go na plik tekstowy.
I teraz ten tekst w tym pliku tekstowym jest jak w PDF, to znaczy szerokość jest taka sama, jest bardzo dużo rozdzielonych słów (z myślnikami, gdy na końcu linijki słowo się nie kończy, na przykład rozdzie- lonych).
Czy da się to jakoś automatycznie pousuwać, czy trzeba ręcznie? A może istnieje jakiś lepszy pogram, który od razu to zrobi?
Hej @dj1936@szmer.info , aktualnie w takich zagadnieniach siedzę – podeślij ten PDF albo plik tekstowy, spróbuję pomóc!
@pfm@szmer.info: jeśli jakiś
pdftotext
rygorystycznie trzyma się tzw. dywizów (łączników, “myślników”, “-”) zamiast myślników (“–”, “—”), to tzw. wyrażeniem regularnym, regexem PCRE i substytucją:s/(\b)-\n(\b)/\1\2/gmu
: http://regex101.com/r/BJMjRG/1.