Lesbarkeits-Analyse

Stephan_Zoellner · 10. September 2020 um 05:19

Ich recherchiere seit etwa zwei Wochen zum Thema der Lesbarkeits-Analysen und habe schon ein paar der Formeln gefunden und für meine Homepage programmiert.

Frage (an die Entwickler): Welche der Formeln verwendet ihr in Papyrus?
Oder habt ihr eine der Formeln zu einem eigenen Algorithmus modifiziert?

Info-Link für Interessierte: https://de.wikipedia.org/wiki/Lesbarkeitsindex

Palinurus · 10. September 2020 um 06:26

Lieber Stephan,

ich glaube nicht, daß sehr viele Benutzer von Papyrus an den programmierten Voreinstellungen herumschrauben werden, was den Lesbarkeitsindex (LbI) betrifft. Andererseits: Was zählt hier schon ein Glaube?

Wenn ich mir das zugrundeliegende Konzept für LbI anschaue, dann liegt die Konzentration v.a. auf Wort-, Satz- und Silbenzahlen – aber daß man in bestimmten Fällen schon allein damit furchtbar in die Irre gehen kann, dürfte evident sein, selbst dann, wenn man nicht an Alle meine Entlein denkt …

Mir fällt spontan ein Kriterium ein, das wahrscheinlich wesentlich die Lesbarkeit beeinflußt: Wer je Latein gelernt hat – z.B. anbei der Lektüre des notorisch verschachtelnden Cicero --, wird wissen, daß es für Les- und Verstehbarkeit z.B. nicht unbedeutend ist, wie es sich mit der Distanz von Subjekt(en) und zugehörigen Prädikaten(en) im Hauptsatz verhält. Das ist schon mal an sich ein relevantes Kriterium. Es erlangt allerdings v.a. dann besondere Wichtigkeit, wenn sich noch (ein) Nebensätze(satz) in der syntaktischen Figuration befinden/t. Denn dann wird auch das Problem der Grammatik-Kompetenz akut, besonders, wenn Hauptsätze Unterbrechungen durch Nebensätze bzw. bestimmte andere Partikel erfahren.

Bei Cicero etwa passiert es nicht selten – andere lat. Autoren ließen sich ebenfalls anführen --, daß ein oder zwei, manchmal (Herrje, wie man dabei ins Schwitzen kam als Schüler!) auch drei Nebensätze den Hauptsatz unterbrechen und das HS-Subjekt von seinem Prädikat somit über dreißig oder gar vierzig Wörter distanziert wird (mal abgesehen davon, ob überhaupt die richtige Zuordnung des Prädikats fürs HS-Subjekt erfolgt). – In solchen Fällen gibt es dann natürlich zwangsläufig Lesbarkeits- und Verständnisprobleme. Ein Latein-Papyrus würde den Text mehr oder weniger komplett rotglühend unterlegen …

Aber von solchen Extrema einmal abgesehen: Die richtige Zuordnung der einzelnen Satzglieder, auch in einfacheren Sätzen als jenen bestimmter lat. Autoren (oder bspw. manchmal auch bei Musil, Thomas Mann und anderen), ist natürlich ein tatsächlich entscheidendes Kriterium dafür, ob ein Satz gut verstehbar ist oder nicht; jedenfalls ist dieses Kriterium sicher wichtiger als rein statistische – also quantitative – Befunde.
Anders herum: Das Qualitative – etwa Kompetenz-Levels semantischer wie auch grammatikalischer Art – können doch nicht im Ernst ausgeblendet werden, wenn das Thema ‚Lesbarkeit‘ aufs Tapet gebracht wird. – Nun ist es aber der Fall, daß qualitative Kriterien nahezu keine Rolle spielen (heutzutage können schon viele Menschen nicht mehr Satzglieder richtig zuordnen, sobald das syntaktische S-P-O-Niveau überschritten wird!), wie die dokumentierten Methoden der Ermittlung des LbI ja auch zeigen. Insinuiert ist dabei, anhand der quantitativen Kriterien würden zumindest „indirekt“ einige qualitative einbezogen. – Das mag sein oder auch nicht (wie aber sollte das „bewiesen“ oder wenigstens handfest gemacht werden?). Auf jeden Fall haben wir es mit LbI hinsichtlich solcher Erwägungen mit einem v.a. quantitativ „gepolten“ Instrument zu tun.
Daß es trotzdem Hilfestellung geben kann, habe ich an diesem oder oder jenem eigenen Text schon gesehen (es ergab sich manches Mal, daß ich lange Sätze aufgeteilt habe und dadurch auch für mich selbst etwas besseres „rauskam“ als vorher). Nur ist damit natürlich keineswegs „des Rätsels Lösung“ erreicht. Nicht wirklich! Denn bei Lese- und Verstehensprozessen greift wahnwitzig viel ineinander, sowohl Quantitatives als auch Qualitatives. Letzteres vermögen Algorithmen bisher eher wenig zu berücksichtigen. Und deshalb kann ein ermittelter LbI-Wert ein Kriterium der Beurteilung sein, wovon es allerdings** immer mehrere** gibt, die der Mensch dann halt auch noch mit einbeziehen muß, wenn er ein Urteil darüber, wie ein Text „tickt“, fällen möchte.

Zum ganzen Themenkomplex habe ich im Netz eine wiss. Arbeit gefunden, die im Resultat zu einem – für hiesige Zusammenhänge – geradezu vernichtenden Urteil kommt, nämlich dem, daß Lesbarkeitsanalysen für Belletristik keinen Wert haben.
Die Autorin der Untersuchung hat drei verschiedene Lesbarkeitsindex-Ermittlungsansätze (es gibt deren ja mehrere und nicht nur Flesch, der wohl am bekanntesten ist) auf je zwei belletristische Werke, eines aus der Hochliteratur und eines aus dem U-Sektor, angewandt, um zu ermitteln, ob sich bei den drei unterschiedlichen quantitativen und computergestützten Analysen eine Korrelation ergibt. Das Ergebnis ist ernüchternd: Es gibt keine solche …
Im Klartext heißt das: Je unterschiedliche Ansätze erbringen unterschiedliche Ergebnisse, was ja, sollte der LbI eine Relevanz für Belletristik [sic!] haben, eigentlich ausgeschlossen sein müßte. Ist es aber (leider) nicht! Die Autorin hat sich allein auf lit. Werke kapriziert und stellt es anderen Untersuchungen dieser (Korrelations-Ermittlungs-)Methode anheim, ob sich das negative Ergebnis auch auf nicht-belletristische Bereiche des Lesens erstrecken würde oder da eine gewisse Korrelation bei den Ergebnissen der diversen Untersuchungsmethoden zu verzeichnen wäre.

Gleichwohl: Mir sagt meine inzwischen gewonnene Erfahrung [sic] mit dem Papyrus-LbI, daß die *Rigorisität *dieses Urteils zumindest *aus der Sicht eines Autors *[korrigiert nach Fehlerhinweis von @AndreasE ] *-- * somit eben keines/r Wissenschaftlers/in – nicht unbedingt akzeptiert werden muß, weil es ja auch den Faktor eines subjektiven Ertrages einer LbI gibt, wie ich ihn selbst schon erlebt habe. Andererseits sollte niemand glauben – auch das zeigt diese Untersuchung auf der anderen Seite der Medaille --, die LbI wäre irgendein Wundermittel, mit dem man zuverlässig zum … ähm … „Bestseller-Autor“ werden könnte. Ohne diverse mentale Kompetenzen, „Instinkt“ und v.a. auch ein „ästhetisches Gefühl“, ist alles nichts in der Schreiberei! Und sei die technische Aufrüstung noch so gigantisch. – Mir scheint: Wer imstande ist, diese beiden Seiten an der Sache vernünftig auszutarieren, kann zu guten Ergebnissen kommen.

Hier der Link zur Studie (bzw. zum Report darüber in dt. Sprache), die zu lesen für Autoren wohl sehr empfehlenswert ist (gehostet ist sie auf dem** Digitala Vetenskapliga Arkivet** [DiVA portal is a finding tool and an institutional repository for research publications and student theses written at 49 universities and research institutions]):

https://www.diva-portal.org/smash/get/diva2:1372668/FULLTEXT01.pdf

Viele Grüße von Palinurus

AndreasE · 10. September 2020 um 10:22

Bitte, bitte – der Genitiv von Autor ist nicht Autoren! Es muss heißen “aus der Sicht eines Autors”. Bei Twitter und anderen Klowänden des Internets ist man hilflos, aber in einem Autorenforum (“Autoren” ist der Plural!!) sollten wir das richtig machen.

AndreasE · 10. September 2020 um 10:27

Papyrus verwendet den Flesch Reading Ease, allerdings mit ein paar Variationen, die wir geheim halten, weil Papyrus schon genug von anderen Softwareherstellern beklaut worden ist.

Palinurus · 10. September 2020 um 10:50

Danke, Andreas, es ist sehr nett, daß du mich auf den Genitiv-Lapsus bei ‘Autor’ hinweist; ich mache das – zum eigenen Bedauern – beinahe immer falsch, obwohl mir dieser Fehler heute nicht zum ersten Mal vorgehalten wird. Offenbar ist die “Macht der (schlechten) Gewohnheit” manchmal stärker als irgendwo im Gedächtnis abgelegtes Wissen. Werde mich hinfort bemühen, es besser hinzukriegen.

Schön zu wissen übrigens in diesem Zusammenhang, daß die Gr-Prüfung in Papyrus diesen Fehler richtig identifiziert, was ja leider nicht immer der Fall ist. Habe es nämlich gleich mal getestet …

Viele Grüße von Palinurus

Stephan_Zoellner · 10. September 2020 um 14:23

Vielen Dank!
Das ist genau die Information, die ich haben wollte! Und sie genügt mir auch vollkommen
Ich dachte mir schon, dass Ihr da ein wenig „aufgebohrt“ habt. Schließlich habt Ihr mit der Stil-Kontrolle eine ganze Menge an Zusatzinformationen zur Verfügung

Ich habe die statistischen Analysen in den letzten Tagen für meine Homepage umgesetzt . Momentan allerdings nur für ganze Seiten als Durchschnitts-Wert. Die einzelnen Absätze zu bewerten - und das für mich als „Editor“ einzubinden - steht noch aus. Das soll mir ein wenig ersparen die Daten zwischen HTML und Papyrus wild hin und her zu schaufeln.

Stephan_Zoellner · 10. September 2020 um 14:48

GrinZZ
Ich bin nicht “jeder” und auch nicht “Mehrheit”
Ich verwende diese Methode als Indikator an manchen Stellen etwas genauer hin zu schauen. Und so habe ich den Ansatz in Papyrus für die Drei Spezialwerkzeuge (Rechtschreib-Kontrolle, Stil-Kontrolle, Lesbarkeits-Index) auch verstanden. Ich werde diesen Algorithmen nie sklavisch folgen.

Z.B. habe ich verschiedene Versionen des Gilgamesch-Epos in digitaler Form vorliegen und habe sie mit den von mir programmierten Routienen analysieren lassen. Das Ergebnis war, dass die von mir favorisierte Fassung tatsächlich die Beste Lesbarkeit aufweist. Der Vorsprung ist nicht sehr groß, aber er ist offensichtlich messbar.
Ich habe auch typische kleine Texte - analog zu “Alle meine Entchen” - zu Vergleichszwecken analysiert. Die Analysen und Formeln funktionieren durchaus recht zuverlässig. Nicht umsonst habe einige Linguisten da seit Jahrzehnten viel Forschungsarbeit investiert.

Natürlich fallen manche Kriterien ein wenig hinten runter. Das ist aber vergleichsweise unbedeutend, denn die Satzlänge wird pauschal berücksichtigt. Die Anzahl der Nebensätze wird z.B. nicht berücksichtigt. Es ist programmtechnisch auch nicht ganz einfach zwischen einer Aufzählung oder einem Nebensatz zu unterscheiden wenn man nur die statistischen Daten zur Verfügung hat.

Im Übrigen kann das Ziel-Niveau für die Analyse in Papyrus in drei Stufen (Belletristik, Sachtexte, Fachliteratur [Papyrus 8.54]) eingestellt werden. Und diese Voreinstellungen sind durchaus ausgereift.

Und man darf den Lesbarkeitsindex nicht verwechseln mit der Beliebtheit eines Werkes oder seinem Erfolg. Da greifen sehr viele andere Kriterien. Die Lesbarkeit ist nur eines der Erfolgskriterien für ein breites Publikum. Historisch gewachsene Werke unterliegen aber anderen Regeln und werden anders “vertrieben”.

Ulli · 10. September 2020 um 15:39

Genau so ist’s ja auch gedacht. (Und nur so.)