Aileen

Inaktiv
@kilaya und @Shoujin , wäre es vielleicht möglich, aus den Audio Vorträgen Texte zu kreieren? Ich vermute, das ist mit einer App möglich, oder? Wie ist das dann mit dem Datenschutz? Wenn die Audios öffentlich sind, darf man sie dann auch transkribieren? Notfalls könnten wir Linda Lehrhaupt ja auch fragen.
 
Technisch kein Problem, aber wenn sie hier gepostet werden sollen, wäre eine Nachfrage sinnvoll. Man könnte direkt fragen, welcher Rahmen ok ist - also wie öffentlich, ihn welchem Umfang usw.
 
| Mein Blickwinkel: Offen für Fremdeinflüsse. Wichtig ist mir, alles in seinem Kontext zu belassen und authentische Lehren zu schützen. Gleichzeitig ist mein Denken vernetzt und ich schreibe gerne in meinen eigenen Worten, was ich glaube, verstanden zu haben.
@kilaya kannst du ein Tool (oder mehrere) empfehlen?
Whisper von OpenAI, aber alles, was lokal mit KI geht, braucht viel Rechenpower. Daher könnte ich es für alle durchlaufen lassen, sofern wir die Erlaubnis haben.
 
Zuletzt bearbeitet:
| Mein Blickwinkel: Offen für Fremdeinflüsse. Wichtig ist mir, alles in seinem Kontext zu belassen und authentische Lehren zu schützen. Gleichzeitig ist mein Denken vernetzt und ich schreibe gerne in meinen eigenen Worten, was ich glaube, verstanden zu haben.
Wir, MindfulPath und ich, haben das mit dem Transkribieren (Audio in Text umwandeln) jetzt mal ausprobiert, und zwar auf einem normalem Linux Rechner und nicht auf einem „Hochleistungsrechner“. Auf einem Windows Rechner wird es ähnlich funktionieren oder gibt es da Unterschiede? Dabei sind mithilfe der App „Wisper“ bei einem einstündigen Audio in Form eines Videovortrages 11 Min. Transkriptionszeit und 10 gedruckte A4-Seiten herausgekommen. War nicht das große Problem. Ich allerdings würde Hilfe bei der Einrichtung von Wisper benötigen.

Ich hatte mir das viel aufwendiger vorgestellt, ist es aber nicht, der Text war sogar gut verständlich. Was ja auch bedeutet, dass sich das eigentlich jeder transkribieren lassen könnte, wenn er mit Audios nicht so gut klarkommt und auch alle Hörbeeinträchtigten endlich mal Audiovorträge verfolgen und auch hier mitmischen könnten.

Jetzt kommt der Pferdefuß, der je nach Autor des Videos unterschiedlich groß sein dürfte:

Für den privaten Gebrauch reicht die Qualität. Mündliche Sprache wird wörtlich in schriftliche Sprache übersetzt, aber man kann schon irritiert sein, wenn alle „hmm“ und „äh“ usw. mit verschriftlicht werden, bei jeder kleinen Atempause der Satz irgendwie abbricht oder plötzlich mitten im Satz ein Absatz erfolgt. Und wenn der Autor dann auch noch Deutsch sprechender Amerikaner mit deutlichem Akzent oder etlicher Suchen nach dem richtigen Wort ist, wird oft genug auch was Falsches übersetzt. Ich habe das zwar verstanden ohne im Audio nachhören zu müssen, aber um so einen Text (mit Erlaubnis der Autorin) bei uns im Forum einstellen zu können, müsste wirklich fast jeder Satz hin zu einem vernünftigen Schriftdeutsch korrigiert werden und das wäre mir bei einem zehn-seitigen A4-Text einfach zu viel Arbeit. Außerdem hätte ich das Gefühl, dass wir einen Autor auch demütigen, wenn wir von ihm einen Text mit so unendlich vielen Rechtschreib- und Grammatikfehlern online stellen würden. Irgendwann wird vielleicht eine KI darin besser sein, einen mündlichen Text in entsprechende Schriftsprache umzuformen.

Trotz allem war es für mich viel leichter, anhand eines Textes diesen Vortrag zu strukturieren, d.h. zu bestimmten zusammengehörenden Teilen zu ordnen, bestimmte Fragestellungen zu erkennen, für mich besonders Interessantes zu markieren oder meine Gedanken an den Rand zu schreiben. Und um so etwas hier fürs Forum vorzubereiten, brauche ich persönlich einfach einen Text. Und wenn ich jetzt noch die Audiominuten durch Anzahl der Textseiten teile, weiß ich auch noch, wo ich welche Textstelle (ungefähr) im Audio wiederfinde.
Danke, MindfulPath, für deine Hilfe!

Mein persönliches Fazit:
Für mich ist auch die unkorrigierte Transkription eine deutliche Erleichterung.
Um so eine Transkription hier ins Forum zu stellen, müsste man fast jeden Satz nachkorrigieren, was mir persönlich zu viel Arbeit wäre und man müsste natürlich auch die Erlaubnis des Autors einholen.

Frage:
Sehe ich das richtig, dass es erlaubt ist, von jedem im Internet veröffentlichten Video eine private Kopie für sich selbst zu ziehen, solange man sie nicht weitergibt oder nur im engsten Freundeskreis weitergibt? Gilt das dann auch für die Benutzung mit Wisper?
Kann man die App Wisper für alle hier mal richtig einstellen und dann je nach Bedarf mit den richtigen Einstellungen weitergeben? Geht das überhaupt? Dann könnte jeder für sich das transkribieren, was ihn interessiert.
 
Man kann auf einem schwächeren Rechner die kleineren Modelle verwenden. Whisper kann tiny bis large. Bei den kleinen Modellen ist aber die Qualität der Transkription meist eher schlecht, oft fehlen alle Satzzeichen usw. Man kann auch online bei OpenAI transkribieren, dann zahlt man pro Minute Material.
 
| Mein Blickwinkel: Offen für Fremdeinflüsse. Wichtig ist mir, alles in seinem Kontext zu belassen und authentische Lehren zu schützen. Gleichzeitig ist mein Denken vernetzt und ich schreibe gerne in meinen eigenen Worten, was ich glaube, verstanden zu haben.
Um so eine Transkription hier ins Forum zu stellen, müsste man fast jeden Satz nachkorrigieren, was mir persönlich zu viel Arbeit wäre und man müsste natürlich auch die Erlaubnis des Autors einholen.
Bei Large muss man in der Regel nur noch wenig bis gar nicht nachkorrigieren, kommt auf die Qualität der Aufnahme an und z. B. auch auf die Menge an Fachbegriffen z. B.

Kann man die App Wisper für alle hier mal richtig einstellen und dann je nach Bedarf mit den richtigen Einstellungen weitergeben?
Das ist keine Apps, das sind Modelle. Es gibt verschiedene Arten der Nutzung, üblicherweise auf der Kommandozeile mit Pythonskripten. Es gibt auch GUIs, die sind dann oft vom Betriebssystem abhängig. Es gibt faster-whisper als standalone, was aber auch auf der Kommandozeile genutzt wird. Zumindest muss man da nicht die ganzen Python-Bibliotheken installieren.
 
Zuletzt bearbeitet:
| Mein Blickwinkel: Offen für Fremdeinflüsse. Wichtig ist mir, alles in seinem Kontext zu belassen und authentische Lehren zu schützen. Gleichzeitig ist mein Denken vernetzt und ich schreibe gerne in meinen eigenen Worten, was ich glaube, verstanden zu haben.
Mit PINOKIO kann man eine Whisper-UI installieren.


1705318639905.png
 
| Mein Blickwinkel: Offen für Fremdeinflüsse. Wichtig ist mir, alles in seinem Kontext zu belassen und authentische Lehren zu schützen. Gleichzeitig ist mein Denken vernetzt und ich schreibe gerne in meinen eigenen Worten, was ich glaube, verstanden zu haben.
Wir, MindfulPath und ich, haben das mit dem Transkribieren (Audio in Text umwandeln) jetzt mal ausprobiert, und zwar auf einem normalem Linux Rechner und nicht auf einem „Hochleistungsrechner“. Auf einem Windows Rechner wird es ähnlich funktionieren oder gibt es da Unterschiede? Dabei sind mithilfe der App „Wisper“ bei einem einstündigen Audio in Form eines Videovortrages 11 Min. Transkriptionszeit und 10 gedruckte A4-Seiten herausgekommen. War nicht das große Problem. Ich allerdings würde Hilfe bei der Einrichtung von Wisper benötigen.
Das lief auf einem etliche Jahre alten Laptop, der damals noch Gaming-Laptop genannt wurde. Heute aber einem normalem PC nicht das Wasser reichen könnte.

Ich habe das zwar verstanden ohne im Audio nachhören zu müssen, aber um so einen Text (mit Erlaubnis der Autorin) bei uns im Forum einstellen zu können, müsste wirklich fast jeder Satz hin zu einem vernünftigen Schriftdeutsch korrigiert werden und das wäre mir bei einem zehn-seitigen A4-Text einfach zu viel Arbeit. Außerdem hätte ich das Gefühl, dass wir einen Autor auch demütigen, wenn wir von ihm einen Text mit so unendlich vielen Rechtschreib- und Grammatikfehlern online stellen würden.
Das sehe ich auch so. Wenn man so eine frei gesprochene Rede wirklich Wort für Wort schriftlich vor sich sieht, kann's einem schon mal gruseln.
Und wenn man dann versuchen würde, das in einen verständlichen Text ohne Fehler umzuschreiben, wäre das nicht nur viel Arbeit, sondern man müsste viele Entscheidungen bzgl. der Änderungen treffen. Und ob der resultierende Text dem ursprünglichen Redner gefällt, sei mal dahingestellt.

Mein persönliches Fazit:
Für mich ist auch die unkorrigierte Transkription eine deutliche Erleichterung.
Um so eine Transkription hier ins Forum zu stellen, müsste man fast jeden Satz nachkorrigieren, was mir persönlich zu viel Arbeit wäre und man müsste natürlich auch die Erlaubnis des Autors einholen.
Jap, das ist auch meins, s. o.
 
Man kann auf einem schwächeren Rechner die kleineren Modelle verwenden. Whisper kann tiny bis large. Bei den kleinen Modellen ist aber die Qualität der Transkription meist eher schlecht, oft fehlen alle Satzzeichen usw. Man kann auch online bei OpenAI transkribieren, dann zahlt man pro Minute Material.
Ich habe das mit dem small-Model gemacht. Bis auf wenige Namen war das schon klasse. Inklusive der Satzzeichen.
 
Bei Large muss man in der Regel nur noch wenig bis gar nicht nachkorrigieren, kommt auf die Qualität der Aufnahme an und z. B. auch auf die Menge an Fachbegriffen z. B.
Das "Nachkorrigieren" bezieht sich eher auf den Inhalt.
Stell dir einen Satz wie diesen vor (der ist ausgedacht!):
Und wenn der Glocke Gong läutet, alle aufstehen und in die Außen gehen, you know?!

Zugegeben vielleicht etwas übertrieben. Jeder von uns versteht, was gemeint ist. Im Retreat würde niemand nachfragen. Aber will man (oder der Sprecher/die Sprecherin) wirklich so einen Satz in einem Forum lesen?

Das ist keine Apps, das sind Modelle. Es gibt verschiedene Arten der Nutzung, üblicherweise auf der Kommandozeile mit Pythonskripten. Es gibt auch GUIs, die sind dann oft vom Betriebssystem abhängig. Es gibt faster-whisper als standalone, was aber auch auf der Kommandozeile genutzt wird. Zumindest muss man da nicht die ganzen Python-Bibliotheken installieren.
ja, da gehen manchmal Begriffe durcheinander.
faster-whisper kannte ich noch nicht. Gucke ich mir mal an.
 
Zurück
Oben Unten