Open Access Evaluation for AI-Law-Tools #11

usterna · 2026-04-09T14:07:02Z

usterna
Apr 9, 2026
Maintainer

Ausgangslage & Problemdiagnose
Mehr Rechtsfragen werden häufiger mit Hilfe einer rasant wachsenden Anzahl AI-Tools beantwortet. Für eine umfassende Evaluation der Antworten auf die Rechtsfragen und damit verschiedener AI-Tools fehlen jedoch insbesondere Einzelpersonen oder kleinen bis mittel-grossen Teams (z.B. regionalen Sozialhilfediensten oder Anwaltskanzleien) die Ressourcen und das Know-how.

Challenge
Gemeinsam erstellen wir ein öffentlich zugängliches Testdatenset mit Musterfragen und validierten Musterantworten unter Berücksichtigung der föderalistischen Besonderheiten des Schweizer Rechts. Das Testdatenset ist die Grundlage für die anschliessende Retrieval-Evaluation und Generation-Evaluation.

Team & Infrastruktur
Rechtsfragen stellen sich für alle Menschen (unabhängig ihrer juristischen oder Programmierkenntnisse): Daher können alle Interessierten mithelfen. IUS Chat wird als zentrales Arbeitstool bereitgestellt, da es Quellenangaben direkt ausweist und damit eine nachvollziehbare Evaluation von Retrieval und Generierung ermöglicht. Mit Label Studio werden gemäss den definierten Evaluations-Dimensionen verschiedene AI-Tools miteinander verglichen.

Attachments:
20260408_Challenge OLL.pdf

Sonstiges:
Verein Gerechter.ch

Velofisch · 2026-04-09T15:34:02Z

Velofisch
Apr 9, 2026

Bei entscheidsuche haben wir eine neue KI-embedding-basierte Suche gebaut und suchen nun nach Möglichkeiten der Evaluierung. Die Suche ist auf https://entscheidsuche-beta.pansoft.de/ zum Testen verfügbar.

1 reply

AuroreJenni Apr 10, 2026

Das angestrebte Testdatenset könnte m.E. auch für die Retrieval-seitige Evaluation bei entscheidsuche verwendet werden. Im Testdatensatz sollen Musterantworten inkl. der erwarteten, gerankten Quellendokumente erarbeitet werden. Damit könnte bei entscheidsuche.ch im Nachgang des OLL mit einem entsprechenden, technischen setup eine automatisierte Evaluation hinsichtlich der gängigen Metriken (hit, precision, recall, MRR, NDCG etc.) durchgeführt werden.
Am Hackathon selbst möchten wir Retrieval-Seitig die Kontextrelevanz (Sind die zurückgegebenen Dokumente inhaltlich relevant für die gestellte Frage?) und Kontextabdeckung (Enthalten die zurückgegebenen Dokumente gemeinsam alle Informationen, die für eine vollständige Antwort nötig wären?) mit der hilfe von Jurist:innen fachlich evaluieren. Der Fokus der Evaluation am Hackathon soll aber auf dem Generation-Teil liegen, da der Retrieval-Teil mit einem entsprechenden Datensatz gut automatisiert evaluiert werden kann.

derApollo · 2026-04-26T11:59:26Z

derApollo
Apr 26, 2026

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Open Access Evaluation for AI-Law-Tools #11

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 2 comments 1 reply

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

Open Access Evaluation for AI-Law-Tools #11

Uh oh!

Uh oh!

usterna Apr 9, 2026 Maintainer

Replies: 2 comments · 1 reply

Uh oh!

Velofisch Apr 9, 2026

Uh oh!

AuroreJenni Apr 10, 2026

Uh oh!

derApollo Apr 26, 2026

usterna
Apr 9, 2026
Maintainer

Replies: 2 comments 1 reply

Velofisch
Apr 9, 2026

derApollo
Apr 26, 2026