paperarXivTrust 82 · PrimaryPublished 2d agoLive · 21h ago

Clinician-Level Agreement Without Clinical Caution: LLM Evaluator Limits in Medical AI Benchmarking

Open-response evaluation provides stronger clinical validity than multiple-choice benchmarks but creates a scoring bottleneck that motivates automated LLM-asa-Judge approaches. Whether such evaluators replicate clinical calibration and caution, however, remains untested. We introduce MedQADE, the first standardised open-response clinical benchmark for German, a major clinical language lacking native evaluation infrastructure, comprising 3,800 items annotated by ten practising physicians and nine Large Language Model (LLM) evaluators. The top-performing evaluator model, Gemini 3 Flash, reached

Lineage graph

Paper → model → repo connections mined from source citations (Tier-1 exact match).

Why these links exist

Linked via arxiv authorWilliam Philipp →
Clinician-Level Agreement Without Clinical Caution: LLM Evaluator Limits in Medical AI Benchmarking
Linked via arxiv authorFinn Fassbender →
Clinician-Level Agreement Without Clinical Caution: LLM Evaluator Limits in Medical AI Benchmarking
Linked via arxiv authorThorsten Langer →
Clinician-Level Agreement Without Clinical Caution: LLM Evaluator Limits in Medical AI Benchmarking
Linked via arxiv authorMartje Pauly →
Clinician-Level Agreement Without Clinical Caution: LLM Evaluator Limits in Medical AI Benchmarking
Linked via arxiv authorRebecca Herzog →
Clinician-Level Agreement Without Clinical Caution: LLM Evaluator Limits in Medical AI Benchmarking
Linked via arxiv authorAlexander Baumann →
Clinician-Level Agreement Without Clinical Caution: LLM Evaluator Limits in Medical AI Benchmarking
Linked via arxiv authorMarkus Hobert →
Clinician-Level Agreement Without Clinical Caution: LLM Evaluator Limits in Medical AI Benchmarking
Linked via arxiv authorTheresa Paulus →
Clinician-Level Agreement Without Clinical Caution: LLM Evaluator Limits in Medical AI Benchmarking
Linked via arxiv authorIp Chi Wang →
Clinician-Level Agreement Without Clinical Caution: LLM Evaluator Limits in Medical AI Benchmarking
Linked via arxiv authorLukas Goede →
Clinician-Level Agreement Without Clinical Caution: LLM Evaluator Limits in Medical AI Benchmarking
Linked via arxiv authorJohanna Reimer →
Clinician-Level Agreement Without Clinical Caution: LLM Evaluator Limits in Medical AI Benchmarking
Linked via arxiv authorSebastian Löns →
Clinician-Level Agreement Without Clinical Caution: LLM Evaluator Limits in Medical AI Benchmarking
Linked via arxiv authorRonald Böck →
Clinician-Level Agreement Without Clinical Caution: LLM Evaluator Limits in Medical AI Benchmarking
Linked via arxiv authorSebastian Fudickar →
Clinician-Level Agreement Without Clinical Caution: LLM Evaluator Limits in Medical AI Benchmarking

Covers

newsTowards AI-augmented decision making in psychiatry newsIntroducing GeneBench-Pro

Explains

tutorialEvaluate a model properly

authored (incoming)

personWilliam Philipp personFinn Fassbender personThorsten Langer personMartje Pauly personRebecca Herzog personAlexander Baumann personMarkus Hobert personTheresa Paulus personIp Chi Wang personLukas Goede personJohanna Reimer personSebastian Löns personRonald Böck personSebastian Fudickar

Covers (incoming)

newsCo-pilot, Not Autopilot: A Practical Method for Using Large Language Models in Interventional Cardiology - EMJ

Related across the graph

personWilliam Philipp personSebastian Fudickar personMarkus Hobert personTheresa Paulus personFinn Fassbender personRebecca Herzog personJohanna Reimer personLukas Goede personRonald Böck newsTowards AI-augmented decision making in psychiatry personThorsten Langer personMartje Pauly personSebastian Löns personIp Chi Wang tutorialEvaluate a model properly personAlexander Baumann newsIntroducing GeneBench-Pro newsCo-pilot, Not Autopilot: A Practical Method for Using Large Language Models in Interventional Cardiology - EMJ

Topics

cs.CL