HydraBench Leaderboard

Scenarios

460

Total Runs

Frameworks

Claims Tested

Scores 0-100. Frameworks scoring 0 lack the capability entirely. Statistical method: 5 runs per scenario, mean +/- std dev. Wilcoxon signed-rank (p < 0.05) for pairwise comparison.