RISE Humanities Data Benchmark

Book Advert XML files (malformed) from Avisblatt

Dataset Description Result Overview Test Runs

This benchmark has been run 131 times. It uses fuzzy metric.

Overview

Tested providers: openai, x-ai, anthropic, openrouter, genai, deepseek, mistral, alibaba, scicore

Tested models: qwen/qwen3.5-9b, qwen3.5-27b, claude-sonnet-4-6, gpt-5.3-codex, gpt-5-nano, deepseek-chat, qwen/qwen3.5-122b-a10b, qwen/qwen3-vl-8b-thinking, deepseek-v4-flash, gemini-2.5-flash-lite-preview-09-2025, gpt-5.4-2026-03-05, qwen3.5-plus-2026-02-15, mistral-medium-2505, gpt-4.1-nano, qwen35-397b-a17b-fp8, claude-opus-4-1-20250805, gemini-3-pro-preview, deepseek-v4-pro, GLM-4.5V-FP8, qwen/qwen3-vl-30b-a3b-instruct, gemini-3.1-flash-lite, gpt-4o, magistral-small-2509, gemini-2.5-flash-preview-09-2025, qwen/qwen3.5-plus-02-15, claude-sonnet-4-20250514, claude-opus-4-20250514, qwen/qwen3.7-plus, o3, ministral-14b-2512, gemini-3.5-flash, claude-3-opus-20240229, claude-sonnet-4-5-20250929, google/gemma-4-31b-it, grok-4.3, mistral-medium-3.5, google/gemma-4-26b-a4b-it, qwen3-235b-fp8, claude-haiku-4-5-20251001, mistral-large-2512, gemini-2.5-pro, qwen/qwen3-vl-8b-instruct, deepseek-reasoner, gemini-2.5-flash, claude-opus-4-6, grok-4.20-0309-reasoning, gpt-4o-mini, qwen3.5-flash-2026-02-23, gemini-2.5-flash-lite, gemini-2.0-flash-lite, qwen/qwen3.6-plus, qwen3.5-397b-a17b, pixtral-large-2411, meta-llama/llama-4-scout, qwen/qwen3.5-397b-a17b, gemini-3-flash-preview, mistral-medium-2508, stepfun/step-3.7-flash, qwen/qwen3.5-27b, claude-opus-4-5-20251101, claude-opus-4-7, mistral-large-2411, gpt-5.5-2026-04-23, pixtral-12b, claude-3-7-sonnet-20250219, gemini-2.0-flash, qwen/qwen3.5-35b-a3b, gpt-4.1-mini, qwen3.5-122b-a10b, gemini-3.1-pro-preview, gpt-5.2-2025-12-11, magistral-medium-2509, claude-sonnet-5, qwen/qwen3.5-flash-02-23, gpt-5-mini, ministral-8b-2512, claude-fable-5, x-ai/grok-4, gemini-3.1-flash-lite-preview, qwen3.5-35b-a3b, claude-opus-4-8, meta-llama/llama-4-maverick, gpt-5, gpt-4.1, mistral-small-2506, gpt-5.1-2025-11-13

Last 5 Runs

Score	Date	Provider	Model
97.90	5 days ago	anthropic	claude-fable-5
96.57	6 days ago	anthropic	claude-sonnet-5
96.36	1 week ago	genai	gemini-3.1-flash-lite
95.78	2 weeks ago	scicore	qwen35-397b-a17b-fp8
98.60	4 weeks ago	x-ai	grok-4.3

All test runs

Contributors

Role	Contributors
Domain expert	Ina Serif
Data curator	Sorin Marti

Benchmark Results

Book Advert XML files (malformed) from Avisblatt