RISE Humanities Data Benchmark

Business Letters

Tests models on extracting structured metadata from historical correspondence, including person names, organizations, dates, locations, and other contextual information from 20th century Swiss historical letters.

Dataset Description Result Overview Test Runs

This benchmark has been run 479 times. It uses f1_macro metric.

Overview

Tested providers: openai, x-ai, anthropic, openrouter, genai, mistral, alibaba, scicore

Tested models: qwen/qwen3.5-9b, qwen3.5-27b, claude-sonnet-4-6, gpt-4.5-preview, gpt-5.3-codex, gpt-5-nano, qwen/qwen3.5-122b-a10b, qwen/qwen3-vl-8b-thinking, claude-3-5-sonnet-20241022, gpt-5.4-2026-03-05, gemini-2.5-flash-lite-preview-09-2025, qwen3.5-plus-2026-02-15, mistral-medium-2505, gpt-4.1-nano, qwen35-397b-a17b-fp8, claude-opus-4-1-20250805, gemini-3-pro-preview, GLM-4.5V-FP8, qwen/qwen3-vl-30b-a3b-instruct, gemini-3.1-flash-lite, gpt-4o, magistral-small-2509, gemini-1.5-pro, gemini-2.5-flash-preview-09-2025, qwen/qwen3.5-plus-02-15, claude-sonnet-4-20250514, claude-opus-4-20250514, qwen/qwen3.7-plus, o3, ministral-14b-2512, gemini-3.5-flash, claude-3-opus-20240229, claude-sonnet-4-5-20250929, google/gemma-4-31b-it, grok-4.3, mistral-medium-3.5, google/gemma-4-26b-a4b-it, claude-haiku-4-5-20251001, mistral-large-2512, gemini-2.5-pro, qwen/qwen3-vl-8b-instruct, gemini-2.5-flash, claude-opus-4-6, grok-4.20-0309-reasoning, gpt-4o-mini, qwen3.5-flash-2026-02-23, gemini-2.5-flash-lite, gemini-2.0-flash-lite, qwen/qwen3.6-plus, qwen3.5-397b-a17b, pixtral-large-2411, meta-llama/llama-4-scout, qwen/qwen3.5-397b-a17b, gemini-3-flash-preview, mistral-medium-2508, stepfun/step-3.7-flash, qwen/qwen3.5-27b, claude-opus-4-5-20251101, claude-opus-4-7, mistral-large-2411, gpt-5.5-2026-04-23, pixtral-12b, claude-3-7-sonnet-20250219, gemini-2.0-flash, qwen/qwen3.5-35b-a3b, gpt-4.1-mini, qwen3.5-122b-a10b, gemini-3.1-pro-preview, gpt-5.2-2025-12-11, magistral-medium-2509, claude-sonnet-5, qwen/qwen3.5-flash-02-23, gpt-5-mini, ministral-8b-2512, claude-fable-5, gemini-1.5-flash, gemini-exp-1206, x-ai/grok-4, gemini-3.1-flash-lite-preview, qwen3.5-35b-a3b, claude-opus-4-8, gemini-2.0-pro-exp-02-05, meta-llama/llama-4-maverick, gpt-5, gpt-4.1, mistral-small-2506, gpt-5.1-2025-11-13, gemini-2.5-pro-exp-03-25

Last 5 Runs

Score	Date	Provider	Model
64.00	5 days ago	anthropic	claude-fable-5
54.00	5 days ago	anthropic	claude-fable-5
59.00	5 days ago	anthropic	claude-fable-5
60.00	6 days ago	anthropic	claude-sonnet-5
51.00	6 days ago	anthropic	claude-sonnet-5

All test runs

Contributors

Role	Contributors
Domain expert	Eric Decker, Maximilian Hindermann, Lea Kasper
Data curator	Anthea Alberto, Eric Decker, Maximilian Hindermann
Annotator	Anthea Alberto, Eric Decker, Pema Frick, Maximilian Hindermann, Lea Kasper, José Luis Losada Palenzuela, Sorin Marti, Elena Spadini
Analyst	Maximilian Hindermann
Engineer	Maximilian Hindermann

Benchmark Results

Business Letters