RISE Humanities Data Benchmark

Personnel Cards

Evaluates models' ability to transcribe and interpret personnel index cards of Swiss federal employees (1941–1961), containing typed and handwritten entries on job title, work location, pay grade, salary, and related notes in German and French.

Dataset Description Result Overview Test Runs

This benchmark has been run 92 times. It uses f1_micro metric.

Overview

Tested providers: openai, x-ai, anthropic, openrouter, genai, cohere, mistral, alibaba, scicore

Tested models: qwen/qwen3.5-9b, qwen3.5-27b, claude-sonnet-4-6, gpt-5.3-codex, gpt-5-nano, qwen/qwen3.5-122b-a10b, qwen/qwen3-vl-8b-thinking, gpt-5.4-2026-03-05, gemini-2.5-flash-lite-preview-09-2025, qwen3.5-plus-2026-02-15, mistral-medium-2505, gpt-4.1-nano, qwen35-397b-a17b-fp8, claude-opus-4-1-20250805, gemini-3-pro-preview, qwen/qwen3-vl-30b-a3b-instruct, gemini-3.1-flash-lite, gpt-4o, magistral-small-2509, gemini-2.5-flash-preview-09-2025, qwen/qwen3.5-plus-02-15, claude-sonnet-4-20250514, claude-opus-4-20250514, qwen/qwen3.7-plus, o3, ministral-14b-2512, gemini-3.5-flash, claude-sonnet-4-5-20250929, google/gemma-4-31b-it, grok-4.3, mistral-medium-3.5, google/gemma-4-26b-a4b-it, claude-haiku-4-5-20251001, mistral-large-2512, gemini-2.5-pro, qwen/qwen3-vl-8b-instruct, gemini-2.5-flash, claude-opus-4-6, grok-4.20-0309-reasoning, gpt-4o-mini, qwen3.5-flash-2026-02-23, gemini-2.5-flash-lite, command-a-vision-07-2025, gemini-2.0-flash-lite, qwen/qwen3.6-plus, qwen3.5-397b-a17b, pixtral-large-2411, meta-llama/llama-4-scout, qwen/qwen3.5-397b-a17b, gemini-3-flash-preview, mistral-medium-2508, stepfun/step-3.7-flash, qwen/qwen3.5-27b, claude-opus-4-5-20251101, claude-opus-4-7, mistral-large-2411, gpt-5.5-2026-04-23, gemini-2.0-flash, qwen/qwen3.5-35b-a3b, gpt-4.1-mini, qwen3.5-122b-a10b, gemini-3.1-pro-preview, gpt-5.2-2025-12-11, magistral-medium-2509, claude-sonnet-5, qwen/qwen3.5-flash-02-23, gpt-5-mini, ministral-8b-2512, claude-fable-5, x-ai/grok-4, gemini-3.1-flash-lite-preview, qwen3.5-35b-a3b, claude-opus-4-8, meta-llama/llama-4-maverick, gpt-5, gpt-4.1, mistral-small-2506, gpt-5.1-2025-11-13

Last 5 Runs

Score	Date	Provider	Model
91.34	5 days ago	anthropic	claude-fable-5
55.26	6 days ago	anthropic	claude-sonnet-5
90.99	1 week ago	genai	gemini-3.1-flash-lite
98.17	2 weeks ago	scicore	qwen35-397b-a17b-fp8
95.37	4 weeks ago	x-ai	grok-4.3

All test runs

Contributors

Role	Contributors
Domain expert	tabea_wullschleger
Data curator	tabea_wullschleger
Annotator	tabea_wullschleger
Analyst	Maximilian Hindermann, tabea_wullschleger
Engineer	Maximilian Hindermann

Benchmark Results

Personnel Cards