RISE Humanities Data Benchmark

Magazine Pages - Anglo Swiss Trade Review

Examines a model's ability to extract bounding boxes of advertisements from magazine pages.

Dataset Description Result Overview Test Runs

This benchmark has been run 84 times. It uses f1 metric.

Overview

Tested providers: openai, x-ai, anthropic, openrouter, genai, mistral, alibaba, contour_local, scicore

Tested models: claude-opus-4-5-20251101, claude-opus-4-7, mistral-large-2411, qwen3.5-27b, qwen/qwen3.5-9b, gpt-5.5-2026-04-23, claude-sonnet-4-6, gpt-5.3-codex, qwen/qwen3.5-plus-02-15, gpt-5-nano, claude-sonnet-4-20250514, gemini-2.0-flash, qwen/qwen3.5-122b-a10b, qwen/qwen3.5-35b-a3b, gpt-4.1-mini, claude-opus-4-20250514, qwen/qwen3-vl-8b-thinking, qwen/qwen3.7-plus, claude-haiku-4-5-20251001, qwen3.5-122b-a10b, o3, gemini-3.1-pro-preview, gpt-5.2-2025-12-11, ministral-14b-2512, magistral-medium-2509, mistral-large-2512, claude-sonnet-5, gemini-2.5-pro, gpt-5.4-2026-03-05, gpt-5-mini, gemini-2.5-flash-lite-preview-09-2025, qwen/qwen3-vl-8b-instruct, qwen3.5-plus-2026-02-15, qwen/qwen3.5-flash-02-23, ministral-8b-2512, claude-opus-4-6, gemini-2.5-flash, grok-4.20-0309-reasoning, gpt-4.1-nano, mistral-medium-2505, gemini-3.5-flash, gpt-4o-mini, claude-fable-5, qwen3.5-flash-2026-02-23, claude-sonnet-4-5-20250929, gemini-2.5-flash-lite, opencv-contour, qwen35-397b-a17b-fp8, google/gemma-4-31b-it, gemini-2.0-flash-lite, claude-opus-4-1-20250805, gemini-3.1-flash-lite-preview, qwen3.5-35b-a3b, qwen3.5-397b-a17b, qwen/qwen3.6-plus, pixtral-large-2411, claude-opus-4-8, meta-llama/llama-4-scout, qwen/qwen3-vl-30b-a3b-instruct, grok-4.3, gemini-3.1-flash-lite, qwen/qwen3.5-397b-a17b, gpt-4o, mistral-medium-3.5, meta-llama/llama-4-maverick, gemini-3-flash-preview, magistral-small-2509, mistral-medium-2508, gpt-5, gpt-4.1, google/gemma-4-26b-a4b-it, stepfun/step-3.7-flash, mistral-small-2506, gpt-5.1-2025-11-13, qwen/qwen3.5-27b

Last 5 Runs

Score	Date	Provider	Model
96.00	5 days ago	anthropic	claude-fable-5
4.80	6 days ago	anthropic	claude-sonnet-5
0.00	1 week ago	genai	gemini-3.1-flash-lite
8.70	2 weeks ago	scicore	qwen35-397b-a17b-fp8
61.80	4 weeks ago	x-ai	grok-4.3

All test runs

Contributors

Role	Contributors
Domain expert	Lea Kasper
Data curator	Lea Kasper, Sorin Marti
Annotator	Lea Kasper, Sorin Marti
Analyst	arno_bosse
Engineer	Sorin Marti

Benchmark Results

Magazine Pages - Anglo Swiss Trade Review