Leaderboard

Mixed (cross-reasoning)

Cross-reasoning variants stay separate from the official Overall leaderboard and are presented here as a secondary analysis slice.

Mixed cross-reasoning rows are separate from the Overall leaderboard. Scores still follow the same rule as the main table: average each row's relative per-game scores (0–100).

Top model: Claude Opus 4.7
Top score: 80.0
Gap to #2: 0.5 pts
Scope: 8 games

Charts for larger comparisons, richer model selection, and additional benchmark views.

Rankings

Leaderboard scores (mean relative per-game score, 0–100)

Showing top 24 of 146 benchmarked models (updates when chart loads)

Scale: relative 0-100

80.0
Claude Opus 4.7Highest
79.5
Deepseek V4 ProHighest
79.0
GPT-5.4Highest
74.2
Gemini 3.1 Pro PreviewHighest
70.6
GPT-5.5Medium
70.5
GPT-5.4None
69.0
GLM-5.1Highest
68.6
Claude Opus 4.7None
66.8
Kimi K2.6Highest
65.8
GPT-5.4 NanoHighest
65.0
Claude Opus 4.6Medium
63.2
GPT-5.2Medium
63.0
GPT-5.5Highest
62.9
GLM-5.1Medium
62.8
Claude Opus 4.6None
62.8
Kimi K2.6Medium
62.4
GPT-5.3 CodexHighest
61.3
GPT-5.2Highest
60.6
Kimi K2.5Medium
59.9
Claude Opus 4.6Highest
59.1
Hy3 PreviewHighest
58.8
Deepseek V4 ProMedium
58.5
Claude Opus 4.7Medium
58.2
GPT-5.2None

Models

Model family summary

One row per model and reasoning preset on this mixed track (mean and min–max when multiple runs exist for that pair). Cross-reasoning matches do not roll into Overall.

Track: Mixed (cross-reasoning) Games: 8

Mixed (cross-reasoning) leaderboard for DuelLab Benchmark
Rank	Model	Reasoning	Avg score	Min–Max	Entries
1	Claude Opus 4.7	Highest	80.0	48.8 – 99.3	7
2	Deepseek V4 Pro	Highest	79.5	60.4 – 94.7	7
3	GPT-5.4	Highest	79.0	65.7 – 100.0	16
4	Gemini 3.1 Pro Preview	Highest	74.2	51.8 – 95.3	11
5	GPT-5.5	Medium	70.6	34.6 – 97.9	16
6	GPT-5.4	None	70.5	30.9 – 90.1	12
7	GLM-5.1	Highest	69.0	51.4 – 87.3	7
8	Claude Opus 4.7	None	68.6	28.9 – 92.6	24
9	Kimi K2.6	Highest	66.8	27.7 – 97.6	8
10	GPT-5.4 Nano	Highest	65.8	32.5 – 82.1	20
11	Claude Opus 4.6	Medium	65.0	29.4 – 89.0	17
12	GPT-5.2	Medium	63.2	27.2 – 90.9	8
13	GPT-5.5	Highest	63.0	39.7 – 96.7	16
14	GLM-5.1	Medium	62.9	34.7 – 81.9	7
15	Claude Opus 4.6	None	62.8	23.3 – 81.7	23
16	Kimi K2.6	Medium	62.8	0.0 – 100.0	8
17	GPT-5.3 Codex	Highest	62.4	34.7 – 87.5	8
18	GPT-5.2	Highest	61.3	38.4 – 81.9	14
19	Kimi K2.5	Medium	60.6	27.4 – 83.0	15
20	Claude Opus 4.6	Highest	59.9	27.8 – 83.8	21
21	Hy3 Preview	Highest	59.1	27.3 – 86.4	14
22	Deepseek V4 Pro	Medium	58.8	31.0 – 87.2	7
23	Claude Opus 4.7	Medium	58.5	28.4 – 82.2	23
24	GPT-5.2	None	58.2	26.7 – 76.3	17
25	Claude Sonnet 4.6	None	57.5	33.3 – 70.9	15
26	Qwen3.6 Plus	Medium	57.1	28.8 – 88.7	8
27	GLM-5	Medium	56.3	25.5 – 80.5	7
28	GPT-5.5	None	56.0	25.0 – 77.1	16
29	GPT-5.4 Nano	Medium	55.9	22.7 – 77.8	14
30	GPT-5.4	Medium	55.8	30.4 – 91.3	7
31	Deepseek V4 Flash	Highest	55.5	21.3 – 91.9	8
32	Owl Alpha	Highest	54.9	24.8 – 93.3	8
33	Gemini 3.1 Pro Preview	Medium	54.5	26.6 – 81.0	14
34	GPT-5.3 Codex	Medium	53.7	23.6 – 75.7	8
35	Qwen3.6 Plus Preview	Highest	53.4	34.5 – 85.2	8
36	Qwen3 Max Thinking	None	53.2	37.4 – 68.9	10
37	MiMo-V2.5-Pro	Medium	52.6	24.9 – 83.4	16
38	GPT-5.4 Mini	Medium	52.6	24.4 – 93.1	12
39	Claude Sonnet 4.6	Medium	52.5	35.0 – 77.0	6
40	Claude Sonnet 4.6	Highest	51.8	27.6 – 75.9	6
41	GPT-5.2 Codex	Medium	51.6	23.5 – 81.0	12
42	MiMo-V2-Pro	None	51.3	22.5 – 80.5	18
43	Minimax M2.7	Highest	51.3	24.6 – 71.5	9
44	GPT-5 Mini	Medium	50.6	25.1 – 77.8	8
45	Ring 2.6 1T	Highest	50.4	5.6 – 85.8	6
46	Owl Alpha	None	50.2	26.5 – 66.2	7
47	GPT-5.4 Mini	Highest	50.1	20.6 – 94.5	9
48	MiMo-V2.5-Pro	Highest	50.0	23.2 – 72.0	16
49	GPT-5.3 Codex	None	50.0	26.5 – 85.3	23
50	Kimi K2.6	None	49.8	25.3 – 85.1	8
51	Gemma 4 31B	Highest	49.4	27.1 – 65.7	21
52	MiMo-V2.5-Pro	None	49.3	25.5 – 79.8	16
53	Qwen3 Max Thinking	Medium	48.9	22.8 – 60.0	8
54	GPT-5 Mini	None	48.7	16.3 – 92.3	19
55	Step 3.5 Flash	Highest	48.7	28.1 – 63.3	9
56	Deepseek V4 Flash	None	48.6	23.4 – 73.7	8
57	Qwen3.6 Max Preview	Medium	48.3	27.0 – 78.4	7
58	Trinity Large Preview	Medium	48.3	30.5 – 66.1	2
59	Deepseek V4 Flash	Medium	48.2	1.9 – 79.2	8
60	Kimi K2.5	Highest	47.9	22.6 – 67.3	15
61	Ling-2.6-1T	Highest	47.7	9.9 – 81.3	7
62	MiMo-V2-Omni	Medium	47.7	19.5 – 96.7	7
63	GPT-5.2 Codex	None	47.6	42.3 – 53.6	7
64	Gemini 3 Flash Preview	Medium	47.4	21.0 – 73.7	7
65	Qwen3 Max Thinking	Highest	47.1	18.9 – 77.1	9
66	MiMo-V2-Pro	Medium	47.1	25.0 – 100.0	15
67	DeepSeek V3.2	None	46.2	21.1 – 70.2	14
68	Gemini 3 Flash Preview	None	46.2	12.9 – 88.4	12
69	Mistral Small 2603	Medium	46.1	16.4 – 75.1	7
70	Gemma 4 26B A4B	Medium	46.0	21.4 – 65.0	8
71	Qwen3.6 Flash	None	45.7	9.5 – 55.8	6
72	Minimax M2.5	Medium	45.5	25.0 – 69.3	7
73	Qwen3.6 Plus	None	45.2	3.2 – 78.3	10
74	Deepseek V4 Pro	None	44.8	13.4 – 72.2	8
75	DeepSeek V3.2	Medium	44.7	23.7 – 69.3	8
76	MiMo-V2.5	None	44.5	20.0 – 73.7	16
77	GLM-5.1	None	44.5	15.2 – 88.3	15
78	Ling-2.6-1T	Medium	44.2	17.3 – 55.6	8
79	GPT-5 Mini	Highest	44.0	27.1 – 56.0	8
80	Owl Alpha	Medium	43.9	4.2 – 80.9	7
81	Qwen3.6 35B A3B	Medium	43.9	0.0 – 78.7	6
82	MiMo-V2-Pro	Highest	43.8	25.6 – 56.5	15
83	Qwen3.6 Flash	Medium	43.8	17.2 – 59.6	8
84	Minimax M2.5	Highest	43.6	21.8 – 69.2	7
85	GPT-5.4 Nano	None	43.4	14.2 – 75.9	14
86	Gemma 4 31B	Medium	43.4	26.2 – 78.9	22
87	Qwen3.6 35B A3B	None	43.4	22.3 – 63.6	6
88	Hy3 Preview	Medium	43.0	12.8 – 66.5	16
89	MiMo-V2.5	Highest	43.0	12.5 – 76.2	15
90	Qwen3.6 Max Preview	Highest	43.0	23.2 – 78.2	8
91	Ring 2.6 1T	Medium	42.9	9.3 – 61.1	7
92	Gemini 3.1 Flash Lite Preview	None	42.8	25.4 – 65.5	10
93	Step 3.5 Flash	Medium	42.7	23.5 – 63.0	8
94	Gemini 2.5 Flash	Medium	42.5	17.1 – 93.1	8
95	GLM-5	None	42.4	23.3 – 72.7	16
96	DeepSeek V3.2	Highest	42.3	15.6 – 72.0	7
97	Ling-2.6-1T	None	42.2	17.9 – 61.4	8
98	Nemotron 3 Super	Highest	41.8	16.6 – 68.8	6
99	GLM-5	Highest	41.8	12.3 – 85.6	7
100	Kimi K2.5	None	41.7	19.1 – 66.9	23
101	Qwen3.5 122B A10B	Medium	41.6	12.6 – 65.9	12
102	Gemini 2.5 Flash	Highest	41.5	16.2 – 68.5	8
103	MiMo-V2-Omni	None	41.5	22.3 – 63.7	11
104	MiMo-V2.5	Medium	41.4	25.7 – 52.9	16
105	Minimax M2.5	None	41.3	41.3	4
106	Qwen3.5 122B A10B	Highest	41.2	19.1 – 60.1	10
107	Gemini 2.5 Flash	None	41.2	17.1 – 66.8	7
108	Gemini 3 Flash Preview	Highest	41.1	15.9 – 68.8	7
109	Qwen3.6 Max Preview	None	41.0	4.3 – 77.9	8
110	Nemotron 3 Super	None	40.7	23.9 – 61.1	12
111	Grok 4.20	Highest	40.7	23.2 – 67.8	16
112	Qwen3.6 Plus	Highest	40.1	21.6 – 75.5	8
113	Gemma 4 26B A4B	Highest	39.9	3.2 – 92.8	7
114	Step 3.5 Flash	None	39.7	39.7	7
115	Qwen3.6 Plus Preview	Medium	39.3	1.1 – 73.6	8
116	Minimax M2.7	Medium	38.9	2.9 – 74.0	8
117	Mistral Small 2603	Highest	38.0	0.0 – 80.6	8
118	Grok 4.20	None	37.5	10.9 – 59.1	14
119	Seed 2.0 Mini	Medium	37.4	14.6 – 58.2	10
120	Gemma 4 31B	None	37.4	10.2 – 56.8	20
121	Grok 4.20	Medium	37.2	5.4 – 63.8	16
122	Qwen3.6 Flash	Highest	37.2	18.7 – 53.8	8
123	Gemini 3.1 Flash Lite Preview	Highest	36.9	23.1 – 53.6	7
124	GPT-5 Nano	None	36.7	21.6 – 61.2	22
125	Ling-2.6-Flash	None	36.1	7.9 – 76.5	7
126	Hy3 Preview	None	35.7	14.8 – 56.5	16
127	Mistral Small 2603	None	35.6	13.9 – 71.9	7
128	Qwen3.6 35B A3B	Highest	35.5	6.1 – 79.1	9
129	Ling-2.6-Flash	Medium	35.4	28.7 – 47.6	3
130	Trinity Large Preview	None	35.1	25.1 – 45.1	15
131	Seed 2.0 Mini	None	34.5	21.8 – 63.2	10
132	GPT-5 Nano	Highest	33.5	15.1 – 54.4	8
133	Gemini 3.1 Flash Lite Preview	Medium	33.0	14.5 – 52.9	7
134	Nemotron 3 Super	Medium	31.9	3.4 – 69.0	7
135	Nemotron 3 Nano Omni 30B A3B Reasoning	Highest	31.0	7.1 – 55.8	7
136	MiMo-V2-Omni	Highest	29.0	16.7 – 43.4	7
137	Cobuddy	Medium	28.7	0.0 – 57.5	5
138	Nemotron 3 Nano Omni 30B A3B Reasoning	Medium	27.6	16.1 – 39.1	2
139	Gemma 4 26B A4B	None	27.0	7.3 – 64.9	7
140	Cobuddy	Highest	26.8	0.0 – 70.7	7
141	Ling-2.6-Flash	Highest	26.6	20.6 – 36.2	5
142	GPT-5.4 Mini	None	26.4	0.0 – 58.7	9
143	GPT-5 Nano	Medium	25.2	8.1 – 49.9	8
144	Seed 2.0 Mini	Highest	24.5	24.5	1
145	Trinity Large Preview	Highest	23.4	12.5 – 34.3	2
146	Qwen3.5 122B A10B	None	21.0	5.0 – 37.0	10