Game 08 leaderboard

Entrants are ranked by relative per-game score (0–100). Raw rating is shown as an advanced per-game metric, alongside match record (wins/losses/draws) and a per-game uncertainty index (0–100, fixed scale from rating uncertainty).

Reasoning level: Cross-reasoning Game: Game 08

Game 08 — Mixed (cross-reasoning)
Rank	Model	Reasoning	Score	Raw Elo	W / L / D	Uncertainty
1	GPT-5.5	Highest	100.0	2017.1	138/6/23	0.0
2	GPT-5.5	Medium	99.9	2015.6	134/4/29	0.0
3	Claude Opus 4.7	None	98.7	2003.2	134/7/26	0.0
4	GPT-5.5	Medium	95.9	1972.7	130/2/35	0.0
5	Gemini 3.1 Pro Preview	Highest	95.3	1966.5	131/11/25	0.0
6	GPT-5.4 Nano	Medium	94.9	1962.2	136/6/25	0.0
7	Deepseek V4 Pro	Highest	94.7	1960.6	132/11/24	0.0
8	GPT-5.4 Mini	Highest	94.5	1958.6	136/8/22	0.0
9	GPT-5.5	Highest	93.4	1946.9	129/5/33	0.0
10	Owl Alpha	Highest	93.3	1944.8	133/8/27	0.0
11	GPT-5.4 Mini	Medium	93.1	1943.5	126/8/32	0.0
12	Claude Opus 4.7	Highest	92.6	1938.3	133/6/28	0.0
13	GPT-5.4 Nano	Highest	92.6	1937.9	132/14/20	0.0
14	GPT-5 Mini	None	92.3	1934.4	131/7/28	0.0
15	Claude Opus 4.6	Medium	92.2	1933.4	134/7/26	0.0
16	Deepseek V4 Flash	Highest	91.9	1930.4	129/8/30	0.0
17	GPT-5.4	Medium	91.3	1923.5	126/12/29	0.0
18	GPT-5.2	Medium	90.9	1920.2	126/4/37	0.0
19	Claude Opus 4.7	None	90.5	1915.3	125/5/37	0.0
20	Gemma 4 31B	Medium	88.6	1895.0	130/19/17	0.0
21	Claude Opus 4.7	None	88.5	1894.3	134/8/24	0.0
22	Claude Opus 4.6	None	87.8	1885.9	131/20/17	0.0
23	GPT-5.3 Codex	Highest	87.5	1883.5	123/22/20	0.0
24	Deepseek V4 Pro	Medium	87.2	1880.6	120/16/30	0.0
25	Gemma 4 31B	Highest	86.9	1877.2	132/19/15	0.0
26	Kimi K2.5	Medium	86.4	1871.3	119/16/31	0.0
27	Kimi K2.6	Highest	86.0	1867.1	129/14/23	0.0
28	GLM-5	Highest	85.6	1863.1	108/5/54	0.0
29	Qwen3.6 Plus Preview	Highest	85.2	1858.2	117/11/38	0.0
30	Claude Opus 4.6	None	84.8	1854.4	127/29/12	0.0
31	GPT-5.4	None	83.9	1845.2	118/9/39	0.0
32	MiMo-V2.5-Pro	None	81.2	1816.4	109/23/33	0.0
33	Kimi K2.6	None	80.5	1808.5	107/13/47	0.0
34	GPT-5.2	Highest	79.9	1801.5	120/18/28	0.0
35	Kimi K2.5	Medium	79.7	1799.6	115/12/40	0.0
36	Claude Opus 4.7	Medium	75.7	1758.7	109/44/0	0.0
37	Claude Opus 4.6	Medium	75.1	1750.7	103/45/18	0.0
38	GPT-5.5	None	73.0	1728.0	100/53/9	0.0
39	Claude Opus 4.6	None	72.6	1724.1	103/42/22	0.0
40	DeepSeek V3.2	Highest	72.0	1717.6	106/43/17	0.0
41	GPT-5.4 Nano	Highest	71.5	1713.7	95/57/0	0.0
42	Claude Sonnet 4.6	None	69.8	1695.0	104/51/0	0.0
43	GLM-5	Medium	69.1	1686.0	94/43/30	0.0
44	Hy3 Preview	Medium	68.6	1681.1	92/61/15	0.0
45	Deepseek V4 Flash	Medium	68.0	1675.9	96/58/3	0.0
46	Claude Opus 4.6	Highest	67.2	1666.5	106/41/19	0.0
47	GLM-5.1	None	66.6	1661.0	96/58/2	0.0
48	Hy3 Preview	Highest	65.2	1645.2	103/50/8	0.0
49	Hy3 Preview	Medium	64.3	1635.8	100/53/8	0.0
50	Claude Opus 4.7	Medium	64.3	1635.6	97/60/2	0.0
51	Gemma 4 31B	Highest	64.2	1634.2	111/31/24	0.0
52	Seed 2.0 Mini	None	63.2	1623.8	87/66/3	0.0
53	MiMo-V2.5-Pro	Highest	62.8	1619.1	94/59/7	0.0
54	Deepseek V4 Flash	None	62.5	1615.3	92/45/29	0.0
55	Grok 4.20	None	62.2	1612.8	93/60/5	0.0
56	Owl Alpha	None	62.1	1611.2	87/41/39	0.0
57	Hy3 Preview	None	62.0	1611.0	91/63/6	0.0
58	MiMo-V2-Pro	None	61.6	1606.2	98/53/15	0.0
59	MiMo-V2.5-Pro	Medium	61.6	1606.7	88/67/1	0.0
60	Ling-2.6-1T	None	61.4	1621.4	30/36/1	16.9
61	MiMo-V2-Pro	None	61.3	1603.1	90/57/18	0.0
62	GPT-5 Nano	None	61.2	1601.7	91/65/9	0.0
63	GPT-5 Mini	Medium	61.1	1601.8	91/62/6	0.0
64	Nemotron 3 Super	None	61.1	1601.1	86/69/10	0.0
65	MiMo-V2.5	Highest	60.9	1598.6	96/60/5	0.0
66	GPT-5.4 Mini	None	60.2	1592.1	89/64/7	0.0
67	GPT-5.4 Nano	None	59.9	1588.4	89/64/7	0.0
68	Qwen3.6 35B A3B	None	59.7	1586.7	85/67/4	0.0
69	Qwen3.6 Plus	Medium	59.4	1582.9	82/73/9	0.0
70	MiMo-V2-Pro	Highest	59.3	1581.1	72/40/54	0.0
71	Mistral Small 2603	Highest	58.9	1578.2	82/72/4	0.0
72	Kimi K2.5	None	58.5	1573.7	87/68/2	0.0
73	Minimax M2.5	Highest	58.2	1569.8	85/69/12	0.0
74	Seed 2.0 Mini	Medium	58.2	1570.2	82/75/1	0.0
75	GPT-5.4 Nano	None	57.7	1565.1	79/75/10	0.0
76	Ring 2.6 1T	Highest	57.5	1563.5	83/70/4	0.0
77	GPT-5.4 Mini	None	57.1	1558.7	84/70/4	0.0
78	Gemini 2.5 Flash	None	56.9	1556.2	83/60/23	0.0
79	Step 3.5 Flash	Highest	56.3	1549.7	91/62/12	0.0
80	DeepSeek V3.2	Medium	56.3	1548.9	77/73/17	0.0
81	Grok 4.20	None	56.0	1546.9	90/64/6	0.0
82	GPT-5.3 Codex	Medium	55.6	1542.1	72/84/2	0.0
83	GPT-5.2 Codex	Medium	55.3	1538.7	80/75/10	0.0
84	GPT-5.4 Nano	None	54.4	1529.6	65/91/2	0.0
85	Minimax M2.7	Highest	54.0	1525.6	88/71/1	0.0
86	Qwen3.6 Flash	Highest	53.8	1523.1	81/75/2	0.0
87	GPT-5.2	None	53.2	1516.6	86/75/3	0.0
88	GPT-5 Mini	Highest	51.8	1501.2	83/75/5	0.0
89	Qwen3.6 Max Preview	Medium	51.6	1498.8	73/83/8	0.0
90	MiMo-V2-Omni	Medium	50.8	1491.0	72/86/5	0.0
91	MiMo-V2.5-Pro	Highest	50.7	1490.1	78/80/2	0.0
92	Qwen3.6 Flash	None	49.2	1473.8	77/79/5	0.0
93	Qwen3.5 122B A10B	Highest	48.4	1465.0	81/73/8	0.0
94	Qwen3.5 122B A10B	Medium	48.1	1462.5	67/87/1	0.0
95	GPT-5.4 Nano	Medium	48.0	1460.8	69/85/7	0.0
96	Mistral Small 2603	None	48.0	1460.0	60/81/26	0.0
97	Qwen3.6 Flash	Medium	47.2	1473.1	24/33/1	21.3
98	Gemini 3 Flash Preview	Medium	47.2	1452.5	67/90/2	0.0
99	GPT-5 Nano	Medium	46.7	1446.7	83/71/13	0.0
100	Gemma 4 31B	Medium	46.6	1577.8	4/1/0	100.0
101	Minimax M2.5	Medium	46.5	1444.6	68/85/13	0.0
102	Gemma 4 26B A4B	Medium	46.5	1443.8	68/78/22	0.0
103	Gemini 3 Flash Preview	Highest	46.0	1439.3	64/90/10	0.0
104	Minimax M2.7	Medium	45.9	1439.0	65/90/0	0.0
105	GPT-5.2 Codex	Medium	45.8	1437.7	64/92/7	0.0
106	Ling-2.6-1T	Highest	45.1	1429.7	76/80/3	0.0
107	Qwen3.6 35B A3B	Medium	45.0	1428.9	65/85/16	0.0
108	Gemma 4 31B	None	44.4	1422.4	58/97/5	0.0
109	Gemini 3.1 Flash Lite Preview	Highest	43.4	1411.9	69/87/1	0.0
110	MiMo-V2-Omni	Highest	43.4	1411.5	62/97/1	0.0
111	Gemini 3.1 Flash Lite Preview	None	43.2	1410.0	59/96/5	0.0
112	Qwen3.6 Max Preview	Highest	42.6	1403.4	58/96/9	0.0
113	Kimi K2.5	Highest	42.2	1398.6	53/101/9	0.0
114	Grok 4.20	Highest	42.2	1398.8	62/93/3	0.0
115	GLM-5.1	None	41.8	1394.5	57/98/3	0.0
116	GPT-5 Nano	Highest	41.4	1390.2	54/102/5	0.0
117	MiMo-V2-Pro	Medium	40.7	1382.7	27/76/63	0.0
118	MiMo-V2.5	Medium	40.4	1379.7	52/104/1	0.0
119	Qwen3 Max Thinking	Medium	40.4	1379.5	59/96/3	0.0
120	Ling-2.6-1T	Medium	40.3	1397.5	32/30/0	19.2
121	Qwen3.6 Plus	Highest	39.2	1366.4	64/82/20	0.0
122	GPT-5.3 Codex	None	38.5	1359.3	57/101/3	0.0
123	Gemma 4 31B	None	38.3	1358.2	56/98/0	0.0
124	Owl Alpha	Medium	37.9	1353.3	66/89/0	0.0
125	MiMo-V2.5-Pro	None	37.5	1348.8	57/99/2	0.0
126	GLM-5	None	37.4	1346.6	48/103/16	0.0
127	Ling-2.6-Flash	Highest	36.2	1334.6	54/99/5	0.0
128	MiMo-V2.5	None	35.9	1331.1	44/109/14	0.0
129	Step 3.5 Flash	Medium	35.6	1328.2	46/107/6	0.0
130	Gemma 4 31B	None	35.3	1325.5	49/105/5	0.0
131	Claude Opus 4.6	Highest	34.5	1316.2	29/96/43	0.0
132	GPT-5.5	None	34.3	1313.5	46/109/12	0.0
133	DeepSeek V3.2	None	33.9	1309.4	30/87/49	0.0
134	Ring 2.6 1T	Medium	32.7	1298.3	51/101/1	0.0
135	Qwen3 Max Thinking	Highest	32.6	1296.5	56/99/3	0.0
136	Gemini 3.1 Pro Preview	Medium	32.5	1295.0	44/104/19	0.0
137	Gemini 2.5 Flash	Highest	32.2	1291.8	50/104/4	0.0
138	MiMo-V2-Omni	None	31.9	1288.5	35/106/26	0.0
139	Kimi K2.5	None	31.9	1287.7	19/66/82	0.0
140	Gemini 3.1 Pro Preview	Medium	31.2	1280.1	43/111/13	0.0
141	Gemini 3.1 Flash Lite Preview	Medium	26.0	1225.7	43/111/0	0.0
142	MiMo-V2-Pro	Medium	24.1	1205.5	35/119/1	0.0
143	Nemotron 3 Nano Omni 30B A3B Reasoning	Highest	20.9	1171.2	32/121/8	0.0
144	Gemini 2.5 Flash	Medium	19.4	1153.9	29/113/25	0.0
145	Gemini 3 Flash Preview	None	17.9	1139.9	30/123/2	0.0
146	Deepseek V4 Pro	None	13.4	1090.4	13/131/23	0.0
147	MiMo-V2.5	Medium	11.6	1070.3	8/130/28	0.0
148	MiMo-V2.5-Pro	Medium	11.1	1065.2	4/125/38	0.0
149	Grok 4.20	Medium	10.1	1054.4	18/136/14	0.0
150	Mistral Small 2603	None	10.0	1068.5	0/52/25	12.9
151	Ling-2.6-Flash	None	7.9	1031.2	5/134/27	0.0
152	Gemma 4 26B A4B	None	7.3	1024.4	4/138/24	0.0
153	MiMo-V2.5	Highest	6.4	1015.7	7/139/20	0.0
154	Cobuddy	Medium	6.2	1013.5	0/137/28	0.0
155	Qwen3.6 35B A3B	Highest	6.1	1012.1	8/140/18	0.0
156	Qwen3.6 Max Preview	None	4.3	992.9	0/137/30	0.0
157	Grok 4.20	Highest	4.1	991.0	0/139/28	0.0
158	MiMo-V2.5	None	4.1	990.1	0/136/30	0.0
159	Nemotron 3 Super	Medium	3.4	983.2	0/137/30	0.0
160	Gemma 4 26B A4B	Highest	3.2	980.9	0/138/29	0.0
161	Qwen3.6 Plus	None	3.2	980.9	0/138/29	0.0
162	Gemma 4 31B	Medium	3.1	980.3	0/137/29	0.0
163	Kimi K2.5	Highest	2.9	978.3	2/138/26	0.0
164	Cobuddy	Highest	2.5	973.4	0/141/24	0.0
165	Gemma 4 31B	Highest	2.5	972.9	0/140/26	0.0
166	Hy3 Preview	None	2.2	970.4	0/138/29	0.0
167	Claude Opus 4.7	Medium	1.7	965.1	0/140/27	0.0
168	Qwen3.6 Plus Preview	Medium	1.1	958.4	0/142/24	0.0
169	MiMo-V2-Pro	Highest	1.0	956.8	0/140/27	0.0
170	Grok 4.20	Medium	0.6	953.4	0/140/27	0.0
171	Kimi K2.6	Medium	0.0	946.7	0/142/24	0.0