Steven Bellens 25.06.2025
Bron: https://lichess.org/@/Vlad_G92/blog/fide-ratings-revisited/BN89yF7d, met dank aan Helmut Froeyman voor het delen.
De auteur van dit artikel is Vlad_G92 (Lichess Account). We hebben het artikel gekopieerd naar onze blog omdat we denken dat het ook erg relevant is voor de Belgische schaakgemeenschap.
Bieden ze een volledig beeld of zijn er nog verbeteringen mogelijk?
Ik bekijk de recente wijzigingen van de FIDE-rating opnieuw en onderzoek of het Elo-systeem het schaken nog steeds effectief dient. Met gegevens van maart 2024 tot juni 2025 laat ik zien hoe de wereldwijde deflatie, de volatiliteit onder de junioren en de mismatches tussen de federaties de tekortkomingen van het systeem blootleggen. De starheid van het systeem in een snel evoluerend schaaklandschap vraagt om statistische modernisering. Laten we eens uitpakken wat de cijfers onthullen.
Het veronderstelde publiek bestaat uit schaakhobbyisten, toernooispelers en FIDE-belanghebbenden. Wat basiswiskunde en statistieken zullen helpen, maar geen diepe duiken in formules, dat beloof ik. Als je naar een bepaald onderdeel wilt gaan, is hier het overzicht:
Vorig jaar, toen de veranderingen nog in de kinderschoenen stonden, onderzocht ik de effecten van het nieuwe ratingbeleid van de FIDE en de bredere implicaties van de aanpassingen binnen het standaard Elo-kader. Dat artikel, ‘FIDE Rating Changes: Are They Working So Far?”, deed de wenkbrauwen fronsen en leverde 5 volle pagina’s commentaar op, samen met bijna 20.000 views op Lichess! Sindsdien is de schaakkalender in een stroomversnelling geraakt. Nieuwe spelers stromen toe waar federaties in schaken investeren. Het aantal Norm-toernooien neemt toe op plaatsen die ooit als onbereikbaar werden beschouwd, terwijl Europese openingen aantrekkelijk worden voor degenen die thuis niet de kans hebben om tegen zo’n gevarieerd aanbod van hooggeplaatste spelers te spelen. Ondertussen blijft het beoordelingssysteem van de FIDE rigide en onverschillig cijfers produceren.
Het FIDE-ratingsysteem, gebaseerd op de Elo-formule, was revolutionair voor die tijd. Maar in een schaakwereld die wordt gevormd door hyperactiviteit, mondiale mobiliteit en asymmetrische toegang tot toernooien, begint het te wankelen. Dit artikel onderzoekt opnieuw hoe goed het Elo raamwerk het moderne schaakecosysteem dient en waar het faalt.
Toen de FIDE in 1970 de Elo invoerde, weerspiegelden de schaakratings een andere wereld. De eerste gepubliceerde lijst in 1971 bevatte slechts 592 spelers, allemaal met een rating boven de 2200. Fischer voerde de lijst aan. Fischer voerde de lijst aan en de veronderstelling was simpel: alleen serieuze, vaardige spelers zouden FIDE-ratings aanvragen of zich ervoor kwalificeren. Deze veronderstelling bepaalde alles. De ondergrens van 2200 was niet willekeurig! Het weerspiegelde de realiteit dat gewone spelers eenvoudigweg niet deelnamen aan evenementen met FIDE-rating. Het systeem werkte omdat het een homogene groep bediende met relatief vergelijkbare competitieve omgevingen.
Toen werd schaken gedemocratiseerd. Meer toernooien, bredere toegang, jongere deelnemers. De ratingvloer moest omlaag om deze groei op te vangen:
Elke verandering probeerde een evenwicht te vinden tussen inclusie en ratingintegriteit, maar creëerde nieuwe problemen. Het verlagen van de rating bracht zwakkere spelers binnen en verdunde de pool, waardoor de hele verdeling kunstmatig naar beneden werd verplaatst, niet door een afname van de schaakvaardigheid.
De evolutie van de K-factor vertelt een vergelijkbaar verhaal. Oorspronkelijk was het systeem conservatief (K=15-25), maar na verloop van tijd werd het onstabieler. De huidige K=40 voor nieuwe spelers weerspiegelt de wanhoop om ratings sneller “in te halen”, maar zorgt voor instabiliteit als ervaren spelers tegenover nieuwkomers komen te staan. Ondertussen bleef de FIDE de publicatiefrequentie versnellen, van jaarlijkse lijsten in de jaren 70 tot maandelijkse updates in 2012. Frequentere updates betekenden meer volatiliteit en meer mogelijkheden voor ratingmanipulatie.
De hervormingen van 2024 zijn de laatste pleister: een eenmalige ratingverhoging voor spelers onder de 2000, herstel van de rekenlimiet van 400 punten en een nieuwe initiële ratingmethode. Elke verandering bestrijdt symptomen terwijl de onderliggende wanverhouding tussen de aannames van Elo en de moderne schaakrealiteit blijft bestaan. Het patroon is duidelijk: reactieve oplossingen voor fundamentele incompatibiliteit. Elo ging uit van een stabiele en homogene spelersgroep. Het hedendaagse schaken kent een massale deelname, geografische diversiteit en spelers variërend van gelegenheids-hobbyisten tot professionals van wereldklasse, allemaal in hetzelfde classificatiesysteem.
Het verhogen of verlagen van de laagste rating heeft niet alleen invloed op beginners. Het comprimeert het hele beoordelingsspectrum, waardoor onderscheid wordt weggedrukt en de opwaartse mobiliteit voor ambitieuze spelers wordt beperkt. Hoewel de veranderingen aan de ratingbodem meer spelers in het systeem konden opnemen, had het een negatieve invloed op spelers met hogere aspiraties voor titels.
Ik vond een sombere herinnering daaraan, en impliciet aan mijn eigen titelaspiraties, vorige week toen ik rondkeek op het sociale mediaplatform X. De gebruiker Gutsy Gambit plaatste het volgende screenshot, waarin de distributies van actieve spelers in juni 2015 en juni 2025 naast elkaar werden vergeleken. De vergelijking zette me ertoe aan om dieper op onderzoek uit te gaan en deze follow-up te schrijven.
Zelfs terwijl het aantal actieve spelers is gestegen, zijn de ratings boven de 2000 Elo gestaag gedaald – niet door afnemende vaardigheden, maar door systematische fouten. Dus misschien is het tijd om de pleister eraf te trekken in plaats van de boel om de paar jaar op te lappen?
Op het moment van dit schrijven (juni 2025) is dit wat de ratingverdeling heeft gedaan sinds maart 2024:
Belangrijkste trend: Steeds meer spelers clusteren rond de 1500
Let op de opstapeling bij 1400: dit is een artefact van de vloerregel, geen echte vaardigheid van de speler.
Per maand komen er ~3.500 nieuwe spelers met een standaard rating bij, maar de gemiddelde rating blijft dalen.
De gemiddelde rating daalt met ~1 Elo/maand, ondanks een groeiende deelname.
Uit deze gegevens komen drie patronen naar voren:
Universele deflatie. Zelfs elitespelers (top 1%) laten dalende beoordelingen zien, wat wijst op systematische problemen in plaats van een afname van vaardigheden.
Verdelingsveranderingen. De onderliggende verdeling wordt schever en met een scherpere piek.
Demografische verschuiving. Spelers onder de 1600 domineren nu de actieve populatie, waardoor het rating-ecosysteem fundamenteel verandert.
Dit is geen achteruitgang in prestaties, het is structurele compressie. Het Elo-systeem vlakt complexiteit af tot eenvoud, maar daarmee vlakt het ook zijn eigen geldigheid af. Het reageert te langzaam op snel verbeterende spelers en te zwak op structurele asymmetrieën zoals geografische en economische verschillen. En hoewel het nog steeds goed werkt voor elite stabiliteit, lijdt het grootste deel van het schaakecosysteem onder zijn starheid. Aspirant-spelers hebben grotere hindernissen op hun weg naar de top en casual spelers lijden onder een systeem dat tegen hen is.
In de afgelopen meer dan 20 jaar lijken sommige maatregelen van de FIDE noodoplossingen, geen allesomvattende oplossingen voor de lange termijn. Met name onder de top van de FIDE is er een wijdverbreid geloof dat het Elo-systeem de enige acceptabele oplossing is voor spelers om hun eigen eisen voor het scoren van titelnormen te kunnen berekenen. Hoewel ik geen onmiddellijke actie verwacht, hoop ik dat mijn punten hier overtuigend genoeg zijn om tot enige reflectie en interne discussie te leiden. Als ik kan helpen bij zulke discussies, neem ik graag deel.
Drie factoren bepalen de toename in activiteit:
Als we aannemen dat 2021 het eerste jaar was waarin de OTB-schaakactiviteit weer serieus werd hervat, kunnen we het aantal gespeelde partijen in dit interval bekijken, vergelijken met de niveaus van vóór de pandemie en ook een voorspelling doen voor de toekomstige groei. Ik heb ervoor gekozen om het jaar 2020 helemaal weg te laten uit de visualisatie, omdat het een duidelijke uitschieter is, met een bijna wereldwijde uitschakeling van het schaken.
Hoewel de stijgende trend na de pandemie een beetje begint af te vlakken, zullen we tegen het einde van 2025 nog steeds de 3,5 miljoen spellen overschrijden. Het herstel is niet minder dan indrukwekkend geweest, met 2024 als het meest actieve jaar in de geschiedenis, dat samenviel met de viering van het honderdjarig bestaan van de FIDE.
Op pagina 8 van zijn aanvullende rapport introduceerde statisticus Jeff Sonas een segmentatie in 3 vakken op basis van leeftijd. Ik zal die visualisatie hier opnieuw weergeven, met de verdelingen van de kijkcijfers van april 2023 (vóór de compressie!).
Voor het smalle interval maart-december 2024 kan ik bevestigen dat deze segmentatie geschikt is als we kijken naar het effect van gespeelde wedstrijden op de rating van een speler.
Ondanks de andere kleurcodering dan in de grafiek van Sonas, is de relatie logisch:
Als je liever kijkt naar meer granulaire leeftijdsgroepen, gescheiden in rating-bins, dan is hier die analyse, van maart 2024 tot juni 2025:
Als ik er inmiddels in geslaagd ben om lezers ervan te overtuigen dat jonge spelers het gevaarlijkst zijn om tegen te spelen (omdat ze zo onderschat worden!), dan zou dat zeer herkenbaar moeten zijn voor actieve OTB-spelers. De pijn van verliezen van een onderschatte junior is maar al te reëel. In februari van dit jaar verloor ik nog van een 9-jarige jongen van Ivanchuk’s Academy in Oekraïne. Hij overspeelde me van begin tot eind en liet geen grammetje tegenspel over. Wil je zijn rating raden? Natuurlijk was het 1674…
De grafiek hierboven illustreert wat ik beschouw als de grootste uitdaging voor de FIDE in de komende jaren: het oplossen van de enorme verschillen in ratingvaliditeit, of het elimineren van draaikolken van ratinginflatie/deflatie die zich concentreren in specifieke landen.
Methodologie: Ik heb de FIDE- en URS-ratings vergeleken voor spelers die in beide systemen voorkomen, waarbij ik me heb gericht op federaties met meer dan 500 spelers om statistische significantie te garanderen. Als je wilt verwijzen naar een eerdere discussie over waarom ik het URS systeem een goede validator vind en vaak een betere indicator van ware speelsterkte, verwijs dan naar dit artikel.
De resultaten laten systematische geografische vertekeningen zien. Denemarken laat de grootste overschatting zien (gemiddeld 162 punten), terwijl Sri Lanka de grootste onderschatting laat zien (gemiddeld 227 punten). Dit is geen toeval, maar weerspiegelt fundamenteel verschillende competitieve omgevingen.
Een speler met een rating van 1800 in Sri Lanka en een speler met een rating van 1800 in Denemarken delen misschien een nummer, maar geen vaardigheidsniveau. Dit wordt weerspiegeld in hun URS-ratings, maar Elo is hier volledig naïef in. Dit is geen geïsoleerde mismatch. Het is de norm wanneer federaties met leeggelopen poules die met opgeblazen poules ontmoeten en Elo kan het op geen enkele manier weten.
De statische K-factor en de aanname van één rating hebben het moeilijk in deze dynamische omgeving met spelers van verschillende bonden die zich mengen in open evenementen. Toch was het bovenstaande voorbeeld slechts een gedachte-experiment. In de echte wereld gebeurt dit vaker dan voorheen bij grote Zwitserse toernooien, waar de vermenging van federaties de junioren uit ondergewaardeerde landen een enorme stimulans biedt om mee te doen en rating te “farmen” van hun nietsvermoedende tegenstanders. Een typisch voorbeeld is het Sunway Sitges toernooi in Spanje, dat vaak veel jeugddeelnemers uit India aantrekt. Hier is een screenshot van Sunway Sitges 2024:
Van de ~20 Indiase spelers met een rating onder de 2000 presteerde er slechts één – Adarsh D – onder hun startrang en eindigde lager. Dit komt overeen met de overtuiging dat Indiase amateurspelers vaak meer ondergewaardeerd zijn dan hun professionele tegenhangers (anekdotisch gezien presteerden veel van de 2000+ spelers in het screenshot hierboven onder hun rating!), en heeft geleid tot een nieuw fenomeen waarbij gevestigde Europese spelers vaak toernooien vermijden uit angst om gekoppeld te worden aan deze extreem ondergewaardeerde tegenstanders. De discussie moet echter niet beperkt blijven tot India alleen. Federaties uit Centraal-Azië, zoals Kazachstan en Oezbekistan, hebben ook een breed scala aan extreem getalenteerde junioren, waarbij Kazachstan onlangs bijzonder goed scoorde in Wereld Jeugdkampioenschappen en meer delegaties naar Europa stuurde voor deze verbeterde kansen.
Deze systemische druk van leeggelopen poules die zich nu beginnen te vermengen met opgeblazen poules zorgt voor een daling van het deelnamepercentage van gedesillusioneerde spelers en heeft een rimpeleffect in de hele FIDE-omgeving. Ik ben ervan overtuigd dat als we deze ongelijkheden eenmaal hebben opgelost (door welke ingreep dan ook!), toernooien eerlijker zullen zijn, een betere deelname zullen hebben en zullen leiden tot een snellere groei van OTB-schaak wereldwijd.
David Smerdon, een bekende grootmeester en assistent-professor economie aan de Universiteit van Queensland herhaalt deze geografische ongelijkheid en legt er een ander accent op: “Het is geen kwestie van leeftijd, maar van te weinig FIDE-toernooien. Armere federaties hebben meer kans op verlaagde ratings omdat het indienen van FIDE-toernooien duur is. Er is dus een correlatie tussen het BBP van een land en de inflatie van ratings, wat sommigen misschien problematisch vinden.”
Hoewel ik het ermee eens ben dat er een verband is tussen het BBP van een land en de inflatie van de kijkcijfers, denk ik dat verdere analyse zoals multivariate regressie nodig is om vast te stellen welke factoren domineren. Wat we tot nu toe wel weten is dat een groot percentage actieve jeugdspelers in een federatie vaak leidt tot een gedefleerde pool in dat land.
Uit het onderste diagram blijkt dat tieners in 2024 meer FIDE-gerangschikte partijen hebben gespeeld dan hun vertegenwoordiging. Dit is een trend die na de pandemie is versneld en die heel relevant is omdat het een “K-factor asymmetrie” in de pool introduceert. Als er vaak sprake is van vermenging tussen asymmetrische K-factoren (bijvoorbeeld iemand met K=40 tegenover iemand met K=20), dan verwachten we dat de jeugdspelers met een lagere rating een inflatoire druk in het systeem toevoegen wanneer ze winnen, door dubbele ratingpunten te onttrekken aan hun meer gevestigde tegenstanders. En hier komt de clou: zelfs met alle aanpassingen en deze asymmetrie is de deflatie nog steeds niet verdwenen! Dit suggereert dat of de meer gevestigde spelers overpresteren wanneer ze tegen junioren spelen (nauwelijks!), of dat er diepere problemen zijn met de Elo-formule.
Een systeem dat tientallen jaren geleden is ontworpen voor topspelers die strijden in elitetoernooien, gaat ervan uit dat alle spelers onder gelijke omstandigheden strijden. Het houdt geen rekening met regionale verschillen, economische ongelijkheid of ongelijke toegang tot toernooien. Het houdt nauwelijks rekening met ongelijke wedstrijden waar spelers meer dan 400 punten van elkaar verwijderd zijn. De gevolgen? Wijdverspreide ratingvervormingen en oneerlijkheid.
Dit artikel heeft zowel de symptomen (wereldwijde deflatie, geografische ratingverschillen, volatiliteit onder invloed van de jeugd) als de onderliggende oorzaken laten zien. De belangrijkste aannames van Elo komen niet meer overeen met de schaakrealiteit. Het systeem is ontworpen toen alleen elitespelers meededen: een kleine, gemotiveerde groep met een ruwweg normale vaardigheidsverdeling en waarvan alle ratings geclusterd waren in een interval van 200-300 punten.
De huidige schaakwereld is anders. We hebben casual spelers naast professionals. Dit zorgt voor een verdeling met een ‘lange staart’ waar de vaardigheidskloven veel groter zijn dan Elo verwacht. De aanname van een symmetrische, logistische verdeling wordt in twijfel getrokken door een meer realistische modellering via een log-normale verdeling.
Het zijn botte instrumenten. Snel stijgende spelers blijven steken. Dalende spelers blijven te lang hangen. Een betere maatstaf zou een contextafhankelijke volatiliteitsparameter zijn. Te lang inactief? Er is geen zekerheid dat je beoordeling zinvol is. Dit is waar zoiets als het Glicko systeem (geïmplementeerd in USCF en online platforms) goed tot zijn recht komt. Het past de K-factoren aan via een continuüm van mogelijkheden.
Elo corrigeert niet voor regionale inflatie of deflatie en houdt ook geen rekening met verschillen in toernooien of federaties. Een 1900 in Denemarken en een 1900 in Sri Lanka? Volgens URS-ratings dag en nacht. Elo ziet geen verschil!
Schaken is geëvolueerd sinds 1970. Het beoordelingssysteem niet.
We concurreren nu in een wereld van open toernooien en mondiale mobiliteit. Toch vertrouwt de FIDE nog steeds op een systeem dat gebouwd is voor gesloten, round-robin evenementen tussen nationale elites. Dat systeem was revolutionair in zijn tijd. Vandaag de dag vertoont het zijn barsten. De recente veranderingen van de FIDE: de eenmalige sub-2000 aanpassing, de herinvoering van de 400-puntenregel, de verhoging van de rating naar 1400, zijn allemaal oprechte pogingen om verlichting te brengen. Maar ze blijven reactief en fundamenteel gebonden aan een verouderende kernaanname: dat Elo goed genoeg is.
We hoeven niet het hele systeem af te branden. Maar het wordt tijd dat we iets bouwen dat past bij de hedendaagse schaakwereld, met een aantal belangrijke ingrediënten zoals:
Het zal niet eenvoudig zijn om Elo te vervangen. Het zit ingebakken in onze titelsystemen en onze historische lijsten. Maar als we waarde hechten aan nauwkeurigheid, eerlijkheid en volledige objectiviteit van het classificatiesysteem, zijn we het aan onszelf verplicht om de dingen dieper te analyseren. Hoe lang kan een modern spel draaien op een ouderwets algoritme?
De schaakwereld is veranderd. Vandaag de dag zijn onze klokken digitaal en onze partijen online. Onze analyses gaan dieper dan ooit tevoren met Stockfish en Leela, waarbij gebruik wordt gemaakt van krachtige neurale netwerken en algoritmen voor machinaal leren. Toch lopen onze beoordelingen nog steeds achter. Als we willen dat eerlijkheid gelijke tred houdt met de vooruitgang, is het tijd om te moderniseren en niet dezelfde formule te gebruiken als in 1970.
Mijn belangrijkste suggestie is dat de FIDE begint met het bijhouden van URS-ratings en deze prominent op de pagina van elke speler weergeeft voor een periode van ~1 jaar voor een uitgebreide evaluatie. In de toekomst zou het wenselijk kunnen zijn om een algoritme van het type Glicko-2 parallel uit te voeren.
Dankbetuigingen: Ik wil graag Walter Wolf, Jeff Sonas, Ken Regan en Mark Glickman bedanken voor hun artikelen, die als nuttige inspiratie dienden. Dank aan David Smerdon, Mark Crowther en vele anderen voor hun interactie op sociale platforms. Ook een grote shout-out naar Chessdom en hun redactie voor het publiceren van een deel van mijn materiaal aan een breder publiek.
Dit artikel werd oorspronkelijk 24 juni gepubliceerd op mijn persoonlijke Substack. Dit is een verbeterde versie voor meer duidelijkheid en focus.
Steven Bellens 30.04.2025 10
Zoals velen hebben gezien, heeft de FIDE gisteren (04.05.2025) een nieuwe ranglijst gepubliceerd waarin de correctie van de onjuiste resultaten…
Lees meerDeze pagina legt de verschillen uit tussen het internationale FIDE-ratingsysteem en ons eigen nationale ELO-berekeningssysteem. Er wordt ook gekeken naar onze buurlanden en samenvattende informatie gegeven over hun systemen en manier van werken.
Lees meerSteven Bellens 27.10.2024 4
Hier is interessant leesvoer met een analyse van de eerste 7 maanden na de wijzigingen in de FIDE-rating.
Lees meerSteven Bellens 13.09.2024 1
In onze enquête van april gaf een meerderheid van de respondenten aan de voorkeur te geven aan een uniform wereldwijd ratingsysteem (FIDE). Om beide systemen goed te begrijpen, starten we deze serie artikelen. Dit is het laatste van vier artikelen waarin de arbitervereisten worden uitgelegd.
Lees meer