Mindent a versenyről
A Dataracing 2023 versenyen a hazai lakosság hitelállományának elemzésére nyílik lehetőséged különféle data science eszközökkel. A megoldandó üzleti probléma a hitel bedőlésének előrejelzése körül forog. Ha egy hitel bedől, az azt jelenti, hogy a hitel felvevője (az adós) nem képes időben vagy egyáltalán visszafizetni a tartozását a hitelező pénzintézetnek. A data science megoldások létrehozásához szükséges anonimizált adatokat a verseny egyik társszervezője, a Magyar Nemzeti Bank biztosította.
Az adatelemzési cél, hogy hitelek adatainak vizsgálatával becslést adjunk arra, hogy melyik hitelfelvevőnek milyen valószínűséggel lesz legalább egy elbukott hitele a közeljövőben.
Mennyire jelezhető előre a múltbeli adatokból egy-egy hitel bedőlésének valószínűsége?
Hogyan befolyásolja a hitelek bedőlését a hitelhez köthető személyek száma?
Milyen elemzési trükkök vethetők be egy ilyen adathalmaz esetén?
Mely algoritmusok a legalkalmasabbak a feladat megoldása során?
Ilyen és ehhez hasonló kérdésekre keressük a választ.
Hogyan tudok csatlakozni?
- Regisztrálj a verseny platformján, olvasd el és fogadd el a verseny szabályait.
- Töltsd le hiteladatokat tartalmazó adathalmazt és beküldési mintaadatot.
- Ötletelj, dolgozz ki egy megoldást a célváltozó előrejelzésére.
- Formázd a megoldásod a mintamegoldás szerint.
- Küldd be a megoldásod a verseny platformján.
- Javíts a megoldásodon a verseny végéig, majd vidd haza a főnyereményt!
A verseny során használt adatokról
A verseny kiinduló adathalmaza az összes lakossági hitel adatait tartalmazza egy közel három éves időszakból. Az adathalmaz anonimizált és torzított. Ismert a hitel összege, kamatperiódusa, típusa, törlesztőrészlete és még sok más egyéb adat is. Minden hiteltermékhez ismert, hogy mely ügyfelek vették azt fel, egy hitelt természetesen akár több szereplő együttesen is felvehet – ebben az esetben a kiinduló adathalmazban több sorban is szerepel majd a hitel csak más-más hitelfelvevői adattal.
Minden sorban az is megjelenik, hogy bedőlt-e a hitel az adott közel hároméves időszak alatt vagy sem. Ugyanígy ismert lesz az az esemény is, ha az adott hitelt előtörlesztették. A bedőlés, előtörlesztés ténye mellett mindig megadásra kerül, hogy az esemény mikor történt.
A különleges data science versenyfeladat megoldása során arra vagyunk kíváncsiak, hogy azon ügyfelek, akiknek a három éves időszak alatt nincsen bedőlt hitele, továbbra is fizetni tudják-e a hiteleiket, vagy lesz-e olyan hitelük, amit már nem tudnak fizetni és jelentős késedelembe kerülnek vele. A következő két év bedőlési eseményeit kívánjuk vizsgálni. A feladat különlegességét az adja, hogy ebből az időszakból semmilyen adatot nem bocsátunk a résztvevők rendelkezésére, az előrejelzést a közel három éves kiinduló adathalmaz felhasználásával kell létrehozni.
Segítségül két dolgot adunk meg a résztvevőknek: a példamegoldásban látható az összes olyan szereplő, akikre becslést kell adni. Valamint a példamegoldásban megadtunk egy fix valószínűségi értéket, ami a teljes beküldési adathalmazon azon ügyfelek aránya, akiknek legalább egy késedelmes hitelük volt a célváltozót meghatározó időszakban.
Kiértékelés
A versenyen az nyer, aki a legpontosabban tudja előrejelezni hogy vajon lesz-e a következő időszakban bedőlő hitele az egyes hitelfelvevőknek. A célváltozó tehát egy bináris érték, a résztvevőktől egy a bedőlt hitellel rendelkezés valószínűségét kifejező értéket várunk.
A megoldásfájlnak tartalmaznia kell az az összes olyan ügyfélazonosítót, akinek a kiindulási adathalmazon van hitele de még egyik sem dőlt be, valamint az azonosító mellett a predikciót leíró [0,1] intervallumra eső becsléseket. Az egyes megoldásfájlokat a versenyplatform kiértékeli, és az elért eredményt megjeleníti az ún. leaderboardon, ahol a versenyzők más versenyzőkkel összemérhetik magukat. A Leaderboard megmutatja az egyes versenyzők adott pillanatban elért legjobb eredményét.
A verseny során a résztvevők folyamatosan fejleszthetik a megoldásukat és több megoldásfájlt is beküldhetnek. Naponta maximum 10 megoldás tölthető fel. Gazdálkodj okosan a beküldések számával, különösen a verseny záró napjain.
A versenyre beküldött megoldások (.csv fájlok) kiértékelését a versenyplatform végzi. A kiértékelésre a logloss metrikát használjuk. A versenyen az a jobb megoldás, melynek ez az értéke kisebb.
A kiértékelés két fázisban történik, ugyanis a tesztadatok egy részét elkülönítettük a végső kiértékeléshez. A tesztadatok egy véletlen részén kapott logloss értéke nyilvános, az így kapott értékek megjelennek a mindenki által látható nyilvános Leaderboardon. A tesztadatok elkülönített második véletlen részén kapott eredményeket viszont csak a verseny szervezője láthatja a verseny privát Leaderboardján. A versenyben az nyer, aki ezen a privát Leaderboardon éri el a legjobb eredményt. Más szóval a nyilvános Leaderboardon elért helyezésed nem feltétlenül felel meg a valós, versenyen ténylegesen elért helyezésednek. A verseny zárultával a privát Leaderboard is publikálásra kerül. Hasonló módon a kétfajta Leaderboard megakadályozza, hogy a beküldött eredmények elemzéséből a versenyző olyan extra információkat emeljen ki, ami a tesztadathalmaz célváltozó értékeinek felfedéséhez vezetne.
A nyilvános, mindenki által látható Leaderboardon elért eredmények tehát tájékoztató jellegűek, nem feltétlenül adják vissza a versenyzők tényleges sorrendjét.
Határidők
A verseny egyfordulós.
- A verseny indulása: 2023. október 27.
- A megoldások beadásának végső határideje: 2023. december 3. 12:00
- A nyertesek értesítése: 2023. december 4. 12:00-ig
- A nyertes megoldások bemutatása: 2023. december 4. – december 6.
- Végső eredményhirdetés: 2023. december 12.
Díjak
A privát leaderboard első három helyezettje pénzjutalomban részesül. Az összdíjazás bruttó keretösszege 6 millió forint, melyet a Budapesti Műszaki Egyetem fizet ki a díjazottaknak. A keretből a helyezettek az alábbi arányban részesülnek:
- Az első helyezett díja nettó 1.560.000 Forint (a díjkeret 42%-a).
- A második helyezett díja nettó 937.000 Forint (a díjkeret 25%-a).
- A harmadik helyezett díja nettó 625.000 Forint (a díjkeret 16,5%-a).
- Továbbá kiosztásra kerül egy különdíj is, melynek díja nettó 625.000 Forint (a díjkeret 16,5%-a).
A kiértékelési metrikában kialakuló holtverseny esetén a korábban beadott megoldás a nyertes.
A díjazás feltétele, hogy a versenyző reprodukálni tudja a beküldött megoldását és megossza a verseny szervezőivel a használt forráskódot, fájlt. Ezek vizsgálata során bizonyosodnak meg a szervezők, hogy a résztvevő nem használt nem megengedett eszközöket, adatokat vagy módszereket.
A különdíj az egyetemisták által beküldött legjobb megoldásért kerül kiosztásra. A különdíjra csak nappali tagozatos, magyarországi egyetemek hallgatói jogosultak (Ezt a díj átvétele előtt igazolni szükséges).
Fontos, hogy a különdíjért indulóknak a beküldésnél megadható team nevét ‘uni_’ előtaggal kell ellátniuk. Ezzel lehetővé téve, hogy a leaderboardon mindenki számára látható legyen kik között megy a verseny a különdíjért.
Magatartási kódex
A versenyre való regisztrációval és részvétellel a versenyzők elfogadják és magukra érvényesnek tekintik az alábbi szabályokat, valamint a regisztráció során megismert hivatalos versenyszabályzatot:
- Résztvevőként csak egyszer regisztrálhatok a versenyre. A megoldás elkészítéséhez dolgozhatok csapatban másokkal együtt, viszont díjazás esetén egyedül én leszek feltüntetve és díjazva a versenyben.
- A megoldáshoz használt forráskódjaimat, fájlokat a verseny időtartama alatt nem osztom meg más versenyzőkkel. A megoldáshoz használt forráskódjaimat, fájlokat a verseny időtartama alatt nem osztom meg publikusan sem.
- A megoldásomat úgy készítem el, hogy annak eredménye a szervezők kérésére újra lefuttatható, reprodukálható legyen. Vállalom, hogy a forráskódot, fájlokat kérésre megosztom a verseny szervezőivel.
- Elfogadom, hogy a versenyhez csak kereskedelmi forgalomban lévő, vagy nyilvánosan elérhető szoftvereket, programnyelveket használok.
- Elfogadom, hogy a verseny során velem megosztott adatokat, információkat semmilyen platformon nem osztom meg, nem másolom vagy publikálom.
- Elfogadom, hogy a versenyadatokat (tanító és teszthalmaz) csak a versenyen való részvételhez, megoldások beküldéséhez használhatom fel. Beleegyezem, hogy a versenyadatok bármilyen lehetséges kiszivárgásáról, vagy illetéktelenek hozzáféréséről a verseny szervezőit azonnal értesítem a hello@dataracing.hu e-mail címen.
- Elfogadom, hogy a versenyben a megoldásaim a teszthalmaz privát és publikus részén külön lesznek kiértékelve és a nyilvános Leaderboardon a verseny alatt csak egy hozzávetőleges helyezést láthatok. Elfogadom, hogy a versenyen elért eredményeim a beküldött megoldásaim a teszthalmaz nem nyilvános részén való kiértékeléséből jönnek létre.
- Elfogadom, hogy a verseny szervezői a versennyel kapcsolatos információkról, a versenyen elért eredményemről a regisztrációkor megadott e-mail címen értesítsenek.
- Ha a versenyhez külső forrásból vett adatokat vonok be, elfogadom, hogy ezen adatok csak publikusan hozzáférhető adatok lehetnek és a megoldás fájljaimban pontosan megjelölöm ezen külső adatok forrását.
- Elfogadom, hogy amennyiben valamelyik nyertesként az erre vonatkozó értesítő e-mailre nem reagálok egy héten belül, vagy nem szeretnék a potenciális nyertesek között szerepelni, akkor potenciális nyertesként nem illet meg díjazás. Ilyen esetben elfogadom, hogy a verseny szervezői az eredmények alapján más potenciális nyerteseket díjazzanak. Ha potenciális nyertesként a beküldött megoldásomat nem tudom reprodukálni, és/vagy nem osztom meg a szervezőkkel a kért forráskódjaimat a kért határidőig, akkor elfogadom, hogy nem illet meg díjazás és a verseny szervezői más versenyzőket díjazhatnak.
- Elfogadom, hogy a versenyszabályzat bárminemű megsértése, doppingvétség, csalás esetén a verseny szervezői kizárhatnak a versenyből és ha potenciális nyertes vagyok, nem illet meg díjazás.
Kérdésed van?
Fusd át először az alábbi listát, hátha megleled a választ. Ha mégsem, akkor írj nekünk a hello@dataracing.hu email címre.
1. Ki indulhat a versenyen?
Ha betöltötted a 18. életévedet 2022. március 1-jén és magyar állampolgár vagy, akkor indulhatsz a versenyen. Mindegy, hogy hallgató vagy, vagy szakmabeli, tiéd a lehetőség.
2. Szeretnék részt venni, mit tegyek?
- Regisztrálj a verseny platformján, olvasd el és fogadd el a verseny szabályait.
- Töltsd le a tanító és a teszthalmazt.
- Ötletelj, dolgozz ki egy megoldást a célváltozó előrejelzésére.
- Formázd a megoldásod a mintamegoldás szerint.
- Küldd be a megoldásod.
- Javíts a megoldásodon, majd vidd haza a főnyereményt!
3. Hogyan küldhetek be megoldást?
A versenyplatformon való regisztráció után a Submit menüpontra kattintva tudsz egy megoldásfájlt (.csv) feltölteni az oldalra. Javasoljuk, hogy használd a mintamegoldás fájlt arra, hogy ellenőrizd a megoldásod beküldésének formai követelményeit. Előfordulhat, hogy a számítógéped nyelvi beállításai miatt a tizedestörtek törtrészének kezdetét vesszővel jelölöd, ezt javítsd pontra. Hasonlóan a beküldendő csv fájl elválasztó karaktere legyen vessző és ne pontosvessző.
A megoldásod sikeres beküldése után a megoldásaid listájában látod a tesztadatok publikus részén elért eredményed. A beküldött megoldásaid közül a legjobb megjelenik a Leaderboardon is.
4. Mi a probléma a megoldásommal?
Ha a megoldás beküldésekor vagy utána hibaüzenetet kapsz, előfordulhat, hogy a beküldött fájl nem felel meg a formai követelményeknek. Minden esetben ellenőrizd a megoldásfájlodat és a formátumát a mintamegoldás alapján. Mi okozhatja a problémát?
- Kevesebb vagy több sor beküldése
- Azonosítók többszöri előfordulása
- Több oszlop beküldése
- Helytelen tizedestört kezdetét jelző karakterek
- Helytelen szeparátor használata
Ha akkor is hibát észlelsz, ha a mintamegoldás fájlt töltöd fel a versenyplatformra, vedd fel velünk a kapcsolatot a hello@dataracing.hu e-mail címen.
5. Csapatban indulhatunk?
Nem, csak egyénileg versenyezhetsz.
6. Milyen technológiákat használhatok a megoldásom elkészítéséhez?
A versenyen való részvételhez és a megoldás beküldéséhez bármilyen nyilvánosan hozzáférhető, reprodukálható megoldást nyújtó technológia használható. A verseny végén a díjazáshoz követelmény, hogy a versenyző az elért eredményt reprodukálni tudja és a forrásfájlokat, kódokat megossza a verseny szervezőivel. Az eredmény tehát készülhet bármilyen programnyelven fejlesztett megoldással (pl. Python, R stb.), amelyben tetszőleges publikus függvénykönyvtár használható, valamint készülhet nyilvánosan elérhető, kereskedelmi forgalomban lévő adatelemző szoftverekkel is. Ha kérdésesnek érzed, hogy az általad választott technológia használható-e, vedd fel velünk a kapcsolatot a hello@dataracing.hu e-mail címen.
7. Mit jelent, hogy a megoldásomnak reprodukálhatónak kell lennie?
A verseny végén a díjazáshoz követelmény, hogy a versenyző az elért eredményt reprodukálni tudja és a forrásfájlokat, kódokat megossza a verseny szervezőivel. A reprodukálhatóság azt jelenti, hogy a megoldást újra lefuttatva pontosan ugyanazt az eredményt éri el a versenyző mind a publikus és a privát Leaderboardon is. A reprodukálhatósághoz kérjük, hogy a használt random paramétereket minden esetben fixáld. Ilyen random paraméterre példa a python sklearn csomag számos gépi tanulási modelljének random_state paramétere.
8. Milyen egyéb szabályok vonatkoznak a versenyre?
A részletes versenyszabályzatot az alábbi oldalon tudod elolvasni. A versenyre való jelentkezéssel elfogadod ezeket a szabályokat.