Mindent a versenyről
A Dataracing 2022 versenyen hazai vállalatok adatainak elemzésére nyílik lehetőséged különféle data science eszközökkel. A megoldandó üzleti probléma a hazai vállalatok egy csoportjába tartozó cégek exportteljesítményének előrejelzése. A data science megoldások létrehozásához szükséges anonimizált adatokat a verseny egyik társszervezője, a Magyar Nemzeti Bank biztosította. Az adatelemzési cél, hogy az egyes cégek múltbeli beszámolókban megadott adatai, illetve egyéb statisztikái, mérőszámai alapján a versenyzők gépi tanulási eszközökkel előre jelezzék az egyes cégek következő évi exportból származó bevételeit.
Mennyire jelezhető előre az egyes cégek üzleti teljesítménye? Milyen szinten lehet becsülni a múltbeli adatok alapján a várható export értékét? Milyen elemzési trükkök vethetők be egy ilyen adathalmaz esetén? Mely algoritmusok a legalkalmasabbak a feladat megoldása során? Ilyen és ehhez hasonló kérdésekre keressük a választ.
Hogyan tudok csatlakozni?
- Regisztrálj a verseny platformján, olvasd el és fogadd el a verseny szabályait.
- Töltsd le a tanító és a teszthalmazt.
- Ötletelj, dolgozz ki egy megoldást a célváltozó előrejelzésére.
- Formázd a megoldásod a mintamegoldás szerint.
- Küldd be a megoldásod.
- Javíts a megoldásodon, majd vidd haza a főnyereményt!
A verseny során használt adatokról
A verseny során hazai vállalatok adatait elemezheted. Az adathalmazban több mint 30.000 hazai cég különféle tulajdonságait találod: a cégek székhelyétől kezdve egészen a létszám és árbevétel információkig. A versenyadatok nem publikusak, azokat a versenyen kívül megosztani, publikálni tilos. Az adathalmaz nem fedi le a teljes magyar cégállományt, valamint a benne található értékeket torzítottuk, hogy a cégek tényleges azonosítását megakadályozzuk.
Az adathalmazban egy sor egy céget reprezentál. A rendelkezésre álló értékek a 2014-2016 időszakban minden évben felvételre kerültek, ezt az időszakot teljes mértékben rendelkezésre bocsájtjuk. Az adathalmazban előfordulhat hiányzó érték, ennek kezelését a versenyzőre bízzuk.
A cél felügyelt gépi tanulási módszerek segítségével előre jelezni a cégek 2017-es exportforgalmát reprezentáló oszlop értékeit ezer Forintban.
A versenyen a célváltozó előrejelzéséhez elsősorban a publikált adathalmaz további oszlopait (bemenő változók) lehet használni. Lehetőség van külső adatok bevonására is, azonban ezen adatoknak minden esetben nyilvánosan hozzáférhető adatoknak kell lenniük.
Az adathalmazt két részre bontottuk: tanító és tesztadatokra. Mindkettő táblázatos struktúrában megjelenő adatban ugyanazon leíró változók szerepelnek, a tanító halmazban jelen van a célváltozó is, míg a teszthalmazból hiányzik. A cél, hogy a gépi tanulás eszközeivel a tanító adathalmazon felügyelt módon tanított modellekkel a teszthalmaz célváltozóját jelezzük előre.
Kiértékelés
A versenyen az nyer, aki a legpontosabban tudja előrejelezni a cégek exportból származó bevételét 2017-ben (célváltozó). Az előrejelzések, megoldások beküldéséhez regisztráció után egy csv fájlt kell feltölteni a verseny platformjára. A megoldásfájlnak tartalmaznia kell a teszthalmazban az egyes sorok azonosítóját, valamint a predikciót. Az egyes megoldásfájlokat a versenyplatform kiértékeli, és az elért eredményt megjeleníti az ún. Leaderboardon, ahol a versenyzők más versenyzőkkel összemérhetik magukat. A Leaderboard megmutatja az egyes versenyzők adott pillanatban elért legjobb eredményét.
A verseny során a résztvevők folyamatosan fejleszthetik a megoldásukat és több megoldásfájlt is beküldhetnek. Naponta maximum 10 megoldás küldhető be, gazdálkodj okosan a beküldések számával, különösen a verseny záró napjain.
A versenyre beküldött megoldások (.csv fájlok) kiértékelését a versenyplatform végzi. A kiértékelésre az átlagos abszolút hiba (Mean Absolute Error, MAE) metrikát használjuk. Azaz a megoldásban beadott cégek esetében kiszámoljuk a modelled által prediktált export érték és a valós export teljesítmény különbségét. Az összes cégre kiszámoljuk ezen különbség abszolútértékének átlagát. A versenyen az a jobb megoldás, melynek ez az értéke kisebb.
A kiértékelés két fázisban történik, ugyanis a tesztadatok egy részét elkülönítettük a végső kiértékeléshez. A tesztadatok egy véletlen részén kapott átlagos abszolút hiba értéke nyilvános, az így kapott értékek megjelennek a mindenki által látható nyilvános Leaderboardon. A tesztadatok elkülönített második véletlen részén kapott eredményeket viszont csak a verseny szervezője láthatja a verseny privát Leaderboardján. A versenyben az nyer, aki ezen a privát Leaderboardon éri el a legjobb eredményt. Más szóval a nyilvános Leaderboardon elért helyezésed nem feltétlenül felel meg a valós, versenyen ténylegesen elért helyezésednek. A verseny zárultával a privát Leaderboard is publikálásra kerül. Hasonló módon a kétfajta Leaderboard megakadályozza, hogy a beküldött eredmények elemzéséből a versenyző olyan extra információkat emeljen ki, ami a tesztadathalmaz célváltozó értékeinek felfedéséhez vezetne.
A nyilvános, mindenki által látható Leaderboardon elért eredmények tehát tájékoztató jellegűek, nem feltétlenül adják vissza a versenyzők tényleges sorrendjét.
Határidők
A verseny egyfordulós.
- A verseny indulása: 2022. április 11.
- A megoldások beadásának végső határideje: 2022. június 19. 12:00
- A nyertesek értesítése: 2022. június 24. 12:00-ig
- A nyertes megoldások bemutatása: 2022. június 27-30.
Díjak
A privát leaderboard első három helyezettje pénzjutalomban részesül. Az összdíjazás bruttó keretösszege 8.000.000 Ft, melyből a helyezettek az alábbi arányban részesülnek:
- Az első helyezett díja nettó 2.750.000 Forint.
- A második helyezett díja nettó 1.500.000 Forint.
- A harmadik helyezett díja nettó 750.000 Forint.
A kiértékelési metrikában kialakuló holtverseny esetén a korábban beadott megoldás a nyertes.
A nyerteseknek a megoldásaikról részletes leírást kell átadniuk.
Magatartási kódex
A versenyre való regisztrációval és részvétellel a versenyzők elfogadják és magukra érvényesnek tekintik az alábbi szabályokat, valamint a regisztráció során megismert hivatalos versenyszabályzatot:
- Résztvevőként csak egyszer regisztrálhatok a versenyre. A megoldás elkészítéséhez dolgozhatok csapatban másokkal együtt, viszont díjazás esetén egyedül én leszek feltüntetve és díjazva a versenyben.
- A megoldáshoz használt forráskódjaimat, fájlokat a verseny időtartama alatt nem osztom meg más versenyzőkkel. A megoldáshoz használt forráskódjaimat, fájlokat a verseny időtartama alatt nem osztom meg publikusan sem.
- A megoldásomat úgy készítem el, hogy annak eredménye a szervezők kérésére újra lefuttatható, reprodukálható legyen. Vállalom, hogy a forráskódot, fájlokat kérésre megosztom a verseny szervezőivel.
- Elfogadom, hogy a versenyhez csak kereskedelmi forgalomban lévő, vagy nyilvánosan elérhető szoftvereket, programnyelveket használok.
- Elfogadom, hogy a verseny során velem megosztott adatokat, információkat semmilyen platformon nem osztom meg, nem másolom vagy publikálom.
- Elfogadom, hogy a versenyadatokat (tanító és teszthalmaz) csak a versenyen való részvételhez, megoldások beküldéséhez használhatom fel. Beleegyezem, hogy a versenyadatok bármilyen lehetséges kiszivárgásáról, vagy illetéktelenek hozzáféréséről a verseny szervezőit azonnal értesítem a hello@dataracing.hu e-mail címen.
- Elfogadom, hogy a versenyben a megoldásaim a teszthalmaz privát és publikus részén külön lesznek kiértékelve és a nyilvános Leaderboardon a verseny alatt csak egy hozzávetőleges helyezést láthatok. Elfogadom, hogy a versenyen elért eredményeim a beküldött megoldásaim a teszthalmaz nem nyilvános részén való kiértékeléséből jönnek létre.
- Elfogadom, hogy a verseny szervezői a versennyel kapcsolatos információkról, a versenyen elért eredményemről a regisztrációkor megadott e-mail címen értesítsenek.
- Ha a versenyhez külső forrásból vett adatokat vonok be, elfogadom, hogy ezen adatok csak publikusan hozzáférhető adatok lehetnek és a megoldás fájljaimban pontosan megjelölöm ezen külső adatok forrását.
- Elfogadom, hogy amennyiben valamelyik nyertesként az erre vonatkozó értesítő e-mailre nem reagálok egy héten belül, vagy nem szeretnék a potenciális nyertesek között szerepelni, akkor potenciális nyertesként nem illet meg díjazás. Ilyen esetben elfogadom, hogy a verseny szervezői az eredmények alapján más potenciális nyerteseket díjazzanak. Ha potenciális nyertesként a beküldött megoldásomat nem tudom reprodukálni, és/vagy nem osztom meg a szervezőkkel a kért forráskódjaimat a kért határidőig, akkor elfogadom, hogy nem illet meg díjazás és a verseny szervezői más versenyzőket díjazhatnak.
- Elfogadom, hogy a versenyszabályzat bárminemű megsértése, doppingvétség, csalás esetén a verseny szervezői kizárhatnak a versenyből és ha potenciális nyertes vagyok, nem illet meg díjazás.
Kérdésed van?
Fusd át először az alábbi listát, hátha megleled a választ. Ha mégsem, akkor írj nekünk a hello@dataracing.hu email címre.
1. Ki indulhat a versenyen?
Ha betöltötted a 18. életévedet 2022. március 1-jén és magyar állampolgár vagy, akkor indulhatsz a versenyen. Mindegy, hogy hallgató vagy, vagy szakmabeli, tiéd a lehetőség.
2. Szeretnék részt venni, mit tegyek?
- Regisztrálj a verseny platformján, olvasd el és fogadd el a verseny szabályait.
- Töltsd le a tanító és a teszthalmazt.
- Ötletelj, dolgozz ki egy megoldást a célváltozó előrejelzésére.
- Formázd a megoldásod a mintamegoldás szerint.
- Küldd be a megoldásod.
- Javíts a megoldásodon, majd vidd haza a főnyereményt!
3. Hogyan küldhetek be megoldást?
A versenyplatformon való regisztráció után a Submit menüpontra kattintva tudsz egy megoldásfájlt (.csv) feltölteni az oldalra. Javasoljuk, hogy használd a mintamegoldás fájlt arra, hogy ellenőrizd a megoldásod beküldésének formai követelményeit. Előfordulhat, hogy a számítógéped nyelvi beállításai miatt a tizedestörtek törtrészének kezdetét vesszővel jelölöd, ezt javítsd pontra. Hasonlóan a beküldendő csv fájl elválasztó karaktere legyen vessző és ne pontosvessző.
A megoldásod sikeres beküldése után a megoldásaid listájában látod a tesztadatok publikus részén elért eredményed. A beküldött megoldásaid közül a legjobb megjelenik a Leaderboardon is.
4. Mi a probléma a megoldásommal?
Ha a megoldás beküldésekor vagy utána hibaüzenetet kapsz, előfordulhat, hogy a beküldött fájl nem felel meg a formai követelményeknek. Minden esetben ellenőrizd a megoldásfájlodat és a formátumát a mintamegoldás alapján.
- Kevesebb sor beküldése,
- több oszlop beküldése,
- helytelen tizedestört kezdetét jelző karakterek,
- rossz sorrendben beküldött cégazonosítók,
- a tesztadatokban nem szereplő cégazonosító
mind okozhatnak hibát. Ha akkor is hibát észlelsz, ha a mintamegoldás fájlt töltöd fel a versenyplatformra, vedd fel velünk a kapcsolatot a hello@dataracing.hu e-mail címen.
5. Csapatban indulhatunk?
A megoldás elkészítéséhez dolgozhatok csapatban másokkal együtt, viszont díjazás esetén egyedül én leszek feltüntetve és díjazva a versenyben.
6. Milyen technológiákat használhatok a megoldásom elkészítéséhez?
A versenyen való részvételhez és a megoldás beküldéséhez bármilyen nyilvánosan hozzáférhető, reprodukálható megoldást nyújtó technológia használható. A verseny végén a díjazáshoz követelmény, hogy a versenyző az elért eredményt reprodukálni tudja és a forrásfájlokat, kódokat megossza a verseny szervezőivel. Az eredmény tehát készülhet bármilyen programnyelven fejlesztett megoldással (pl. Python, R stb.), amelyben tetszőleges publikus függvénykönyvtár használható, valamint készülhet nyilvánosan elérhető, kereskedelmi forgalomban lévő adatelemző szoftverekkel is. Ha kérdésesnek érzed, hogy az általad választott technológia használható-e, vedd fel velünk a kapcsolatot a hello@dataracing.hu e-mail címen.
7. Mit jelent, hogy a megoldásomnak reprodukálhatónak kell lennie?
A verseny végén a díjazáshoz követelmény, hogy a versenyző az elért eredményt reprodukálni tudja és a forrásfájlokat, kódokat megossza a verseny szervezőivel. A reprodukálhatóság azt jelenti, hogy a megoldást újra lefuttatva pontosan ugyanazt az eredményt éri el a versenyző mind a publikus és a privát Leaderboardon is. A reprodukálhatósághoz kérjük, hogy a használt random paramétereket minden esetben fixáld. Ilyen random paraméterre példa a python sklearn csomag számos gépi tanulási modelljének random_state paramétere.
8. Milyen egyéb szabályok vonatkoznak a versenyre?
A részletes versenyszabályzatot az alábbi oldalon tudod elolvasni. A versenyre való jelentkezéssel elfogadod ezeket a szabályokat.