ముఖ్యాంశాలు
- FrontierMath 60 మంది గణిత శాస్త్రజ్ఞుల సహకారంతో రూపొందించబడింది
- పరీక్షలో బీజగణిత జ్యామితి నుండి జెర్మెలో-ఫ్రెంకెల్ సెట్ సిద్ధాంతం ఉంటుంది
- పాత బెంచ్మార్క్లు AI సామర్థ్యాలను నిజంగా పరీక్షించవని కంపెనీ తెలిపింది
FrontierMath అనేది AIలో అధునాతన గణిత శాస్త్రాన్ని మూల్యాంకనం చేయడానికి ఒక బెంచ్మార్క్.
Epoch AI, కాలిఫోర్నియాకు చెందిన పరిశోధనా సంస్థ గత వారం కొత్త కృత్రిమ మేధస్సు (AI) బెంచ్మార్క్ను ప్రారంభించింది. FrontierMath గా పిలువబడే, కొత్త AI బెంచ్మార్క్ పెద్ద భాషా నమూనాలను (LLMలు) పునఃపరిశీలించడం మరియు గణిత శాస్త్ర సమస్య-పరిష్కార సామర్థ్యంపై పరీక్షిస్తుంది. డేటా కాలుష్యం మరియు AI మోడల్స్ వాటిపై చాలా ఎక్కువ స్కోర్లను స్కోర్ చేయడం వంటి కారణాల వల్ల ఇప్పటికే ఉన్న గణిత బెంచ్మార్క్లు చాలా ఉపయోగకరంగా లేవని AI సంస్థ పేర్కొంది. ప్రముఖ LLMలు కూడా కొత్త బెంచ్మార్క్లో రెండు శాతం కంటే తక్కువ స్కోర్ను సాధించాయని Epoch AI పేర్కొంది.
Epoch AI FrontierMath బెంచ్మార్క్ను ప్రారంభించింది
Xలోని ఒక పోస్ట్లో (గతంలో ట్విట్టర్ అని పిలుస్తారు), వందల కొద్దీ మూలాలు మరియు ప్రచురించని గణిత సమస్యలను సృష్టించడానికి 60 కంటే ఎక్కువ గణిత శాస్త్రజ్ఞులతో కలిసి పనిచేశామని AI సంస్థ వివరించింది. Epoch AI ఈ ప్రశ్నలను పరిష్కరించడానికి గణిత శాస్త్రవేత్తలకు కూడా గంటల సమయం పడుతుందని పేర్కొంది. కొత్త బెంచ్మార్క్ను అభివృద్ధి చేయడం వెనుక ఉన్న కారణం GSM8K మరియు MATH వంటి ప్రస్తుత బెంచ్మార్క్లతో పరిమితులుగా పేర్కొనబడింది, ఇక్కడ AI మోడల్లు సాధారణంగా అధిక పాయింట్ను స్కోర్ చేస్తాయి.
LLMల ద్వారా అత్యధిక స్కోర్లు సాధించడానికి డేటా కాలుష్యం కారణంగా కంపెనీ పేర్కొంది. దీనర్థం, ప్రశ్నలు ఏదో ఒకవిధంగా ఇప్పటికే AI మోడల్లకు అందించబడ్డాయి, ఫలితంగా అవి ప్రశ్నలను సులభంగా పరిష్కరించగలవు.
FrontierMath ప్రత్యేకమైన మరియు ఎక్కడా ప్రచురించబడని కొత్త సమస్యలను చేర్చడం ద్వారా సమస్యను పరిష్కరిస్తుంది, డేటా కాలుష్యంతో సంబంధం ఉన్న ప్రమాదాలను తగ్గిస్తుంది. ఇంకా, బెంచ్మార్క్లో సంఖ్యా సిద్ధాంతం, వాస్తవ విశ్లేషణ మరియు బీజగణిత జ్యామితి, అలాగే జెర్మెలో-ఫ్రెంకెల్ సెట్ థియరీ వంటి అంశాలతో పాటు గణనపరంగా తీవ్రమైన సమస్యలతో సహా అనేక రకాల ప్రశ్నలు ఉంటాయి. AI సంస్థ అన్ని ప్రశ్నలను “అంచనా రుజువు” అని చెబుతుంది, అంటే బలమైన తార్కికం లేకుండా అనుకోకుండా వాటిని పరిష్కరించలేము.
AI యొక్క ఆప్టిట్యూడ్ను కొలవడానికి, సృజనాత్మక సమస్య-పరిష్కారంపై బెంచ్మార్క్లు సృష్టించబడాలని ఎపోచ్ AI హైలైట్ చేసింది, ఇక్కడ AI అనేక దశల్లో తార్కికతను కొనసాగించాలి. ముఖ్యంగా, AI మోడల్ ఎంత అధునాతనంగా ఉందో సరిగ్గా కొలవడానికి ఇప్పటికే ఉన్న బెంచ్మార్క్లు సరిపోవని పలువురు పరిశ్రమ అనుభవజ్ఞులు విశ్వసిస్తున్నారు.
ఒక పోస్ట్లో కొత్త బెంచ్మార్క్కు ప్రతిస్పందిస్తూ , కంపెనీ o1 మోడల్కు వెనుక ఉన్న ఓపెన్ఏఐ పరిశోధకుడు నోమ్ బ్రౌన్ కొత్త బెంచ్మార్క్ను స్వాగతించారు మరియు “సరిహద్దు మోడల్ల కోసం ఇంత తక్కువ పాస్ రేట్లతో కొత్త ఎవాల్ను చూడటం నాకు చాలా ఇష్టం” అని అన్నారు.
No Responses