AI మోడల్స్ యొక్క సామర్థ్యాలను పరీక్షించడానికి Epoch AI FrontierMath AI బెంచ్‌మార్క్‌ను ప్రారంభించింది

  • FrontierMath 60 మంది గణిత శాస్త్రజ్ఞుల సహకారంతో రూపొందించబడింది
  • పరీక్షలో బీజగణిత జ్యామితి నుండి జెర్మెలో-ఫ్రెంకెల్ సెట్ సిద్ధాంతం ఉంటుంది
  • పాత బెంచ్‌మార్క్‌లు AI సామర్థ్యాలను నిజంగా పరీక్షించవని కంపెనీ తెలిపింది
FrontierMath అనేది AIలో అధునాతన గణిత శాస్త్రాన్ని మూల్యాంకనం చేయడానికి ఒక బెంచ్‌మార్క్.

Epoch AI, కాలిఫోర్నియాకు చెందిన పరిశోధనా సంస్థ గత వారం కొత్త కృత్రిమ మేధస్సు (AI) బెంచ్‌మార్క్‌ను ప్రారంభించింది. FrontierMath గా పిలువబడే, కొత్త AI బెంచ్‌మార్క్ పెద్ద భాషా నమూనాలను (LLMలు) పునఃపరిశీలించడం మరియు గణిత శాస్త్ర సమస్య-పరిష్కార సామర్థ్యంపై పరీక్షిస్తుంది. డేటా కాలుష్యం మరియు AI మోడల్స్ వాటిపై చాలా ఎక్కువ స్కోర్‌లను స్కోర్ చేయడం వంటి కారణాల వల్ల ఇప్పటికే ఉన్న గణిత బెంచ్‌మార్క్‌లు చాలా ఉపయోగకరంగా లేవని AI సంస్థ పేర్కొంది. ప్రముఖ LLMలు కూడా కొత్త బెంచ్‌మార్క్‌లో రెండు శాతం కంటే తక్కువ స్కోర్‌ను సాధించాయని Epoch AI పేర్కొంది.

Epoch AI FrontierMath బెంచ్‌మార్క్‌ను ప్రారంభించింది

Xలోని ఒక పోస్ట్‌లో (గతంలో ట్విట్టర్ అని పిలుస్తారు), వందల కొద్దీ మూలాలు మరియు ప్రచురించని గణిత సమస్యలను సృష్టించడానికి 60 కంటే ఎక్కువ గణిత శాస్త్రజ్ఞులతో కలిసి పనిచేశామని AI సంస్థ వివరించింది. Epoch AI ఈ ప్రశ్నలను పరిష్కరించడానికి గణిత శాస్త్రవేత్తలకు కూడా గంటల సమయం పడుతుందని పేర్కొంది. కొత్త బెంచ్‌మార్క్‌ను అభివృద్ధి చేయడం వెనుక ఉన్న కారణం GSM8K మరియు MATH వంటి ప్రస్తుత బెంచ్‌మార్క్‌లతో పరిమితులుగా పేర్కొనబడింది, ఇక్కడ AI మోడల్‌లు సాధారణంగా అధిక పాయింట్‌ను స్కోర్ చేస్తాయి.

LLMల ద్వారా అత్యధిక స్కోర్లు సాధించడానికి డేటా కాలుష్యం కారణంగా కంపెనీ పేర్కొంది. దీనర్థం, ప్రశ్నలు ఏదో ఒకవిధంగా ఇప్పటికే AI మోడల్‌లకు అందించబడ్డాయి, ఫలితంగా అవి ప్రశ్నలను సులభంగా పరిష్కరించగలవు.

FrontierMath ప్రత్యేకమైన మరియు ఎక్కడా ప్రచురించబడని కొత్త సమస్యలను చేర్చడం ద్వారా సమస్యను పరిష్కరిస్తుంది, డేటా కాలుష్యంతో సంబంధం ఉన్న ప్రమాదాలను తగ్గిస్తుంది. ఇంకా, బెంచ్‌మార్క్‌లో సంఖ్యా సిద్ధాంతం, వాస్తవ విశ్లేషణ మరియు బీజగణిత జ్యామితి, అలాగే జెర్మెలో-ఫ్రెంకెల్ సెట్ థియరీ వంటి అంశాలతో పాటు గణనపరంగా తీవ్రమైన సమస్యలతో సహా అనేక రకాల ప్రశ్నలు ఉంటాయి. AI సంస్థ అన్ని ప్రశ్నలను “అంచనా రుజువు” అని చెబుతుంది, అంటే బలమైన తార్కికం లేకుండా అనుకోకుండా వాటిని పరిష్కరించలేము.

AI యొక్క ఆప్టిట్యూడ్‌ను కొలవడానికి, సృజనాత్మక సమస్య-పరిష్కారంపై బెంచ్‌మార్క్‌లు సృష్టించబడాలని ఎపోచ్ AI హైలైట్ చేసింది, ఇక్కడ AI అనేక దశల్లో తార్కికతను కొనసాగించాలి. ముఖ్యంగా, AI మోడల్ ఎంత అధునాతనంగా ఉందో సరిగ్గా కొలవడానికి ఇప్పటికే ఉన్న బెంచ్‌మార్క్‌లు సరిపోవని పలువురు పరిశ్రమ అనుభవజ్ఞులు విశ్వసిస్తున్నారు.

ఒక పోస్ట్‌లో కొత్త బెంచ్‌మార్క్‌కు ప్రతిస్పందిస్తూ , కంపెనీ o1 మోడల్‌కు వెనుక ఉన్న ఓపెన్‌ఏఐ పరిశోధకుడు నోమ్ బ్రౌన్ కొత్త బెంచ్‌మార్క్‌ను స్వాగతించారు మరియు “సరిహద్దు మోడల్‌ల కోసం ఇంత తక్కువ పాస్ రేట్లతో కొత్త ఎవాల్‌ను చూడటం నాకు చాలా ఇష్టం” అని అన్నారు.


Categories:

No Responses

Leave a Reply

Your email address will not be published. Required fields are marked *