News

కోడింగ్ & రీజనింగ్ బెంచ్‌మార్క్‌లను డామినేట్ చేయడానికి ఆంత్రోపిక్ యొక్క కొత్త AI మోడల్; సవాలు GPT-5.2

0 0 2 minutes read

కోడింగ్ & రీజనింగ్ బెంచ్‌మార్క్‌లను డామినేట్ చేయడానికి ఆంత్రోపిక్ యొక్క కొత్త AI మోడల్; సవాలు GPT-5.2

ఆంత్రోపిక్ అధికారికంగా క్లాడ్ ఓపస్ 4.6ను ప్రారంభించింది, వారి అత్యంత అధునాతన AI మోడల్, రీజనింగ్, కోడింగ్ మరియు లాంగ్-కాంటెక్స్ట్ ప్రాసెసింగ్‌లో పెద్ద మెరుగుదలలు ఉన్నాయి. ఆర్థికంగా విలువైన పని మరియు ఏజెంట్ కోడింగ్ కోసం కీలక బెంచ్‌మార్క్‌లపై స్టేట్ ఆఫ్ ది ఆర్ట్ పనితీరును క్లెయిమ్ చేయడం ద్వారా ఈ విడుదల OpenAI యొక్క GPT మరియు Google యొక్క జెమినితో పోటీని తీవ్రతరం చేస్తుంది.

సాంకేతిక లక్షణాలు మరియు ముఖ్య లక్షణాలు

క్లాడ్ ఓపస్ 4.6 బీటా 1 మిలియన్ టోకెన్ కాంటెక్స్ట్ విండో ద్వారా హెడ్‌లైన్ చేయబడిన సామర్ధ్యంలో గణనీయమైన పురోగతిని సూచిస్తుంది-ఓపస్ మోడల్ లైన్‌కు ఇది మొదటిది. ఇది మోడల్‌ను చాలా పొడవైన డాక్యుమెంట్‌లు, కోడ్‌బేస్‌లు లేదా విశ్లేషణాత్మక సెషన్‌లలో “కాంటెక్స్ట్ రాట్” తగ్గించడంతో సమాచారాన్ని ప్రాసెస్ చేయడానికి మరియు నిలుపుకోవడానికి అనుమతిస్తుంది. మోడల్ 128,000 టోకెన్‌ల వరకు అవుట్‌పుట్‌లకు మద్దతు ఇస్తుంది మరియు పొడిగించిన ఏజెంట్ వర్క్‌ఫ్లోల కోసం రీజనింగ్ డెప్త్ మరియు కాంటెక్స్ట్ కాంపాక్షన్ కోసం అనుకూల ఆలోచనలతో సహా కొత్త డెవలపర్ నియంత్రణలను పరిచయం చేస్తుంది.

బెంచ్మార్క్ పనితీరు మరియు సామర్థ్యాలు

ఆంత్రోపిక్ ఓపస్ 4.6ని సంక్లిష్టమైన, స్వయంప్రతిపత్త పనులలో లీడర్‌గా ఉంచుతుంది. మోడల్ అనేక క్లిష్టమైన మూల్యాంకనాల్లో టాప్ స్కోర్‌లను సాధించింది:

మీరు ఆసక్తి కలిగి ఉండవచ్చు

టెర్మినల్-బెంచ్ 2.0: ఏజెంట్ కోడింగ్ పనితీరులో ముందుంది.
హ్యుమానిటీ యొక్క చివరి పరీక్ష: ఈ మల్టీడిసిప్లినరీ రీజనింగ్ పరీక్షలో అగ్రస్థానంలో ఉంది.
GDPval-AA: నివేదికల ప్రకారం, ఇది బ్యాంకింగ్ మరియు చట్టపరమైన విశ్లేషణ పనులపై దాదాపు 144 Elo పాయింట్ల ద్వారా OpenAI యొక్క GPT-5.2ని అధిగమించింది.
MRCR v2: 1M టోకెన్ సందర్భంలో ఈ “నీడిల్-ఇన్-ఎ-హేస్టాక్” రిట్రీవల్ టెస్ట్‌లో 76% స్కోర్‌లు వచ్చాయి, ఇది మునుపటి మోడల్‌ల కంటే పెద్ద మెరుగుదల.

కోడ్ సమీక్ష, డీబగ్గింగ్ మరియు ఎక్కువ ప్రణాళికా ఖచ్చితత్వంతో దీర్ఘకాలంగా పనిచేసే ఏజెంట్ వర్క్‌ఫ్లోలను కొనసాగించే సామర్థ్యాన్ని కంపెనీ మెరుగైన పనితీరును పేర్కొంది.

భద్రత మరియు భద్రత మెరుగుదలలు

ఆంత్రోపిక్ విడుదల చేసిన సిస్టమ్ కార్డ్ ప్రకారం, పనితీరు లాభాలు భద్రతా అమరికలో రాజీ పడవు. ఓపస్ 4.6 మోసం వంటి తప్పుడు ప్రవర్తన యొక్క తక్కువ రేట్లు ప్రదర్శిస్తుంది మరియు మునుపటి క్లాడ్ మోడల్‌లతో పోలిస్తే తక్కువ అనవసరమైన తిరస్కరణలను ప్రదర్శిస్తుంది. మోడల్ యొక్క మెరుగైన సామర్థ్యాలకు ప్రతిస్పందనగా, ఆంత్రోపిక్ దాని రక్షణ మరియు ప్రమాదకర భద్రతా సామర్థ్యాన్ని అంచనా వేయడానికి కొత్త సైబర్‌ సెక్యూరిటీ ప్రోబ్‌లను ప్రవేశపెట్టింది.

API, ప్రోడక్ట్ ఇంటిగ్రేషన్ మరియు లభ్యత

ఆంత్రోపిక్ API ద్వారా, claude.aiలో మరియు ప్రధాన క్లౌడ్ ప్లాట్‌ఫారమ్‌లలో మోడల్ వెంటనే అందుబాటులో ఉంటుంది. ముఖ్య ఉత్పత్తి ఏకీకరణలు:

క్లాడ్ కోడ్: ఇప్పుడు పెద్ద కోడ్‌బేస్ రివ్యూలలో సమాంతర పని కోసం “ఏజెంట్ టీమ్‌లను” ఫీచర్ చేస్తుంది.
సహోద్యోగ పర్యావరణం: విశ్లేషణ మరియు పత్ర సృష్టి వంటి ప్రతిభను కలపడం ద్వారా స్వయంప్రతిపత్త బహుళ-దశల విధిని అమలు చేయడానికి అనుమతిస్తుంది.
Office Suite: Excelలో అప్‌గ్రేడ్‌లు మరియు Max, టీమ్ మరియు ఎంటర్‌ప్రైజ్ వినియోగదారుల కోసం PowerPoint ఇంటిగ్రేషన్ కోసం పరిశోధన ప్రివ్యూ.

ప్రతి మిలియన్ ఇన్‌పుట్ టోకెన్‌లకు $5 మరియు ప్రతి మిలియన్ అవుట్‌పుట్ టోకెన్‌లకు $25 చొప్పున ధర మారదు.

విశ్లేషణ: AI కాంపిటేటివ్ ల్యాండ్‌స్కేప్‌పై ప్రభావం

ఓపస్ 4.6 యొక్క ప్రయోగం నేరుగా AI యొక్క అత్యాధునిక అంచు వద్ద పోటీదారులపై పడుతుంది, ప్రత్యేకించి పెద్ద డేటా సెట్‌లలో లోతైన తార్కికం అవసరమయ్యే ప్రాంతాలలో. కోడింగ్ స్వాతంత్ర్యం, ఆర్థిక విశ్లేషణ మరియు దీర్ఘ-సందర్భ ఖచ్చితత్వాన్ని మెరుగుపరచడం ద్వారా, ఆంత్రోపిక్ అధిక-విలువ సంస్థ మరియు డెవలపర్ అవసరాలను లక్ష్యంగా చేసుకుంది. బలమైన బెంచ్‌మార్క్ ఫలితాలు, ముఖ్యంగా GDPval-AAపై, వృత్తిపరమైన మరియు విశ్లేషణాత్మక ఉపయోగాలలో విజయం సాధించడానికి స్పష్టమైన వ్యూహాన్ని సూచిస్తాయి.

తరచుగా అడిగే ప్రశ్నలు:

Q: క్లాడ్ ఓపస్ 4.6 కోసం కాంటెక్స్ట్ విండో ఏమిటి?

A: క్లాడ్ ఓపస్ 4.6 బీటాలో 1 మిలియన్ టోకెన్ కాంటెక్స్ట్ విండోను పరిచయం చేసింది, ఇది ఒకే సెషన్‌లో ఎక్కువ సమాచారాన్ని ప్రాసెస్ చేయడానికి అనుమతిస్తుంది.

ప్ర: GPT-5.2తో పోలిస్తే ఓపస్ 4.6 ఎలా పని చేస్తుంది?

A: ఆంత్రోపిక్ ప్రకారం, ఓపస్ 4.6 GDPval-AA బెంచ్‌మార్క్‌లో GPT-5.2ని దాదాపు 144 Elo పాయింట్లు మించిపోయింది, ఇది ఆర్థిక మరియు చట్టపరమైన కార్యకలాపాలపై పనితీరును కొలుస్తుంది.