AI ఏజెంట్ల డెమోలు అద్భుతమైనవిగా అనిపించవచ్చు, అయితే నిజ జీవితంలో బాధించే (లేదా ఖరీదైన) లోపాలు లేకుండా విశ్వసనీయంగా పని చేసే సాంకేతికతను పొందడం ఒక సవాలుగా ఉంటుంది. ప్రస్తుత మోడల్లు ప్రశ్నలకు సమాధానమివ్వగలవు మరియు దాదాపుగా మానవీయ నైపుణ్యంతో సంభాషించగలవు మరియు OpenAI యొక్క ChatGPT మరియు Google యొక్క జెమిని వంటి చాట్బాట్లకు వెన్నెముకగా ఉంటాయి. కంప్యూటర్ స్క్రీన్తో పాటు కీబోర్డ్ మరియు ట్రాక్ప్యాడ్ వంటి ఇన్పుట్ పరికరాలను యాక్సెస్ చేయడం ద్వారా లేదా తక్కువ-స్థాయి సాఫ్ట్వేర్ ఇంటర్ఫేస్ల ద్వారా సాధారణ కమాండ్ ఇచ్చినప్పుడు వారు కంప్యూటర్లలో పనులను కూడా చేయగలరు.
క్లాడ్ ఇతర AI ఏజెంట్లతో సహా అనేక కీలక బెంచ్మార్క్లను అధిగమించాడని ఆంత్రోపిక్ చెప్పింది SWE-బెంచ్ఇది ఏజెంట్ యొక్క సాఫ్ట్వేర్ అభివృద్ధి నైపుణ్యాలను కొలుస్తుంది మరియు OSWorldఇది కంప్యూటర్ ఆపరేటింగ్ సిస్టమ్ను ఉపయోగించే ఏజెంట్ సామర్థ్యాన్ని అంచనా వేస్తుంది. క్లెయిమ్లు ఇంకా స్వతంత్రంగా ధృవీకరించబడవలసి ఉంది. క్లాడ్ OSWorldలో 14.9 శాతం సమయాలను సరిగ్గా నిర్వహిస్తుందని ఆంత్రోపిక్ చెప్పింది. ఇది సాధారణంగా 75 శాతం స్కోర్ చేసే మానవుల కంటే చాలా తక్కువగా ఉంది, అయితే ప్రస్తుత అత్యుత్తమ ఏజెంట్ల కంటే చాలా ఎక్కువ – OpenAI యొక్క GPT-4తో సహా – ఇది దాదాపు 7.7 శాతం సమయం విజయవంతమవుతుంది.
అనేక కంపెనీలు ఇప్పటికే క్లాడ్ యొక్క ఏజెంట్ వెర్షన్ను పరీక్షిస్తున్నాయని ఆంత్రోపిక్ పేర్కొంది. ఇందులో ఉన్నాయి కాన్వాడిజైన్ మరియు ఎడిటింగ్ టాస్క్లను ఆటోమేట్ చేయడానికి ఇది ఉపయోగిస్తోంది మరియు పునరావృతంఇది కోడింగ్ పనుల కోసం మోడల్ను ఉపయోగిస్తుంది. ఇతర ప్రారంభ వినియోగదారులు కూడా ఉన్నారు బ్రౌజర్ కంపెనీ, ఆసనంమరియు భావన.
ప్రెస్ గురించిSWE-బెంచ్ను అభివృద్ధి చేయడంలో సహాయపడిన ప్రిన్స్టన్ విశ్వవిద్యాలయంలో పోస్ట్డాక్టోరల్ పరిశోధకుడు, ఏజెంట్ AI చాలా ముందుగానే ప్లాన్ చేసే సామర్థ్యాన్ని కలిగి ఉండదని మరియు తరచుగా లోపాల నుండి కోలుకోవడానికి కష్టపడుతుందని చెప్పారు. “వాటిని ఉపయోగకరంగా చూపించడానికి, మేము కఠినమైన మరియు వాస్తవిక బెంచ్మార్క్లపై బలమైన పనితీరును పొందాలి” అని అతను చెప్పాడు, వినియోగదారు కోసం విస్తృత శ్రేణి పర్యటనలను విశ్వసనీయంగా ప్లాన్ చేయడం మరియు అవసరమైన అన్ని టిక్కెట్లను బుక్ చేయడం వంటివి.
క్లాడ్ ఇప్పటికే కొన్ని లోపాలను ఆశ్చర్యకరంగా పరిష్కరించగలడని కప్లాన్ పేర్కొన్నాడు. వెబ్ సర్వర్ను ప్రారంభించడానికి ప్రయత్నిస్తున్నప్పుడు టెర్మినల్ ఎర్రర్ను ఎదుర్కొన్నప్పుడు, ఉదాహరణకు, దానిని పరిష్కరించడానికి దాని ఆదేశాన్ని ఎలా సవరించాలో మోడల్కు తెలుసు. ఇది వెబ్లో బ్రౌజ్ చేయడం డెడ్ ఎండ్లోకి పరిగెత్తినప్పుడు పాపప్లను ప్రారంభించాలని కూడా ఇది పనిచేసింది.
అనేక టెక్ కంపెనీలు ఇప్పుడు మార్కెట్ వాటా మరియు ప్రాముఖ్యతను వెంబడించడంతో AI ఏజెంట్లను అభివృద్ధి చేయడానికి పోటీపడుతున్నాయి. వాస్తవానికి, చాలా మంది వినియోగదారులు తమ వేలికొనలకు ఏజెంట్లను కలిగి ఉండటానికి ఎక్కువ సమయం పట్టకపోవచ్చు. ఓపెన్ఏఐకి $13 బిలియన్లకు పైగా కుమ్మరించిన మైక్రోసాఫ్ట్, ఇది విండోస్ కంప్యూటర్లను ఉపయోగించగల పరీక్ష ఏజెంట్లు అని చెప్పారు. ఆంత్రోపిక్లో భారీగా పెట్టుబడులు పెట్టిన Amazon, ఏజెంట్లు తన కస్టమర్ల కోసం వస్తువులను ఎలా సిఫార్సు చేసి చివరికి కొనుగోలు చేయవచ్చో అన్వేషిస్తోంది.
AI కంపెనీలపై దృష్టి సారించే వెంచర్ సంస్థ సీక్వోయాలో భాగస్వామి సోన్యా హువాంగ్, AI ఏజెంట్ల చుట్టూ ఉన్న ఉత్సాహం కోసం, చాలా కంపెనీలు నిజంగా AI-ఆధారిత సాధనాలను రీబ్రాండింగ్ చేస్తున్నాయని చెప్పారు. ఆంత్రోపిక్ వార్తలకు ముందు WIREDతో మాట్లాడుతూ, కోడింగ్-సంబంధిత పని వంటి ఇరుకైన డొమైన్లలో వర్తించినప్పుడు సాంకేతికత ప్రస్తుతం ఉత్తమంగా పని చేస్తుందని ఆమె చెప్పింది. “మోడల్ విఫలమైతే, అది సరే” అని మీరు సమస్య ఖాళీలను ఎంచుకోవాలి. “అవి నిజమైన ఏజెంట్ స్థానిక కంపెనీలు ఉత్పన్నమయ్యే సమస్య స్థలాలు.”
ఏజెంట్ AIతో ఉన్న ప్రధాన సవాలు ఏమిటంటే, గార్బుల్ చాట్బాట్ ప్రత్యుత్తరం కంటే లోపాలు చాలా సమస్యాత్మకంగా ఉంటాయి. క్లాడ్ ఏమి చేయగలడనే దానిపై ఆంత్రోపిక్ కొన్ని పరిమితులను విధించింది-ఉదాహరణకు, వస్తువులను కొనుగోలు చేయడానికి ఒక వ్యక్తి యొక్క క్రెడిట్ కార్డ్ని ఉపయోగించగల సామర్థ్యాన్ని పరిమితం చేస్తుంది.
లోపాలను తగినంతగా నివారించగలిగితే, ప్రిన్స్టన్ యూనివర్శిటీ ప్రెస్ చెప్పింది, వినియోగదారులు AI-మరియు కంప్యూటర్లను పూర్తిగా కొత్త మార్గంలో చూడటం నేర్చుకోవచ్చు. “నేను ఈ కొత్త యుగం గురించి చాలా సంతోషిస్తున్నాను,” అని ఆయన చెప్పారు.