مقایسه قابلیت‌های ChatGPT در برابر جایگزین‌هایی از جمله Anthropic’s Claude 2، Google’s Bard و Meta’s Llama2

Op-ed: Benchmarking ChatGPT’s capabilities against alternatives including Anthropic’s Claude 2, Google’s Bard, and Meta’s Llama2
Upland: برلین اینجاست!

همانطور که قبلا گزارش شده است، تحقیقات جدید ناسازگاری در مدل های ChatGPT را در طول زمان نشان می دهد. یک مطالعه استنفورد و دانشگاه کالیفرنیا برکلی نسخه‌های مارس و ژوئن GPT-3.5 و GPT-4 را بر روی وظایف مختلف تجزیه و تحلیل کرد. نتایج حاکی از تغییرات قابل توجهی در عملکرد، حتی در عرض چند ماه است.

عملکرد gpt4 در مقابل gpt3
منبع: دانشگاه استنفورد و دانشگاه برکلی

به عنوان مثال، دقت اعداد اول GPT-4 از 97.6% به 2.4% بین مارس و ژوئن به دلیل مشکلاتی که به دنبال استدلال گام به گام به وجود آمدند، کاهش یافت. همچنین GPT-4 نسبت به پاسخ مستقیم به سوالات حساس بی‌میل شد و نرخ پاسخ‌دهی از 21% به 5% کاهش یافت. با این حال، دلیل منطقی کمتری برای امتناع ارائه کرد.

هر دو GPT-3.5 و GPT-4 در ژوئن نسبت به مارس کدهای باگیری تولید کردند. درصد قطعات پایتون مستقیماً قابل اجرا به دلیل متن غیر کد اضافی، به میزان قابل توجهی کاهش یافت.

در حالی که استدلال بصری به طور کلی کمی بهبود یافت، نسل‌ها برای پازل‌های مشابه به طور غیرقابل پیش‌بینی بین تاریخ‌ها تغییر کردند. ناهماهنگی های قابل توجه در دوره های کوتاه نگرانی هایی را در مورد تکیه بر این مدل ها برای استفاده های حساس یا حیاتی بدون آزمایش مداوم ایجاد می کند.

محققان به این نتیجه رسیدند که یافته‌ها نیاز به نظارت مستمر مدل‌های ChatGPT را نشان می‌دهد زیرا رفتار آنها در معیارهایی مانند دقت، ایمنی و استحکام تکامل می‌یابد.

فرآیند به‌روزرسانی غیرشفاف، آزمایش‌های دقیق را برای درک تغییرات عملکرد در طول زمان مهم می‌کند.

آیا اکنون ChatGPT از رقبا بدتر است؟

CryptoSlate یک آزمایش داخلی کوچک با استفاده از ChatGPT Plus (GPT-4)، OpenAI API (GPT-4)، Anthropic (Claude 2) و Google (Bard) با استفاده از اعلان اولیه مورد استفاده در بخشی از تحقیق انجام داد.

آیا 17077 عدد اول است؟

اعلان در هر مدل با اعلان‌های بازتاب اضافی همانطور که در زیر توضیح داده شده است استفاده شد.

ChatGPT و OpenAI API

هنگامی که درخواست داده شد، ChatGPT و OpenAI API پاسخ «نه» دادند و در ریاضی دچار توهم شدند. تصویر زیر جزئیات مکالمه را نشان می دهد و مدل قادر به شناسایی 17077 به عنوان یک عدد اول حتی با چندین بازتاب نیست.

عملکرد gpt4
OpenAI API

برای روشن بودن، 13 در 1313 برابر با 17069 است.

API OpenAI GPT4 قادر به رسیدن به این نتیجه نبود تا زمانی که به طور خاص از آن خواسته شد که 1313×13 را محاسبه کند تا کشف شود که پاسخ آن همانطور که گفته شد 17077 نیست.

آنتروپیک کلود 2

با این حال، کلود 2 آنتروپیک فرآیند حل مسئله خود را با انجام محاسبات قبل از ارائه پاسخ صحیح نشان داد.

Anthropic 17077
آنتروپیک کلود 2

CryptoSlate سپس از کلود 2 خواست تا همان کار را بدون نمایش کارها در یک پنجره چت تازه انجام دهد. کلود 2 پاسخ محکمی داد و از تعهد خودداری کرد و در عین حال بینش بیشتری در مورد راه حل ارائه داد.

متأسفانه نمی‌توانم تعیین کنم که 17077 بدون نمایش مقداری کارآمد است یا خیر. با این حال، می توانم تأیید کنم که 17077 بر هیچ عدد اولی کوچکتر از 121 بخش پذیر نیست، که به شدت نشان می دهد که ممکن است اول باشد.

گوگل بارد

Google Bard با استراتژی مشابه Claude 2 با این سوال مقابله کرد. با این حال، به جای حل مشکل با متن، برخی از کدهای پایه پایتون را اجرا کرد. علاوه بر این، به نظر می‌رسد بارد از اطلاعات یک وب‌سایت اعداد اول و ویکی‌پدیا در راه‌حل خود استفاده کرده است. جالب اینجاست که صفحه ذکر شده از سایت اعداد اول، primenumbers.info، فقط شامل اطلاعات مربوط به سایر اعداد اول بود، نه 17077.

گوگل بارد
گوگل بارد

لاما 2 متا

جالب اینجاست که متا مدل منبع باز 70 میلیارد پارامتری اخیراً منتشر شده Llama2 مشابه GPT4 در CryptoSlate’s تست محدود

متا لاما2
متا لاما 2

با این حال، زمانی که از Llama2 خواسته شد تا عملکرد خود را منعکس کند و نشان دهد، می‌تواند رمزگشایی کند که 17077 برخلاف نسخه‌های GPT4 در حال حاضر موجود است.

با این حال، اخطار این است که لاما از یک روش ناقص برای بررسی اعداد اول استفاده کرد. این اعداد اول تا جذر 17077 را محاسبه نکرد.

بنابراین، از نظر فنی لاما با موفقیت شکست خورد.

GPT4-0613 نسخه 13 ژوئن 2023

CryptoSlate همچنین پازل ریاضی را با مدل GPT4-0613 (نسخه ژوئن) آزمایش کرد و همان نتیجه را دریافت کرد. مدل پیشنهادی 17077 در اولین پاسخ خود یک عدد اول نیست. علاوه بر این، هنگامی که از او خواسته شد کار خود را نشان دهد، در نهایت منصرف شد. نتیجه گرفت که عدد معقول زیر باید بر 17077 بخش پذیر باشد و بیان کرد که بنابراین عدد اول نیست.

بنابراین، به نظر می‌رسد که این کار در حد توانایی‌های GPT4 تا 13 ژوئن نبوده است. نسخه‌های قدیمی‌تر GPT4 در حال حاضر برای عموم در دسترس نیستند اما در مقاله تحقیقاتی گنجانده شده‌اند.

مفسر کد

جالب اینجاست که ChatGPT با ویژگی «مفسر کد» در اولین تلاش خود در آزمایش CryptoSlate به درستی پاسخ داد.

مفسر کد gpt4
مفسر کد OpenAI GPT4

پاسخ OpenAI و تاثیر مدل

اکونومیک تایمز گزارش داد که در پاسخ به ادعاهایی که مدل‌های OpenAI در حال تنزل دادن هستند، معاون تولید OpenAI، پیتر ولیندر، این ادعاها را رد کرد و ادعا کرد که هر نسخه جدید هوشمندتر از نسخه قبلی است. او پیشنهاد کرد که استفاده سنگین تر می تواند منجر به درک کاهش اثربخشی شود زیرا مشکلات بیشتری در طول زمان متوجه می شوند.

جالب توجه است، مطالعه دیگری از محققان استنفورد که در JAMA Internal Medicine منتشر شده است نشان می دهد که آخرین نسخه ChatGPT به طور قابل توجهی از دانشجویان پزشکی در سوالات چالش برانگیز امتحان استدلال بالینی بهتر عمل می کند.

چت ربات هوش مصنوعی به طور متوسط ​​بیش از 4 امتیاز بالاتر از دانش آموزان سال اول و دوم در سؤالات باز و مبتنی بر موردی که نیاز به تجزیه جزئیات و نوشتن پاسخ های کامل دارد، کسب کرد.

بنابراین، کاهش آشکار در عملکرد ChatGPT در وظایف خاص، چالش‌های تکیه بر مدل‌های زبان بزرگ را بدون آزمایش‌های دقیق مداوم برجسته می‌کند. در حالی که دلایل دقیق هنوز نامشخص است، این امر بر نیاز به نظارت مستمر و محک زدن به عنوان این سیستم‌های هوش مصنوعی به سرعت در حال تکامل است.

از آنجایی که پیشرفت‌ها برای بهبود پایداری و ثبات این مدل‌های هوش مصنوعی ادامه می‌یابد، کاربران باید دیدگاه متعادلی را در مورد ChatGPT داشته باشند و ضمن آگاهی از محدودیت‌های آن، نقاط قوت آن را تصدیق کنند.