مقایسه قابلیتهای ChatGPT در برابر جایگزینهایی از جمله Anthropic’s Claude 2، Google’s Bard و Meta’s Llama2


همانطور که قبلا گزارش شده است، تحقیقات جدید ناسازگاری در مدل های ChatGPT را در طول زمان نشان می دهد. یک مطالعه استنفورد و دانشگاه کالیفرنیا برکلی نسخههای مارس و ژوئن GPT-3.5 و GPT-4 را بر روی وظایف مختلف تجزیه و تحلیل کرد. نتایج حاکی از تغییرات قابل توجهی در عملکرد، حتی در عرض چند ماه است.

به عنوان مثال، دقت اعداد اول GPT-4 از 97.6% به 2.4% بین مارس و ژوئن به دلیل مشکلاتی که به دنبال استدلال گام به گام به وجود آمدند، کاهش یافت. همچنین GPT-4 نسبت به پاسخ مستقیم به سوالات حساس بیمیل شد و نرخ پاسخدهی از 21% به 5% کاهش یافت. با این حال، دلیل منطقی کمتری برای امتناع ارائه کرد.
هر دو GPT-3.5 و GPT-4 در ژوئن نسبت به مارس کدهای باگیری تولید کردند. درصد قطعات پایتون مستقیماً قابل اجرا به دلیل متن غیر کد اضافی، به میزان قابل توجهی کاهش یافت.
در حالی که استدلال بصری به طور کلی کمی بهبود یافت، نسلها برای پازلهای مشابه به طور غیرقابل پیشبینی بین تاریخها تغییر کردند. ناهماهنگی های قابل توجه در دوره های کوتاه نگرانی هایی را در مورد تکیه بر این مدل ها برای استفاده های حساس یا حیاتی بدون آزمایش مداوم ایجاد می کند.
محققان به این نتیجه رسیدند که یافتهها نیاز به نظارت مستمر مدلهای ChatGPT را نشان میدهد زیرا رفتار آنها در معیارهایی مانند دقت، ایمنی و استحکام تکامل مییابد.
فرآیند بهروزرسانی غیرشفاف، آزمایشهای دقیق را برای درک تغییرات عملکرد در طول زمان مهم میکند.
آیا اکنون ChatGPT از رقبا بدتر است؟
CryptoSlate یک آزمایش داخلی کوچک با استفاده از ChatGPT Plus (GPT-4)، OpenAI API (GPT-4)، Anthropic (Claude 2) و Google (Bard) با استفاده از اعلان اولیه مورد استفاده در بخشی از تحقیق انجام داد.
آیا 17077 عدد اول است؟
اعلان در هر مدل با اعلانهای بازتاب اضافی همانطور که در زیر توضیح داده شده است استفاده شد.
ChatGPT و OpenAI API
هنگامی که درخواست داده شد، ChatGPT و OpenAI API پاسخ «نه» دادند و در ریاضی دچار توهم شدند. تصویر زیر جزئیات مکالمه را نشان می دهد و مدل قادر به شناسایی 17077 به عنوان یک عدد اول حتی با چندین بازتاب نیست.

برای روشن بودن، 13 در 1313 برابر با 17069 است.
API OpenAI GPT4 قادر به رسیدن به این نتیجه نبود تا زمانی که به طور خاص از آن خواسته شد که 1313×13 را محاسبه کند تا کشف شود که پاسخ آن همانطور که گفته شد 17077 نیست.
آنتروپیک کلود 2
با این حال، کلود 2 آنتروپیک فرآیند حل مسئله خود را با انجام محاسبات قبل از ارائه پاسخ صحیح نشان داد.

CryptoSlate سپس از کلود 2 خواست تا همان کار را بدون نمایش کارها در یک پنجره چت تازه انجام دهد. کلود 2 پاسخ محکمی داد و از تعهد خودداری کرد و در عین حال بینش بیشتری در مورد راه حل ارائه داد.
متأسفانه نمیتوانم تعیین کنم که 17077 بدون نمایش مقداری کارآمد است یا خیر. با این حال، می توانم تأیید کنم که 17077 بر هیچ عدد اولی کوچکتر از 121 بخش پذیر نیست، که به شدت نشان می دهد که ممکن است اول باشد.
گوگل بارد
Google Bard با استراتژی مشابه Claude 2 با این سوال مقابله کرد. با این حال، به جای حل مشکل با متن، برخی از کدهای پایه پایتون را اجرا کرد. علاوه بر این، به نظر میرسد بارد از اطلاعات یک وبسایت اعداد اول و ویکیپدیا در راهحل خود استفاده کرده است. جالب اینجاست که صفحه ذکر شده از سایت اعداد اول، primenumbers.info، فقط شامل اطلاعات مربوط به سایر اعداد اول بود، نه 17077.

لاما 2 متا
جالب اینجاست که متا مدل منبع باز 70 میلیارد پارامتری اخیراً منتشر شده Llama2 مشابه GPT4 در CryptoSlate’s تست محدود

با این حال، زمانی که از Llama2 خواسته شد تا عملکرد خود را منعکس کند و نشان دهد، میتواند رمزگشایی کند که 17077 برخلاف نسخههای GPT4 در حال حاضر موجود است.
با این حال، اخطار این است که لاما از یک روش ناقص برای بررسی اعداد اول استفاده کرد. این اعداد اول تا جذر 17077 را محاسبه نکرد.
بنابراین، از نظر فنی لاما با موفقیت شکست خورد.
GPT4-0613 نسخه 13 ژوئن 2023
CryptoSlate همچنین پازل ریاضی را با مدل GPT4-0613 (نسخه ژوئن) آزمایش کرد و همان نتیجه را دریافت کرد. مدل پیشنهادی 17077 در اولین پاسخ خود یک عدد اول نیست. علاوه بر این، هنگامی که از او خواسته شد کار خود را نشان دهد، در نهایت منصرف شد. نتیجه گرفت که عدد معقول زیر باید بر 17077 بخش پذیر باشد و بیان کرد که بنابراین عدد اول نیست.
بنابراین، به نظر میرسد که این کار در حد تواناییهای GPT4 تا 13 ژوئن نبوده است. نسخههای قدیمیتر GPT4 در حال حاضر برای عموم در دسترس نیستند اما در مقاله تحقیقاتی گنجانده شدهاند.
مفسر کد
جالب اینجاست که ChatGPT با ویژگی «مفسر کد» در اولین تلاش خود در آزمایش CryptoSlate به درستی پاسخ داد.

پاسخ OpenAI و تاثیر مدل
اکونومیک تایمز گزارش داد که در پاسخ به ادعاهایی که مدلهای OpenAI در حال تنزل دادن هستند، معاون تولید OpenAI، پیتر ولیندر، این ادعاها را رد کرد و ادعا کرد که هر نسخه جدید هوشمندتر از نسخه قبلی است. او پیشنهاد کرد که استفاده سنگین تر می تواند منجر به درک کاهش اثربخشی شود زیرا مشکلات بیشتری در طول زمان متوجه می شوند.
جالب توجه است، مطالعه دیگری از محققان استنفورد که در JAMA Internal Medicine منتشر شده است نشان می دهد که آخرین نسخه ChatGPT به طور قابل توجهی از دانشجویان پزشکی در سوالات چالش برانگیز امتحان استدلال بالینی بهتر عمل می کند.
چت ربات هوش مصنوعی به طور متوسط بیش از 4 امتیاز بالاتر از دانش آموزان سال اول و دوم در سؤالات باز و مبتنی بر موردی که نیاز به تجزیه جزئیات و نوشتن پاسخ های کامل دارد، کسب کرد.
بنابراین، کاهش آشکار در عملکرد ChatGPT در وظایف خاص، چالشهای تکیه بر مدلهای زبان بزرگ را بدون آزمایشهای دقیق مداوم برجسته میکند. در حالی که دلایل دقیق هنوز نامشخص است، این امر بر نیاز به نظارت مستمر و محک زدن به عنوان این سیستمهای هوش مصنوعی به سرعت در حال تکامل است.
از آنجایی که پیشرفتها برای بهبود پایداری و ثبات این مدلهای هوش مصنوعی ادامه مییابد، کاربران باید دیدگاه متعادلی را در مورد ChatGPT داشته باشند و ضمن آگاهی از محدودیتهای آن، نقاط قوت آن را تصدیق کنند.
دیدگاهتان را بنویسید