مدل هوش مصنوعی جدید متا با نام Llama 2 Long میتواند بهتر از رقبایی مثل GPT-3.5 Turbo جواب سؤالات طولانی را بدهد.
متا چند روز پیش از یک ابزار هوش مصنوعی برای ویرایش تصویر در اینستاگرام و نسل جدید عینک هوشمند خود پرده برداشت. اما محققان این شرکت همچنین بیسروصدا مقالهای منتشر کردند که به معرفی مدل هوش مصنوعی Llama 2 Long میپردازد. این مدل ظاهراً در زمینه پاسخگویی به سؤالات طولانی مهارت دارد و بهتر از بسیاری از رقبای خود عمل میکند.
مدل هوش مصنوعی Llama 2 Long نسخه دیگری از مدل Llama 2 است که در فصل تابستان معرفی شده بود. این مدل میتواند از منابع مختلف داده دریافت و کارهای مختلفی نظیر کدنویسی، ریاضیات، فهم زبان، استدلال و محاوره را انجام دهد.
بااینحال، این مدل بیش از همه روی متون طولانی آموزش یافته و بهگونهای پیکربندی شده است که بتواند دنبالههای طولانیتری از اطلاعات را مدیریت کند. Llama 2 Long با این قابلیت میتواند بهتر از مدلهایی مثل GPT-3.5 Turbo و Claude 2 که محدودیتهایی در زمینه دریافت ورودی دارند، عمل کند.
متا چگونه مدل هوش مصنوعی Llama 2 Long را ساخته است؟
پژوهشگران متا برای ساخت این مدل هوش مصنوعی از دو نسخه از Llama 2 با 7 تا 70 میلیارد پارامتر استفاده کردهاند. سپس 400 میلیارد توکن داده دیگر که شامل متونی طولانیتر از مجموعه دادههای نسخه اصلی Llama 2 بود، به این ترکیب اضافه شد.
محققان همچنین اندکی معماری Llama 2 را دستکاری کردند و شیوه کدگذاری موقعیت هر توکن در دنباله را تغییر دادند. آنها از تکنیکی موسوم به RoPE بهره گرفتند که هر توکن را به نقطهای در یک گراف سهبعدی که وضعیتش را نسبت به بقیه توکنها نشان میدهد، وصل میکند. با این کار، مدل هوش مصنوعی میتواند پاسخهای دقیقتر و مفیدتری ارائه کند و در عین حال حافظه کمتری مصرف کند.
متا مدعی است که مدل Llama 2 Long میتواند به سؤالاتی با حداکثر 200 هزار نویسه که معادل یک کتاب 40 صفحهای است، پاسخهای باکیفیت بدهد.
دانشمندان میگویند Llama 2 Long گامی به سمت ساخت مدلهای هوش مصنوعی جامع و همهمنظوره است که میتوانند به نیازهای مختلف کاربر پاسخ بدهند.