تحول مرزهای بین متن و تصویر توسط مدل زبان بزرگ MM1 اپل: تکنولوژی جدید در هوش مصنوعی!

تحول مرزهای بین متن و تصویر توسط مدل زبان بزرگ MM1 اپل: تکنولوژی جدید در هوش مصنوعی!

به تازگی با عرضه مدل زبان بزرگ MM1 اپل، توسط تیم تحقیقاتی Apple، یک چشم اندازی خاصی در بخش هوش مصنوعی ایجاد شده است. این پیشرفت شگفت‌انگیز، که مدلی با توانایی قابل‌توجه در تشخیص تصویر و تفکر زبان طبیعی ارائه می‌دهد،با عنوان MM1 شناخته می شود و برای مواردی چون تجزیه و تحلیل و بینش‌ها از بخش پیش‌آموزش چندوجهی LLM آماده شده است.

سه اندازه اصلی برای پارامترهای این مدل زیان بزرگ وجود دارد که بدین شکل است: ۳ میلیارد، ۷ میلیارد و ۳۰ میلیارد. با استفاده از این نسخه ها برای آزمایش، محققان توانستند عناصر حیاتی موثر بر عملکرد را شناسایی کنند. جالب است بدانید که کارایی مدل می‌تواند تا حد زیادی تحت تأثیر مجموعه داده‌های مختلف قبل از آموزش باشد، و وضوح تصویر و کمیت تگ‌های تصویر تأثیر بیشتری نسبت به رابط‌های زبان بصری دارند.

توضیحات تیم تحقیقاتی در مورد مدل زبان بزرگ MM1 اپل

تیم تحقیقاتی اپل با استفاده از تکنیک Top-2 Gating و معماری Mixture of Experts نتایج خارق العاده‌ای را به دست آورده‌اند. این روش علاوه بر ایجاد نتایج برجسته در معیارهای قبل از تمرین، عملکرد خوبی را در معیارهای چندوجهی فعلی ایجاد کرد. همچنین، قدرت رقابتی مدل زبان بزرگ MM1 اپل حتی پس از تنظیمات برای وظایف خاص باز هم کاهش نمی یابد.

بر اساس آزمایش های گوناگون، نسخه های MM1-3B-Chat و MM1-7B-Chat  این مدل زبان عملکرد بهتری نسبت به اکثر رقبای مشابه خود در حوزه دارند. این نمونه ها به‌ویژه در کارهایی مانند ScienceQA (پاسخ‌گویی به سؤالات علمی)، TextVQA (پاسخ دادن به سؤالات متنی در مورد یک تصویر) و VQAv2 (پاسخ‌گویی به سؤال بر اساس تصویر و متن) خوب عمل می‌کنند.

اما عملکرد کلی مدل زبان بزرگ MM1 اپل به خوبی رقیب های اصلی خود چون GPT-4V OpenAI یا  Gemini گوگل نیست. حتی اگر این نسخه هنوز پیشرو محسوب نشود، اما تلاش شرکت بدین شکل خواهد بود که پیشرفت چشمگیری در زمینه هوش مصنوعی داشته باشد.

__ تکنودات مرجع اخبار تکنولوژی __

 

نظرتون در مورد این مطلب چیه

آدرس ایمیل شما بصورت عمومی منتشر نخواهد شد.

لطفا از ارسال نظرات بی ربط با این مطلب خودداری نمایید.