هوش مصنوعی تازه مایکروسافت امکان درک محتوای تصاویر و حل پازل را دارد

به گزارش وبلاگ سفر و گردشگری، پژوهشگران هوش مصنوعی در مایکروسافت به تازگی از مدل جدیدی رونمایی نموده اند که می تواند محتوای تصاویر را آنالیز و درک کند و قابلیت های دیگری مثل حل پازل، تشخیص متن و درک دستورات زبانی را هم به همراه دارد.

هوش مصنوعی تازه مایکروسافت امکان درک محتوای تصاویر و حل پازل را دارد

هوش مصنوعی نو مایکروسافت قادر به نوشتن شرح برای تصاویر، جواب به سوالات درباره محتوای آن ها و پاسخ به آزمون IQ است.

پژوهشگران هوش مصنوعی در مایکروسافت به تازگی از مدل نوی رونمایی نموده اند که می تواند محتوای تصاویر را آنالیز و درک کند و قابلیت های دیگری مثل حل پازل، تشخیص متن و درک دستورات زبانی را هم به همراه دارد.

هوش مصنوعی Kosmos-1 مایکروسافت چه امکاناتی دارد؟

هوش مصنوعی نو مایکروسافت که از چندین ماژول تشکیل شده است، Kosmos-1 نام دارد. سازندگان آن، معتقد هستند که این ابزار، یک گام کلیدی برای دستیابی به هوش جامع مصنوعی (AGI) محسوب می گردد که قادر باشد وظایف عمومی را در سطح انسان به انجام برساند. نکته حائز اهمیت، این است که محصول آزمایشی نو مایکروسافت می تواند از انواع ورودی های مختلف مثل متن، صدا، تصویر و حتی ویدئو برای دریافت دستورات استفاده نماید و از این لحاظ کمی با نمونه های فعلی شناخته شده، فرق دارد.

مثال های تصویری منتشر شده از هوش مصنوعی مذکور در مقاله پژوهشی مرتبط با آن، نشان می دهد که این ابزار امکان آنالیز تصاویر و پاسخ به سوالات مرتبط با محتوای آن ها را دارد. خواندن متن در عکس ها و نوشتن شرحات پیرامون آن ها از دیگر مواردی است که می تواند به انجام برساند.

اگرچه درحال حاضر، توجه رسانه ای فراوانی روی مدل های زبانی بزرگ (LLM) هوش مصنوعی وجود دارد؛ اما کارشناسان عقیده دارند که ابزار های مبتنی بر چند ماژول می توانند پتانسیل بیشتری برای تبدیل شدن به هوش مصنوعی جامع باشند. دستیابی به چنین ابزاری، هدف نهایی بسیاری از شرکت های فعال در این زمینه، از جمله OpenAI سازنده ChatGPT، است که همکاری نزدیکی هم با مایکروسافت دارد.

البته به نظر می رسد که هوش مصنوعی نو مایکروسافت، به شکل مستقل از OpenAI و تنها به وسیله ردموندی ها، پیشرفته باشد. سازندگان آن، محصول خود را یک مدل چند ماژوله زبانی بزرگ (MLLM) توصیف می کنند؛ زیرا با وجود پشتیبانی از ورودی های مختلف دستوری، باز هم پردازش های نهایی آن براساس مدل متن محور LLM و مشابه با ابزار های کنونی مانند ChatGPT صورت می گیرد. به همین علت، کاملاً طبیعی است که برای درک تصاویر به وسیله این هوش مصنوعی، ابتدا محتوای آن ها باید به متن تبدیل شوند.

مایکروسافت از داده های موجود روی اینترنت برای تعلیم هوش مصنوعی نو خود استفاده نموده است که از جمله منابع آن می توان به گزیده The Pile (مجموعه 800 گیگابایتی از متون انگلیسی) و Common Crawl اشاره نمود. پس از تمرین های اولیه، عملکرد ابزار مورد بحث در آزمایش های مختلف مثل تست های درک زبانی، تشخیص کاراکتر های تصویری، نوشتن شرحات برای عکس ها، پاسخ به سوالات از تصاویر یا صفحات اینترنتی و... مورد ارزیابی نهاده شد. طبق ادعای مایکروسافت، این محصول در بسیاری از تست ها توانسته است تا مدل های فعلی مورد استفاده را پشت سر بگذارد.

یکی از تست های جالبی که Kosmos-1 توانسته در آن عملکرد قابل قبولی از خود نشان دهد، آزمون ریون (Raven) بوده است. ماتریس پیش رونده ریون برای ارزیابی IQ براساس پیش بینی توالی های تصویری طراحی شده است و در رده ازمون های گروهی غیر کلامی هوش قرار می گیرد که در اغلب اوقات داخل مراکز آموزشی، استفاده می گردد. هوش مصنوعی مایکروسافت توانسته است در کوشش های خود، 22 الی 26 درصد از سوالات را با موفقیت پاسخ دهد؛ مقداری که اگرچه کم به نظر می رسد، ولی از حالت پاسخ تصادفی با نرخ 17 درصد، فاصله محسوسی دارد.

محصول تازه مایکروسافت در مراحل اولیه واقع شده است و پیش بینی می گردد که در آینده، با بهینه سازی های بیشتر، می تواند عملکرد بهتری را از خود نشان دهد. چنین مدل های هوش مصنوعی که می توانند از ورودی های گوناگونی پشتیبانی کنند، پتانسیل بالایی برای استفاده به عنوان دستیار های مصنوعی به وسیله کاربران دارند. احتمال می رود که محققان مایکروسافت با توسعه ابداع خود، بتوانند ویژگی های دیگر از جمله تکلم را هم به آن اضافه کنند. مایکروسافت اعلام نموده است که میخواهد Kosmos-1 را در اختیار توسعه دهندگان قرار دهد؛ ولی هنوز تاریخ دقیقی برای انتشار کدها، اعلام ننموده است.

منبع: دیجیاتو

منبع: فرادید

به "هوش مصنوعی تازه مایکروسافت امکان درک محتوای تصاویر و حل پازل را دارد" امتیاز دهید

امتیاز دهید:

دیدگاه های مرتبط با "هوش مصنوعی تازه مایکروسافت امکان درک محتوای تصاویر و حل پازل را دارد"

* نظرتان را در مورد این مقاله با ما درمیان بگذارید