17 فروردین

هوش مصنوعی مولد نوعی فناوری هوش مصنوعی است که می تواند انواع مختلف محتوا از جمله متن، تصویر، صدا و داده های مصنوعی تولید کند. هیاهوی اخیر در مورد هوش مصنوعی مولد به دلیل سادگی رابط های کاربری جدید برای ایجاد متن، گرافیک و ویدیوهای با کیفیت بالا در عرض چند ثانیه است.

لازم به ذکر است که این فناوری کاملاً جدید نیست. هوش مصنوعی مولد در دهه 1960 در چت بات ها معرفی شد. اما تا سال 2014، با معرفی شبکه‌های متخاصم مولد یا GAN – نوعی الگوریتم یادگیری ماشین – بود که هوش مصنوعی مولد توانست تصاویر، ویدیوها و صداهای واقعی قانع‌کننده‌ای را خلق کند.

از یک طرف، این قابلیت جدید فرصت هایی را ایجاد کرده است که شامل دوبله بهتر فیلم و محتوای آموزشی غنی می شود. همچنین نگرانی‌های مربوط به دیپ‌فیک‌ها – تصاویر یا ویدیوهای جعلی دیجیتالی – و حملات مضر امنیت سایبری به مشاغل، از جمله درخواست‌های شرورانه‌ای که به طور واقع بینانه رئیس یک کارمند را تقلید می‌کنند، باز کرد.

دو پیشرفت اخیر که در ادامه با جزئیات بیشتر مورد بحث قرار خواهند گرفت، نقش مهمی در جریان اصلی هوش مصنوعی مولد ایفا کرده‌اند: ترانسفورماتورها و مدل‌های زبان پیشرفتی که آنها فعال کرده‌اند. ترانسفورماتورها نوعی یادگیری ماشینی هستند که به محققان امکان آموزش مدل های بزرگتر را بدون نیاز به برچسب زدن همه داده ها از قبل می دهند.

بنابراین می‌توان مدل‌های جدید را بر روی میلیاردها صفحه متن آموزش داد و در نتیجه به پاسخ‌هایی با عمق بیشتری دست یافت. علاوه بر این، ترانسفورماتورها مفهوم جدیدی به نام توجه را باز کردند که مدل‌ها را قادر می‌سازد تا ارتباطات بین کلمات را در صفحات، فصل‌ها و کتاب‌ها ردیابی کنند و نه فقط در جملات جداگانه. و نه فقط کلمات: ترانسفورماتورها همچنین می توانند از توانایی خود برای ردیابی اتصالات برای تجزیه و تحلیل کد، پروتئین ها، مواد شیمیایی و DNA استفاده کنند.

پیشرفت‌های سریع در مدل‌های (به اصطلاح) زبان بزرگ (LLM) – یعنی مدل‌هایی با میلیاردها یا حتی تریلیون‌ها پارامتر – عصر جدیدی را گشوده است که در آن مدل‌های هوش مصنوعی مولد می‌توانند متن جذاب بنویسند، تصاویر واقعی واقعی را ترسیم و حتی تا حدودی سرگرم‌کننده خلق کنند. کمدی در پرواز علاوه بر این، نوآوری‌ها در هوش مصنوعی چندوجهی، تیم‌ها را قادر می‌سازد تا محتوا را در انواع مختلف رسانه، از جمله متن، گرافیک و ویدئو تولید کنند. این اساس ابزارهایی مانند Dall-E است که به طور خودکار تصاویر را از توضیحات متن ایجاد می کند یا زیرنویس متنی را از تصاویر ایجاد می کند.

با وجود این پیشرفت ها، ما هنوز در اول راه استفاده از هوش مصنوعی مولد برای ایجاد متن خوانا و گرافیک های سبک فوتورئالیستی هستیم. پیاده‌سازی‌های اولیه مشکلاتی با دقت و سوگیری داشته‌، و مستعد توهم و پاسخ‌های عجیب و غریب هستند. با این حال، پیشرفت تاکنون نشان می‌دهد که قابلیت‌های ذاتی این هوش مصنوعی مولد می‌تواند اساساً فناوری سازمانی نحوه عملکرد کسب‌وکارها را تغییر دهد. در آینده، این فناوری می تواند به نوشتن کد، طراحی داروهای جدید، توسعه محصولات، طراحی مجدد فرآیندهای تجاری و تغییر زنجیره تامین کمک کند.

هوش مصنوعی مولد چگونه کار می کند؟

هوش مصنوعی مولد با یک اعلان شروع می شود که می تواند به شکل متن، تصویر، ویدئو، طرح، نت های موسیقی یا هر ورودی باشد که سیستم هوش مصنوعی می تواند پردازش کند. سپس الگوریتم‌های مختلف هوش مصنوعی در پاسخ به درخواست، محتوای جدید را برمی‌گردانند. محتوا می‌تواند شامل مقاله‌ها، راه‌حل‌هایی برای مشکلات یا تقلبی واقعی باشد که از تصاویر یا صدای یک شخص ایجاد شده است.

نسخه‌های اولیه هوش مصنوعی مولد نیازمند ارسال داده‌ها از طریق یک API یا یک فرآیند پیچیده بود. توسعه دهندگان باید با ابزارهای ویژه آشنا می شدند و برنامه های کاربردی را با استفاده از زبان هایی مانند پایتون می نوشتند.

اکنون، پیشگامان در هوش مصنوعی مولد در حال توسعه تجربیات کاربری بهتری هستند که به شما امکان می دهد به زبان ساده درخواست دهید. پس از پاسخ اولیه، می‌توانید نتایج را با بازخورد درباره سبک، لحن و سایر عناصری که می‌خواهید محتوای تولید شده منعکس کند، سفارشی کنید.

مدل های مولد هوش مصنوعی

مدل‌های هوش مصنوعی مولد الگوریتم‌های هوش مصنوعی مختلفی را برای نمایش و پردازش محتوا ترکیب می‌کنند. به عنوان مثال، برای تولید متن، تکنیک‌های مختلف پردازش زبان طبیعی، نویسه‌های خام (مانند حروف، علائم نقطه‌گذاری و کلمات) را به جملات، بخش‌هایی از گفتار، موجودیت‌ها و کنش‌ها تبدیل می‌کنند که با استفاده از تکنیک‌های رمزگذاری متعدد به صورت بردار نمایش داده می‌شوند.

به طور مشابه، تصاویر به عناصر بصری مختلف تبدیل می شوند که به صورت بردار نیز بیان می شوند. یکی از موارد احتیاط این است که این تکنیک‌ها همچنین می‌توانند سوگیری‌ها، نژادپرستی، فریبکاری و خفگی موجود در داده‌های آموزشی را رمزگذاری کنند.

هنگامی که توسعه دهندگان به نشان دادن جهان اقدام می کنند، از یک شبکه عصبی خاص برای تولید محتوای جدید در پاسخ به یک پرس و جو یا درخواست استفاده می کنند. تکنیک‌هایی مانند GAN و رمزگذارهای خودکار متغیر (VAE) – شبکه‌های عصبی با رمزگشا و رمزگذار – برای تولید چهره‌های واقعی انسان، داده‌های مصنوعی برای آموزش هوش مصنوعی یا حتی فکس‌های انسان‌های خاص مناسب هستند.

پیشرفت اخیر در ترانسفورماتورهایی مانند Bidire گوگل، نمایش‌های رمزگذار عملی از Transformers (BERT)، GPT OpenAI و Google AlphaFold همچنین منجر به ایجاد شبکه‌های عصبی شده‌اند که نه تنها می‌توانند زبان، تصاویر و پروتئین‌ها را رمزگذاری کنند، بلکه محتوای جدیدی تولید می‌کنند.

این مقاله ادامه دارد…

برای مطالعه مقالات مربوط به هوش مصنوعی، به لینک زیر مراجعه کنید:

هوش مصنوعی

لینکهای مفید:

گروه خودروسازی سایپا

برچسب: فناوری هوش مصنوعی