هوش مصنوعی مولد نوعی فناوری هوش مصنوعی است که می تواند انواع مختلف محتوا از جمله متن، تصویر، صدا و داده های مصنوعی تولید کند. هیاهوی اخیر در مورد هوش مصنوعی مولد به دلیل سادگی رابط های کاربری جدید برای ایجاد متن، گرافیک و ویدیوهای با کیفیت بالا در عرض چند ثانیه است.
لازم به ذکر است که این فناوری کاملاً جدید نیست. هوش مصنوعی مولد در دهه 1960 در چت بات ها معرفی شد. اما تا سال 2014، با معرفی شبکههای متخاصم مولد یا GAN – نوعی الگوریتم یادگیری ماشین – بود که هوش مصنوعی مولد توانست تصاویر، ویدیوها و صداهای واقعی قانعکنندهای را خلق کند.
از یک طرف، این قابلیت جدید فرصت هایی را ایجاد کرده است که شامل دوبله بهتر فیلم و محتوای آموزشی غنی می شود. همچنین نگرانیهای مربوط به دیپفیکها – تصاویر یا ویدیوهای جعلی دیجیتالی – و حملات مضر امنیت سایبری به مشاغل، از جمله درخواستهای شرورانهای که به طور واقع بینانه رئیس یک کارمند را تقلید میکنند، باز کرد.
دو پیشرفت اخیر که در ادامه با جزئیات بیشتر مورد بحث قرار خواهند گرفت، نقش مهمی در جریان اصلی هوش مصنوعی مولد ایفا کردهاند: ترانسفورماتورها و مدلهای زبان پیشرفتی که آنها فعال کردهاند. ترانسفورماتورها نوعی یادگیری ماشینی هستند که به محققان امکان آموزش مدل های بزرگتر را بدون نیاز به برچسب زدن همه داده ها از قبل می دهند.
بنابراین میتوان مدلهای جدید را بر روی میلیاردها صفحه متن آموزش داد و در نتیجه به پاسخهایی با عمق بیشتری دست یافت. علاوه بر این، ترانسفورماتورها مفهوم جدیدی به نام توجه را باز کردند که مدلها را قادر میسازد تا ارتباطات بین کلمات را در صفحات، فصلها و کتابها ردیابی کنند و نه فقط در جملات جداگانه. و نه فقط کلمات: ترانسفورماتورها همچنین می توانند از توانایی خود برای ردیابی اتصالات برای تجزیه و تحلیل کد، پروتئین ها، مواد شیمیایی و DNA استفاده کنند.
پیشرفتهای سریع در مدلهای (به اصطلاح) زبان بزرگ (LLM) – یعنی مدلهایی با میلیاردها یا حتی تریلیونها پارامتر – عصر جدیدی را گشوده است که در آن مدلهای هوش مصنوعی مولد میتوانند متن جذاب بنویسند، تصاویر واقعی واقعی را ترسیم و حتی تا حدودی سرگرمکننده خلق کنند. کمدی در پرواز علاوه بر این، نوآوریها در هوش مصنوعی چندوجهی، تیمها را قادر میسازد تا محتوا را در انواع مختلف رسانه، از جمله متن، گرافیک و ویدئو تولید کنند. این اساس ابزارهایی مانند Dall-E است که به طور خودکار تصاویر را از توضیحات متن ایجاد می کند یا زیرنویس متنی را از تصاویر ایجاد می کند.
با وجود این پیشرفت ها، ما هنوز در اول راه استفاده از هوش مصنوعی مولد برای ایجاد متن خوانا و گرافیک های سبک فوتورئالیستی هستیم. پیادهسازیهای اولیه مشکلاتی با دقت و سوگیری داشته، و مستعد توهم و پاسخهای عجیب و غریب هستند. با این حال، پیشرفت تاکنون نشان میدهد که قابلیتهای ذاتی این هوش مصنوعی مولد میتواند اساساً فناوری سازمانی نحوه عملکرد کسبوکارها را تغییر دهد. در آینده، این فناوری می تواند به نوشتن کد، طراحی داروهای جدید، توسعه محصولات، طراحی مجدد فرآیندهای تجاری و تغییر زنجیره تامین کمک کند.
هوش مصنوعی مولد با یک اعلان شروع می شود که می تواند به شکل متن، تصویر، ویدئو، طرح، نت های موسیقی یا هر ورودی باشد که سیستم هوش مصنوعی می تواند پردازش کند. سپس الگوریتمهای مختلف هوش مصنوعی در پاسخ به درخواست، محتوای جدید را برمیگردانند. محتوا میتواند شامل مقالهها، راهحلهایی برای مشکلات یا تقلبی واقعی باشد که از تصاویر یا صدای یک شخص ایجاد شده است.
نسخههای اولیه هوش مصنوعی مولد نیازمند ارسال دادهها از طریق یک API یا یک فرآیند پیچیده بود. توسعه دهندگان باید با ابزارهای ویژه آشنا می شدند و برنامه های کاربردی را با استفاده از زبان هایی مانند پایتون می نوشتند.
اکنون، پیشگامان در هوش مصنوعی مولد در حال توسعه تجربیات کاربری بهتری هستند که به شما امکان می دهد به زبان ساده درخواست دهید. پس از پاسخ اولیه، میتوانید نتایج را با بازخورد درباره سبک، لحن و سایر عناصری که میخواهید محتوای تولید شده منعکس کند، سفارشی کنید.
مدلهای هوش مصنوعی مولد الگوریتمهای هوش مصنوعی مختلفی را برای نمایش و پردازش محتوا ترکیب میکنند. به عنوان مثال، برای تولید متن، تکنیکهای مختلف پردازش زبان طبیعی، نویسههای خام (مانند حروف، علائم نقطهگذاری و کلمات) را به جملات، بخشهایی از گفتار، موجودیتها و کنشها تبدیل میکنند که با استفاده از تکنیکهای رمزگذاری متعدد به صورت بردار نمایش داده میشوند.
به طور مشابه، تصاویر به عناصر بصری مختلف تبدیل می شوند که به صورت بردار نیز بیان می شوند. یکی از موارد احتیاط این است که این تکنیکها همچنین میتوانند سوگیریها، نژادپرستی، فریبکاری و خفگی موجود در دادههای آموزشی را رمزگذاری کنند.
هنگامی که توسعه دهندگان به نشان دادن جهان اقدام می کنند، از یک شبکه عصبی خاص برای تولید محتوای جدید در پاسخ به یک پرس و جو یا درخواست استفاده می کنند. تکنیکهایی مانند GAN و رمزگذارهای خودکار متغیر (VAE) – شبکههای عصبی با رمزگشا و رمزگذار – برای تولید چهرههای واقعی انسان، دادههای مصنوعی برای آموزش هوش مصنوعی یا حتی فکسهای انسانهای خاص مناسب هستند.
پیشرفت اخیر در ترانسفورماتورهایی مانند Bidire گوگل، نمایشهای رمزگذار عملی از Transformers (BERT)، GPT OpenAI و Google AlphaFold همچنین منجر به ایجاد شبکههای عصبی شدهاند که نه تنها میتوانند زبان، تصاویر و پروتئینها را رمزگذاری کنند، بلکه محتوای جدیدی تولید میکنند.
این مقاله ادامه دارد…
برای مطالعه مقالات مربوط به هوش مصنوعی، به لینک زیر مراجعه کنید:
لینکهای مفید: