میدجورنی؛ هوش مصنوعی خلاقی که دنیای هنر را متحول می‌کند

آثار هنری تولید شده توسط هوش مصنوعی، بی‌سروصدا شروع به تغییر شکل فرهنگ می‌کنند. طی چند سال اخیر، توانایی سیستم‌های یادگیری ماشین برای تولید تصاویر از طریق پیام‌های متنی به‌طرز چشمگیری در کیفیت، دقت و بیان افزایش یافته است.

اکنون، این ابزارها کم‌کم از آزمایشگاه‌های تحقیقاتی خارج می‌شوند و به‌دست کاربران عادی می‌رسند؛ جایی که آن‌ها زبان‌های بصری تازه و البته به احتمال زیاد، انواع تازه‌ای از مشکلات را ایجاد می‌کنند.

تصور می‌شود که در حال حاضر، تنها چند ده هوش مصنوعی شاخص تولیدکننده‌ی تصویر وجود دارد. ساختن آن‌ها دشوار و پرهزینه است و نیاز به دسترسی به میلیون‌ها تصویر مورد استفاده برای آموزش سیستم دارد زیرا الگوریتم به‌دنبال الگوها در تصاویر می‌گردد و آن‌ها را کپی می‌کند. از سویی این کار هزینه‌ی محاسباتی بالایی هم دارد که بسته به کاربرد متفاوت است اما یک میلیون دلار، رقمی متداول در این زمینه به‌نظر می‌رسد.

در حال حاضر و تا زمانی که ، خروجی این سامانه‌های هوش مصنوعی، روی جلد مجله‌ها دیده می‌شود یا برای تولید میم‌ها استفاده می‌شود، بیشتر به‌عنوان یک تجربه‌ی تازه در نظر گرفته می‌شود. اما هنرمندان و طراحان هم‌چنان در حال ادغام این نرم‌افزار با روند کاری خود هستند و در مدت کوتاهی، هنرهای تولید شده و تقویت‌شده با هوش مصنوعی در همه جا حضور خواهند داشت.

آیا در آینده‌ی نزدیک از هوش مصنوعی شکست می‌خوریم؟

بدین ترتیب پرسش‌های مرتبط با حق مالکیت اثر، مانند اینکه چه کسی آن را ساخته و متعلق به چه کسی است، و همچنین در مورد خطرات احتمالی، مانند خروجی غرض‌ورزانه یا اطلاعات نادرست تولید شده توسط هوش مصنوعی، باید به‌سرعت حل شوند.

با این حال، همین‌طور که این فناوری به یک جریان اصلی تبدیل می‌شود، شرکت‌ها می‌توانند با عرضه‌ی محصولات خود در این زمینه، اعتبار ویژه‌ای کسب کنند. برای نمونه مدتی است که یک آزمایشگاه تحقیقاتی ۱۰ نفره به نام «میدجورنی» (Midjourney) محصولی را طراحی کرده است که یک هوش مصنوعی تولیدکننده‌ی تصویر را از طریق سرور چت «دیسکورد» (Discord) دردسترس قرار می‌دهد.

اگرچه نام آن ممکن است ناآشنا باشد، اما احتمالا خروجی سیستم میدجورنی را در شبکه‌های اجتماعی دیده‌اید. برای خلق اثر خود، فقط کافی است که به دیسکورد Midjourney بپیوندید، یک دستور را تایپ کنید و سیستم یک تصویر برای شما می‌سازد.

میدجورنی (MidJourney) چیست؟

در حقیقت می‌توان به زبان ساده MidJourney را یک تبدیل‌گر تازه‌ی متن به تصویر بر پایه‌ی هوش مصنوعی دانست که بر اساس درخواست متنی کاربر، تصاویری را تولید می‌کند که به‌طرزی عجیب هنری و انتزاعی هستند.

این تیم، خود را این‌چنین توصیف می‌کند: «یک آزمایشگاه تحقیقاتی مستقل برای کاوش در رسانه‌های فکری جدید گسترش قوای تخیل نوع بشر.»

این هوش مصنوعی به سرعت اینترنت را دربر گرفته و کاربران شبکه‌های اجتماعی آن را با «دال-ای مینی» (Dall-E Mini) مقایسه می‌کنند که به دلیل انجام عملکرد مشابه، به شهرت زیادی رسیده است.

پیش‌زمینه‌ی ساخت این هوش مصنوعی

«دیوید هولز» (David Holz) که زمان تحصیل درمقطع دکتری، به‌عنوان متخصص ناسا و مؤسسه‌ی ماکس پلانک مشغول فعالیت بوده، ناگهان آن را کنار گذاشته و با رفتن به سان‌فرانسیسکو در حدود ۲۰۱۱ شرکت «لیپ موشن» (Leap Motion) را در زمینه‌ی ساخت نوعی سخت‌افزار برای خوانش حرکات دست راه‌اندازی کرده است.

اما به گفته‌ی خودش برای خلق چیزی متفاوت پس از حدود ۱۲ سال این فعالیت را هم رها کرده و میدجورنی را راه‌اندازی کرده است که در حال حاضر تنها از ۱۰ نفر تشکیل شده است. آن‌ها روی پروژه‌های متفاوتی کار می‌کنند اما یک پس‌زمینه‌ی مشترک در همه‌ی فعالیت‌هایشان وجود دارد: بازتاب واقعیت، تخیل و هماهنگی.

هدف این تیم خلق دیپ فیک یا حتی هنر صِرف نیست بلکه هدف آن‌ها گسترش قدرت تخیل گونه‌ی بشر است. به گفته‌ی خودشان، درست مانند موتورها از جمله در هواپیماها و خودروها که کار جابه‌جایی را آسان کرده‌اند اما بشر از راه رفتن دست بر نداشته است، آن‌ها هم این هوش مصنوعی را مانند موتوری برای تخیل می‌دانند.

موتور تخیل
Credit: The Verge/MidJourney

جایگاه میدجورنی در میان هوش مصنوعی‌های دیگر

آزمایشگاه‌ها و شرکت‌های زیادی روی فناوری مشابهی برای تبدیل متن به تصویر کار می‌کنند. از جمله گوگل «ایمجن» (Imagen) را دارد و «دال‌-ای» (Dall-E) متعلق به «اوپن ای‌آی» (Open AI) است و حتی پروژه‌های کوچک‌تری مانند «کرایون» (Craiyon) هم وجود دارند.

برای اینکه هوش مصنوعی چنین قدرتی داشته باشد، باید دو جنبه‌ی درک زبان و توانایی خلق تصاویر با هم ترکیب شوند و این‌جاست که می‌توان کارهای خارق‌العاده‌ای انجام داد.

هولز گفت: «در یکی دو سال آینده، می‌توانید محتوا را در زمان واقعی ایجاد کنید: ۳۰ فریم در ثانیه با وضوح بالا. گران خواهد بود، اما ممکن است. سپس ۱۰ سال دیگر، می‌توانید یک ایکس‌باکس با یک پردازنده‌ی قدرتمند هوش مصنوعی بخرید و بدین ترتیب همه‌ی بازی‌ها همان رؤیای شما هستند.»

ایکس‌باکس دارای هوش مصنوعی با توانایی شبیه‌سازی رؤیا
Credit: The Verge/MidJourney

از منظر فناوری این‌ها واقعیت هستند و هیچ راهی برای دور زدن آن وجود ندارد اما از نگاه انسانی چطور؟ باید راهی برای کاربردی ساختن این هوش مصنوعی وجود داشته باشد و به همین دلیل میدجورنی تمرکز خود را بر اجتماعی کردن این فناوری گذاشته است.

به گفته‌ی این تیم، پس از اولین آزمایش‌ها، آن‌ها خیلی زود متوجه شدند که مردم به‌صورت انفرادی در یک ساختار منسجم درخواست ندارند و هنگام نوشتن متن، بی‌هدف از یک موضوع، به سراغ موضوعی متفاوت می‌روند.

اما در محیطی اجتماعی مانند دیسکورد این امکان وجود دارد که توصیف‌های یکدیگر را تکمیل کنند و با تخیل گروهی چیزهایی کاربردی‌تر خلق کنند.

از سوی دیگر این هوش مصنوعی دارای یک پیش‌زمینه‌ی هنری است و به همین دلیل عواطف انسانی را درگیر می‌کند.

به گفته‌ی هولز، اگر با گفتن یک واژه مثلا «سگ» عکس آن را نشان دهد، همان کاری است که جست‌وجوی گوگل هم انجام می‌دهد اما نگاه هنرمندانه‌ای که در آثار تولید شده دخیل می‌کند ویژگی خاص این هوش مصنوعی ست.

از نظر مقایسه با دیگر ترندهای هوش مصنوعی هم در حالی که تصاویر دال-ای در اغلب موارد واقع‌گرایانه‌تر هستند، تمرکز میدجورنی بر خلق آثار هنری متفاوت است. به عبارتی می‌توان گفت که دال-ای صحنه‌های بسیار واضح ایجاد می‌کند اما میدجورنی بافتی خلاقانه‌تر و شگفت‌انگیزتر ارائه می‌دهد.

مقایسه‌ی تصویر تولید شده توسط دال‌ای (سمت چپ) با میدجورنی (سمت راست) با دستور مشترک درباره‌ی چیدمان با کیسه‌ی پلاستیکی
Credit: Fabian Stezler

انسان، کنترل‌کننده‌ی هوش مصنوعی

به گفته‌ی میدجورنی، هر بار که از این هوش مصنوعی بخواهید عکسی بسازد، چیز دیگری را که تا کنون ساخته شده به‌خاطر نمی‌آورد یا نمی‌داند. نه اراده‌ای دارد، نه هدفی، نه گرایشی و نه توانایی قصه‌پردازی؛ بنابراین تمام نفس و اراده و داستان انسان فرمان‌دهنده به آن است.

امنیت هوش مصنوعی میدجورنی

با چنین توانایی بالقوه‌ای، برخی نگران استفاده از این هوش مصنوعی برای تولید محتوای زیان‌بار، ناپسند، خشونت‌آمیز یا اطلاعات نادرست هستند.

به گفته‌ی این تیم در همه‌ی جامعه‌ها چنین اقداماتی وجود دارد و طبیعتا چیزی نیست که آن‌ها بخواهند. به همین دلیل میدجورنی در حال توسعه‌ی راهکارهای مقابله با چنین استفاده‌هایی است اما در حال حاضر هم راهکارهایی دارد.

نخست اینکه نام هر طراح اثر روی آن ثبت می‌شود و بنابراین در استفاده از آن محتاطانه‌تر عمل می‌کنند. همچنین تمرکز این هوش مصنوعی چارچوب مشخصی دارد که استفاده از واژه‌هایی نامتعارف برای آن محدود شده است.

متفاوت با دیپ فیک

این هوش مصنوعی توانایی ساخت تصاویری از چهره‌های مشهور را دارد اما با توجه به اینکه بر مفاهیم هنری و زیبایی‌شناختی استوار است، در حال حاضر نمی‌توان با استفاده از آن دیپ فیک (جعل عمیق) تولید کرد.

به گفته‌ی هولز «شاید اگر ۱۰۰ ساعت تلاش کنید، بتوانید ترکیب درستی از کلمات را پیدا کنید که تصویر تولید شده را واقع‌گرایانه نشان دهد، اما باید واقعا سخت کار کنید تا آن را شبیه به یک عکس حقیقی کنید.»

منبع داده‌های آموزشی

داده‌های آموزشی این هوش مصنوعی تقریبا به‌طور کامل از اینترنت گردآوری شده است و هم‌چنان مانند هر مدل هوش مصنوعی بزرگ، تمام داده‌های مورد نیاز برای متن‌ها و تصاویر را از وب به دست می‌آورد.

با توجه به اینکه این پروژه هنوز در ابتدای راه است، انبوهی از داده‌ها را به‌صورت کلی در اختیار دارد و به گفته‌ی سازندگان این یک روند تجربی است و با گذشت زمان و درنظر گرفتن تمایل مردم، امکان استفاده‌ی بهتر از داده‌های موجود فراهم می‌شود.

هوش مصنوعی فیزیکدانان را هم به چالش کشید!

نگاه هنرمندان

در حال حاضر به گفته‌ی این تیم، هنرمندانی که از این پروژه استفاده کرده‌اند، آن را جالب عنوان می‌کنند و معتقدند که این ابزار ترسی ندارد. آن‌ها بیان کرده‌اند که میدجورنی مانند یک دانشجوی هنر است که سعی می‌کند با الهام از هنرمند اصلی، چیزی خلق کند.

از سویی هولز هم معتقد است که هنرمندان می‌توانند از این ابزار، به‌عنوان بخشی از جریان هنری خود بهره بگیرند.

گروهی از انسان‌ها که تخیل آن‌ها با هوش مصنوعی افزایش یافته است.

گروهی از انسان‌ها که قدرت تخیل آن‌ها با هوش مصنوعی افزایش یافته است.
Credit: The Verge/MidJourney

نام‌نویسی در میدجورنی

اگر مجذوب توانایی میدجورنی در تولید آثار انتزاعی شده‌اید و توانایی بیان عبارت‌های مناسب برای خلق یک اثر هنری را دارید می‌توانید در این سامانه ثبت نام کنید. پیوستن به دیسکورد میدجورنی برای استفاده از هوش مصنوعی آن، با استفاده از یک کد دعوت انجام می‌شود.

برای دریافت این کد دعوت دو راه اصلی وجود دارد. می‌توانید مستقیما به وب‌سایت MidJourney بروید و با کلیک روی Join the beta فرم مرتبط را پر کنید و منتظر کد دعوت بمانید که زمان آن مشخص نیست. راه دیگر استفاده از کد دعوتی است که یکی از کاربران غیررایگان می‌تواند در اختیار شما قرار دهد. هر کاربری با اشتراک ۱۰ یا ۳۰ دلاری، ۵ کد دعوت دریافت می‌کنند که هر یک برای دعوت یک کاربر قابل استفاده است.

پس از پیوستن به دیسکورد میدجورنی امکان استفاده از ۲۰ تا ۲۵ دستور رایگان برای آزمایش ربات میدجورنی وجود دارد و پس از آن برای دریافت امکان ایجاد تصاویر بیشتر باید با پرداخت هزینه، اشتراک پایه یا استاندارد را دریافت کنید.

برای خلق تصاویر هم کافی است گزاره (Prompt) خود را برای ربات ارسال کنید و پس از مدتی، ربات تصویر تولید شده را به شما تحویل می‌دهد.

طراحی انتزاعی یک پادشاه اشکانی با زره طلایی ساخته شده با میدجورنی
Credit: Mohammad Rasoulipour/MidJourney

زمان نشان خواهد داد که آیا میدجورنی می‌تواند به شهرتی که دال-ای به آن دست یافته است برسد یا نه، اما این موضوع روشن است که فناوری هوش مصنوعی برای خلق آثار هنری تازه و متفاوت با آنچه تا کنون دیده‌ایم، به‌طرز چشمگیری در حال پیشرفت است.

عکس کاور: پیشروی خلاقیت بشر با هوش مصنوعی
Credit: The Verge/MidJourney

منابع: The Verge, Dexerto, ViViPic

نوشته میدجورنی؛ هوش مصنوعی خلاقی که دنیای هنر را متحول می‌کند اولین بار در دیجی‌کالا مگ. پدیدار شد.

منبع متن: digikala

: دسته: تکنولوژی; منتشر شده در 16 مرداد 1401; بازدید: 305