مدل‌های تبدیل متن به تصویر - Axoomi

مقایسه مدل های هوش مصنوعی تصویر ساز

مجموعه کاملی از مدل‌های هوش مصنوعی تبدیل نوشته به عکس در این قسمت با هم قیاس شده اند و نتایج جالب این مقایسه رو براتون بصورت تصویری قرار دادیم

 gpt-image-1.5
gpt-image-1.5

بسیار زیبا و دقیق خواسته ها رو ایجاد کرد. مدل چت جی پی تی در این آزمایش هم تصویر دقیق و هم از نظر زیبایی شناسی، خروجی زیبایی ایجاد کرد. پرامپت: cinematic action scene, futuristic city at night, neon reflections on wet asphalt, a motorcyclist drifting through traffic while a police drone chases from above, sparks flying, motion blur, dramatic lighting, ultra-detailed, 4K wide shot, high-contrast atmosphere, hyper realistic

google nano-banana-pro
google nano-banana-pro

این مدل به زیبایی صحنه ای زیبا و اکشن درست کرد. ما باران نخواسته بودیم ولی با توجه به اینکه زمین رو خیس خواسته بودیم باران هم به تصویر اضافه شده. رنگ ها حرفه ای و حتی پهباد حالت پلیسی به خود گرفته( دقیقا طبق خواسته ما). موشن بلار و درفت کشیدن موتور و حس و حال اکشن در تصویر همگی خوب هستند. پرامپت: cinematic action scene, futuristic city at night, neon reflections on wet asphalt, a motorcyclist drifting through traffic while a police drone chases from above, sparks flying, motion blur, dramatic lighting, ultra-detailed, 4K wide shot, high-contrast atmosphere, hyper realistic

bytedance seedream-4
bytedance seedream-4

کمی در تصویر در قسمت جرقه های پشت موتور اغراق شده ولی در سایر موارد از پرامپت طبیعیت کرده و باگی در صحنه دیده نمی شود. رنگ ها، حس پلیسی، موشن بلار، خیسی کف زمین و نمای شب همگی به خوبی نشان داده شده اند.

google gemini 2.5  flash
google gemini 2.5 flash

میشه گفت مدل خوبی برای این تصویر بود، تنها نمایش ماشین ها در هوا و انسان در وسط جاده کمی حس غیر طبیعی به تصویر داد. درفت موتور سوار خیلی عالی نمایش داده شده و مسلما جزو مدل های خوب برای این صحنه بوده.

ideogram-v3-balanced
ideogram-v3-balanced

از این مدل به پایین تر کمی جرقه های حاصل از موتور و تصاویر واقعیت خود را از دست داده اند و یا در مواردی از پرامپت پیروی نکرده اند. حس درفت در تصویر مشاهده نمی شود. موشن بلار ها چندان حرفه ای نیستند. پهباد حس پلیس و تعقیب را نمی دهد.

qwen-image
qwen-image

به نظر می بایست جزو مدل های صدر این دسته می بود، تنها مورد نامطلوب جرقه های پهباد پلیس هستند و در غیر این صورت می تواند در رده بندی ما امتیاز خوبی بگیرد.

black-forest-labs flux-2
black-forest-labs flux-2

کمی خیابان شلوغ شده و موتور زیادی چرخیده، حس پلیس از پهباد ایجاد میشود ولی نه به اندازه مدل های بالاتر. موشن بلار کم است و تقریبا احساس تعقیب و گریز یا اکشن القا نمی شود. باگ های تصویر کم است و شاید توصیف بیشتر و حرفه ای تر برای این مدل باعث بهبود کیفیت تصویر شود.

ideogram-v3-quality
ideogram-v3-quality

اگر کمی غیر واقعی بودن تصویر را کنار بگذاریم، به خوبی حس و حال و خواسته های ما را نشان داده. مواردی شامل تعقیب، پلیس، اکشن، موشن بلار، خیسی جاده در تصویر مشهود است.

luma photon-flash
luma photon-flash

نمیشه از تصویر ایرادی گرفت. مثل شاگر تنبلی میمونه که تکلیفشو به درستی انجام داده. شاید اگر رده بندی پایینی انتخاب کنیم در حقش کم لطفی کردیم. به هر حال جزییاتی مثل اکشن بودن، موشن بلار، حس پلیسی پهباد و در مجموع تبعیت از پرامپت به خوبی عمل کرده ولی خلاقیتی اضافه نکرده که شاید مزیت باشه تا عیب. امتیاز دادن به این مورد برام سخت بود.

eonardoai lucid-origin standard
eonardoai lucid-origin standard

نوشته های ژاپنی روی دیوارها چیزی نبوده که خواستیم. هرچند مسلما انگلیسی هم نگفته بودیم باشه. به هر حال مشخصه از اطلاعات چینی یا ژاپنی آموزش دیده. تصویر مناسبه. کمی جرقه موتور زیاده روی شده که در خیلی از مدل ها این مورد وجود داشت. پهباد کمی دور بوده و در موضوع اصلی گنجانده نشده و حس پلیسی به خود نگرفته.

leonardoai lucid-origin ultra
leonardoai lucid-origin ultra

تصویر نسبتا قابل قبول است ولی جرقه ها زیاد از حد غیر طبیعی هستند و تجمع ماشین ها در یک سمت کمی غیر طبیعی جلوه می کند. سایر موارد مثل موشن بلار و خیس بودن آسفالت و حس پلیسی در تصویر مناسب است.

reve
reve

وقتی بحث رئال بودن باشه جزو مدل های محبوب هست، ولی طاویه دید خیابان و حس و حال و خیس بودن آسفالت رو به خوبی نشون نداده و میشه گفت به خوبی از پرامپت تبعیت نکرده. شاید جزو مدل هایی باشه که با پرامپت خوب بشه ازش خروجی گرفت.

ideogram-v3-turbo
ideogram-v3-turbo

تبعیت از پرامپت خوب بوده ولی از نظر زیبایی تصویر و طبیعی بودن تصویر قابل قبول نیست. تصویر به سمت سه بعدی و کارتونی متمایل شده.

prunaai wan-2.2-image
prunaai wan-2.2-image

خیلی همه چیز خوبه ولی عدم وجود موشن بلار حس اکشن رو گرفته و انگار پرزنته یه محصوله تا صحنه تعقیب و گریز. اگر این حس منتقل می شد می تونست مدل خوبی باشه از نظر منطق و زیبایی تصویر.

recraft-v3
recraft-v3

پهباد به درستی نمایش داده نشده، موشن بلار حذف شده و صحنه بیشتر شبیه تعقیب ماشین توسط موتور سوار است و حس پلیسی از تصویر گرفته شده. در این آزمایش عملکرد خوبی از خودش نشون نداد.

nvidia sana
nvidia sana

عاشق این مدل هستم. امیدوارم آپدیتی بده که همه انگشت به دهن بمونن. علیرقم قیمت پایین و سرعت بهینه، تصاویر عجیبی میده که از نظر هنری واقعا زیبا هستند و از پرامپت تبعیت میکنه ولی چرت و پرت میسازه. مثل بچه باهوش 10 ساله ایه که اومده تو دانشگاه و داره تمام سعی خودشو میکنه.