نفيديا على قدم وساق. بعد الكشف عن Blackwell SuperChip المصممة لتدريب نماذج الذكاء الاصطناعي الأكثر قوة مثل GPT وClaude وGemini، قامت بإثارة أداة الذكاء الاصطناعي الخاصة بها لتحويل النص إلى نص ثلاثي الأبعاد (راجع دليلنا لأفضل بطاقات الرسومات لخيارات المستهلك).
اختتمت GTC الأسبوع من خلال عرض شركة بطاقات الرسوميات LATTE3D، وهو نموذج الذكاء الاصطناعي المولد لتحويل النص إلى ثلاثي الأبعاد والذي وصفته بأنه “طابعة ثلاثية الأبعاد افتراضية”. يمكنه تحويل المحفزات النصية إلى تمثيلات ثلاثية الأبعاد للأشياء والحيوانات في غضون ثانية واحدة.
تقول Nvidia إن النماذج ثلاثية الأبعاد التي أنشأتها LATTE3D “يمكن عرضها بسهولة في بيئات افتراضية لإنشاء ألعاب فيديو أو حملات إعلانية أو مشاريع تصميم أو أماكن تدريب افتراضية للروبوتات”. لقد بحثنا من قبل في أدوات تحويل النص إلى ثلاثية الأبعاد، ويشيد بعض الأشخاص عبر الإنترنت بأن جودة نتائج LATTE3D ليست مثيرة للإعجاب. لكن النموذج الجديد يمثل تحسنا كبيرا، خاصة من حيث السرعة.
تقول Nvidia إنها تنشئ أشكالًا ثلاثية الأبعاد على الفور تقريبًا عند تشغيل الاستدلال على وحدة معالجة الرسومات مثل NVIDIA RTX A6000 المستخدم في العرض البحثي. وهذا يعني أن منشئ المحتوى الذي يبدأ تصميمًا من الصفر أو يبحث في مكتبة أصول ثلاثية الأبعاد يمكنه استخدام LATTE3D لإنشاء كائنات تفصيلية بمجرد ظهور الأفكار عليه.
يقوم النموذج بإنشاء خيارات متعددة للأشكال ثلاثية الأبعاد بناءً على كل تحفيز نصي. يمكن تحسين الكائنات المطلوبة إلى جودة عالية وتصديرها إلى تطبيقات أو منصات برامج الرسومات نفيديا أومنيفرسفإنه يمكن وصف العرض العالمي (OpenUSD)– سير العمل والتطبيقات ثلاثية الأبعاد.
وقالت سانجا فيدلر، نائب رئيس أبحاث الذكاء الاصطناعي: “قبل عام، كانت نماذج الذكاء الاصطناعي تستغرق ساعة واحدة لإنشاء مشاهد ثلاثية الأبعاد بهذه الجودة – ويستغرق الوضع الحالي للفن الآن حوالي 10 إلى 12 ثانية”. يمكن للمبدعين في جميع الصناعات الوصول إلى إنشاء نص ثلاثي الأبعاد في الوقت الفعلي، مما يؤدي إلى تحقيق النتائج بسرعة.
تم تطوير LATTE3D بواسطة فريق AI Labs التابع لشركة Nvidia ومقره تورونتو وتم تدريبه باستخدام المحفزات النصية التي تم إنشاؤها باستخدام ChatGPT لتحسين قدرة النموذج على التعامل مع العبارات المختلفة التي قد يأتي بها المستخدم لوصف كائن ثلاثي الأبعاد معين. على الرغم من أن الباحثين قاموا بتدريب LATTE3D على مجموعتين محددتين من البيانات، الحيوانات والأشياء اليومية، إلا أنه يمكن استخدام نفس البنية لتدريب الذكاء الاصطناعي على أنواع بيانات أخرى. هذا مشروع بحثي فقط وغير متاح للاستخدام العام.
كتب منشئ الذكاء الاصطناعي بيلاوال سيدو X: “القفزة هائلة. كان DreamFusion حوالي عام 2022 بطيئًا ومنخفض الجودة، ولكنه أنشأ هذه الثورة ثلاثية الأبعاد. وقد طاردت الجهود مثل ATT3D (تركيب الكائنات المستهلكة من النص إلى ثلاثي الأبعاد) السرعة على حساب الجودة. الآن مع LATTE3D، هناك المزيد الجودة والعمليات في أقل من ثانية. ! يعني أنه يمكنك بسرعة إعادة إنشاء عالم ثلاثي الأبعاد ثلاثي الأبعاد باستخدام النص أو الصور.”
إلى جانب الفيديو، تعد الأبعاد الثلاثية هي الحدود التالية لإنشاء صور الذكاء الاصطناعي. أعلنت شركة Adobe هذا الأسبوع عن أول أدواتها التي تعمل بتقنية Firefly AI لدمج Object 3D.