بتوقيت بيروت - 10/29/2025 6:16:43 AM - GMT (+2 )

أصدرت شركة Apple Pico-Banana-400K، وهي مجموعة بيانات بحثية منسقة للغاية مكونة من 400000 صورة والتي تم إنشاؤها باستخدام نماذج Gemini-2.5 من Google. وهنا التفاصيل.
أبل بحث نشر الفريق دراسة مثيرة للاهتمام بعنوان “Pico-Banana-400K: مجموعة بيانات واسعة النطاق لتحرير الصور الموجهة بالنص”.
وبالإضافة إلى الدراسة، فقد أصدروا أيضًا مجموعة البيانات الكاملة المكونة من 400000 صورة التي أنتجتها، والتي تحمل ترخيص بحث غير تجاري. وهذا يعني أنه يمكن لأي شخص استخدامه واستكشافه، بشرط أن يكون لأغراض العمل الأكاديمي أو أبحاث الذكاء الاصطناعي. وبعبارة أخرى، لا يمكن استخدامه تجاريا.
صحيح، ولكن ما هو؟قبل بضعة أشهر، أصدرت Google نموذج Gemini-2.5-Flash-Image، المعروف أيضًا باسم Nanon-Banana، والذي يمكن القول إنه الأحدث عندما يتعلق الأمر بنماذج تحرير الصور.
أظهرت نماذج أخرى أيضًا تحسينات كبيرة، ولكن كما قال باحثو شركة Apple:
“على الرغم من هذا التقدم، لا يزال البحث المفتوح محدودًا بسبب الافتقار إلى مجموعات بيانات تحرير واسعة النطاق وعالية الجودة وقابلة للمشاركة بالكامل. غالبًا ما تعتمد مجموعات البيانات الحالية على أجيال اصطناعية من نماذج مملوكة أو مجموعات فرعية محدودة ينظمها الإنسان. علاوة على ذلك، تظهر مجموعات البيانات هذه في كثير من الأحيان تحولات في المجال، وتوزيعات غير متوازنة لأنواع التحرير، ومراقبة الجودة غير المتسقة، مما يعيق تطوير نماذج تحرير قوية. “
لذا، شرعت شركة Apple في القيام بشيء حيال ذلك.
بناء بيكو-بانانا-400كأول شيء فعلته شركة آبل هو سحب عدد غير محدد من الصور الحقيقية من مجموعة بيانات OpenImages، “المختارة لضمان تغطية البشر والأشياء والمشاهد النصية”.
نعم، لقد استخدموا فعلاً Comic Sansبعد ذلك، توصلت إلى قائمة تضم 35 نوعًا مختلفًا من التغييرات التي يمكن للمستخدم أن يطلب من النموذج إجراؤها، مجمعة في ثماني فئات. على سبيل المثال:
- البكسل والفوتومترية: أضف حبيبات الفيلم أو مرشح عتيق
- تتمحور حول الإنسان: لعبة شخصية على طراز فانكو بوب
- تكوين المشهد والموضوع المتعدد: تغيير الظروف الجوية (مشمس/ممطر/ثلجي)
- الدلالي على مستوى الكائن: نقل كائن (تغيير موضعه/علاقته المكانية)
- حجم: تكبير
بعد ذلك، سيقوم الباحثون بتحميل صورة إلى Nano-Banana، إلى جانب إحدى هذه المطالبات. بمجرد الانتهاء من إنشاء Nano-Banana للصورة المعدلة، سيطلب الباحثون من Gemini-2.5-Pro تحليل النتيجة، إما بالموافقة عليها أو رفضها، بناءً على الامتثال للتعليمات والجودة البصرية.
وكانت النتيجة هي Pico-Banana-400K، والتي تتضمن صورًا تم إنتاجها من خلال عمليات تحرير أحادية الدورة (موجه واحد)، وتسلسلات تحرير متعددة الدورات (مطالبات متكررة متعددة)، وأزواج تفضيلات تقارن النتائج الناجحة والفاشلة (حتى تتمكن النماذج أيضًا من معرفة كيف تبدو النتائج غير المرغوب فيها).
مع الاعتراف بحدود Nano-Banana في التحرير المكاني الدقيق، واستقراء التخطيط، والطباعة، يقول الباحثون إنهم يأملون أن يكون Pico-Banana-400K بمثابة “أساس قوي للتدريب وقياس الجيل القادم من نماذج تحرير الصور الموجهة بالنص.”
يمكنك العثور على الدراسة على arXiv، ومجموعة البيانات متاحة مجانًا على جيثب.
عروض الإكسسوارات على أمازونFTC: نحن نستخدم الروابط التابعة التلقائية لكسب الدخل. أكثر.
إقرأ المزيد


