بتوقيت بيروت - 11/22/2025 5:04:18 AM - GMT (+2 )

باحثون من شركة أبل نشرت دراسة تبحث في كيفية قيام LLMs ب بيانات الصوت والحركة نظرة عامة أفضل على أنشطة المستخدم. و التفاصيل.
إنهم جيدون في ذلك، لكن ليس بطريقة مخيفةورقة جديدة بعنوان “استخدام LLMs لدمج أجهزة الاستشعار المتعددة الوسائط المتأخرة للتعرف على النشاطيقدم نظرة ثاقبة حول الكيفية التي قد تفكر بها Apple في دمج LLM جنبًا إلى جنب مع بيانات المستشعر التقليدية فهم أكثر دقة لنشاط المستخدم.
ويقولون إن هذا لديه إمكانات كبيرة لجعل النشاط أكثر دقة، حتى في المواقف التي لا توجد فيها بيانات استشعار كافية.
من الباحثين:
“توفر تدفقات بيانات المستشعر معلومات قيمة حول الأنشطة والسياق للتطبيقات النهائية، على الرغم من أن دمج المعلومات التكميلية قد يكون أمرًا صعبًا. نظهر أنه يمكن استخدام نماذج اللغة الكبيرة (LLMs) للدمج المتأخر لتصنيف الأنشطة من بيانات السلاسل الزمنية للصوت والحركة. قمنا برعاية مجموعة فرعية من البيانات للتعرف على الأنشطة المتنوعة عبر السياقات (على سبيل المثال، الأنشطة المنزلية والرياضة) من مجموعة بيانات Ego4D.
حققت LLMs التي تم تقييمها تصنيف صفر وطلقة واحدة من 12 درجة بشكل كبير فوق الصدفة، مع عدم وجود تدريب بمهمة محددة عبر الدمج القائم على LLM من نماذج محددة للطريقة، يمكن تمكين التطبيقات المؤقتة متعددة الوسائط حيث توجد بيانات تدريب متسقة محدودة لتعلم مساحة تضمين مشتركة. بالإضافة إلى ذلك، يمكن للاندماج القائم على LLM تمكين نشر النموذج دون الحاجة إلى ذاكرة إضافية وحساب للنماذج متعددة الوسائط المستهدفة للتطبيقات.
بمعنى آخر، يعتبر طلاب LLM في الواقع جيدين جدًا في استنتاج ما يفعله المستخدم من إشارات الصوت والحركة الأساسية، حتى عندما لا يتم تدريبهم خصيصًا لذلك. علاوة على ذلك، عندما يتم إعطاء مثال واحد فقط، تتحسن دقتها بشكل أكبر.
أحد الفروق المهمة هو أنه في هذه الدراسة، لم يتم تغذية LLM بالتسجيل الصوتي الفعلي، بل بأوصاف نصية قصيرة تم إنشاؤها بواسطة نماذج صوتية ونموذج حركة قائم على IMU (الذي يتتبع الحركة من خلال بيانات مقياس التسارع والجيروسكوب)، كما هو موضح أدناه:
الغوص أعمق قليلافي هذه الورقة، يوضح الباحثون أنهم استخدموا Ego4D، وهي مجموعة بيانات ضخمة من الوسائط التي تم تصويرها من منظور الشخص الأول. تحتوي البيانات على آلاف الساعات من البيئات والمواقف الواقعية، بدءًا من المهام المنزلية وحتى الأنشطة الخارجية.
من الدراسة:
“لقد قمنا برعاية مجموعة بيانات للأنشطة اليومية من مجموعة بيانات Ego4D من خلال البحث عن أنشطة الحياة اليومية ضمن الأوصاف السردية المقدمة. تتضمن مجموعة البيانات المنسقة 20 عينة ثانية من اثني عشر نشاطًا رفيع المستوى: التنظيف بالمكنسة الكهربائية، والطبخ، وغسل الملابس، وتناول الطعام، ولعب كرة السلة، ولعب كرة القدم، واللعب مع الحيوانات الأليفة، وقراءة كتاب، واستخدام الكمبيوتر، وغسل الأطباق، ومشاهدة التلفزيون، والتمرين / رفع الأثقال. تم اختيار هذه الأنشطة لتشمل مجموعة من المهام المنزلية واللياقة البدنية، واستنادًا إلى انتشارها في المناطق الأكبر مجموعة البيانات.”
قام الباحثون بتشغيل بيانات الصوت والحركة من خلال نماذج أصغر تولد تعليقات نصية وتنبؤات للفصل، ثم أدخلوا تلك المخرجات في LLMs مختلفة (Gemini-2.5-pro وQwen-32B) لمعرفة مدى قدرتهم على تحديد النشاط.
بعد ذلك، قامت شركة Apple بمقارنة أداء هذه النماذج في موقفين مختلفين: الأول حيث تم إعطاؤهم قائمة بالأنشطة الـ 12 الممكنة للاختيار من بينها (مجموعة مغلقة)، والآخر حيث لم يتم منحهم أي خيارات (نهاية مفتوحة).
في كل اختبار، تم إعطاؤهم مجموعات مختلفة من التسميات التوضيحية الصوتية، والتسميات الصوتية، وبيانات التنبؤ بنشاط IMU، وسياق إضافي، وهذه هي الطريقة التي فعلوا بها:
في النهاية، لاحظ الباحثون أن نتائج هذه الدراسة تقدم رؤى مثيرة للاهتمام حول كيف يمكن للجمع بين النماذج المتعددة أن يفيد بيانات النشاط والصحة، ة في الحالات التي تكون فيها بيانات المستشعر الأولية وحدها غير كافية لتقديم ة واضحة عن نشاط المستخدم.
ولعل الأهم من ذلك هو شركة أبل المواد التكميلية المنشورة جنبًا إلى جنب مع الدراسة، بما في ذلك معرفات شريحة Ego4D والطوابع الزمنية والمطالبات وأمثلة طلقة واحدة المستخدمة في التجارب، لمساعدة الباحثين المهتمين بإعادة إنتاج النتائج.
عروض الإكسسوارات على أمازونFTC: نحن نستخدم الروابط التابعة التلقائية لكسب الدخل.أكثر.
إقرأ المزيد


