Bitget App
تداول بذكاء
شراء العملات المشفرةنظرة عامة على السوقالتداولالعقود الآجلةEarnالويب 3مربعالمزيد
التداول
التداول الفوري
شراء العملات المشفرة وبيعها بسهولة
الهامش
قم بزيادة رأس مالك وكفاءة التمويل
Onchain
Going Onchain, without going Onchain!
تحويل
لا توجد رسوم معاملات وبدون انخفاض في السعر.
استكشاف
Launchhub
احصل على الأفضلية مبكرًا وابدأ بالفوز
التداول بالنسخ
انسخ تداول المتداول المميز بنقرة واحدة
Bots
برنامج تداول آلي مدعوم بالذكاء الاصطناعي ذكي بسيط وسريع وموثوق
التداول
العقود الآجلة لعملة USDT-M
تمت تسوية العقود الآجلة بعملة USDT
العقود الآجلة لعملة USDC-M
تمت تسوية العقود الآجلة بعملة USDC
العقود الآجلة لعملة Coin-M
تمت تسوية العقود الآجلة بالعملات المشفرة
استكشاف
دليل العقود الآجلة
رحلة من المبتدئين إلى المتقدمين في تداول العقود الآجلة
العروض الترويجية للعقود الآجلة
مكافآت سخية بانتظارك
نظرة عامة
مجموعة من المنتجات لتنمية أصولك
Simple Earn
يُمكنك الإيداع والسحب في أي وقتٍ لتحقيق عوائد مرنة بدون مخاطر.
On-chain Earn
اربح أرباحًا يوميًا دون المخاطرة برأس المال
منتج Earn المنظم
ابتكار مالي قوي للتعامل مع تقلبات السوق
المستوى المميز (VIP) وإدارة الثروات
خدمات متميزة لإدارة الثروات الذكية
القروض
اقتراض مرن مع أمان عالي للأموال
أطلقت شركة Gensyn إطار عمل RL Swarm للتعلم التعزيزي التعاوني، وتخطط لإطلاق شبكة اختبار في مارس

أطلقت شركة Gensyn إطار عمل RL Swarm للتعلم التعزيزي التعاوني، وتخطط لإطلاق شبكة اختبار في مارس

Mpost2025/02/27 19:00
By:Mpost

في سطور قدمت شركة Gensyn RL Swarm لتسهيل التعلم التعزيزي التعاوني وأعلنت عن إطلاق شبكة اختبار في مارس، مما يتيح مشاركة أوسع في تطوير الذكاء الآلي المفتوح.

شبكة للذكاء الآلي، جينسين لقد قدمت شركة RL Swarm، وهو نظام نظير إلى نظير لامركزي مصمم لتسهيل التعلم التعزيزي التعاوني عبر الإنترنت. وفي الشهر المقبل، يعتزم المشروع إطلاق شبكة اختبار، مما يسمح بمشاركة أوسع في تطوير الذكاء الاصطناعي المفتوح.  

RL Swarm عبارة عن منصة مفتوحة المصدر بالكامل تتيح لنماذج التعلم التعزيزي التدريب بشكل جماعي عبر أنظمة موزعة. وهي بمثابة عرض توضيحي في الوقت الفعلي لنتائج الأبحاث التي تشير إلى أن النماذج التي تستفيد من التعلم التعزيزي يمكنها تحسين كفاءة التعلم الخاصة بها عند تدريبها كجزء من سرب تعاوني وليس في عزلة.  

إن تشغيل عقدة سرب يوفر القدرة على بدء سرب جديد أو الاتصال بسرب موجود باستخدام عنوان عام. داخل كل سرب، تشارك النماذج في التعلم التعزيزي كمجموعة، باستخدام بروتوكول اتصال لامركزي - يعتمد على Hivemind - لتسهيل تبادل المعرفة وتحسين النموذج. من خلال تشغيل برنامج العميل المقدم، يمكن للمشاركين الانضمام إلى سرب ومراقبة التحديثات المشتركة وتدريب النماذج محليًا مع الاستفادة من الذكاء الجماعي. بالنظر إلى المستقبل، سيتم تقديم تجارب إضافية، مما يشجع على المشاركة الأوسع في تطوير هذه التكنولوجيا.  

ندعو الأفراد للانضمام إلى RL Swarm لتجربة النظام بشكل مباشر. يمكن المشاركة من خلال أجهزة المستهلك القياسية وموارد وحدة معالجة الرسوميات المستندة إلى السحابة الأكثر تقدمًا.

شبكة الذكاء الآلي

قبل عامين، وضعنا رؤيتنا لبروتوكول حوسبة التعلم الآلي. بروتوكول يربط كل جهاز في العالم بشبكة مفتوحة للذكاء الآلي، دون حراس أو حدود اصطناعية.

هذا الأسبوع، سوف نكون… pic.twitter.com/W9WGJHiJPI

— جينسين (@gensynai) ٥ فبراير، ٢٠٢٤

كيف يعمل RL Swarm؟ 

جينسين لقد تصورت شركة Gensyn منذ فترة طويلة مستقبلًا حيث يتم توزيع التعلم الآلي بشكل لامركزي عبر شبكة واسعة من الأجهزة. وبدلاً من الاعتماد على نماذج مركزية كبيرة، فإن هذا النهج يتضمن تقسيم النماذج إلى مكونات أصغر ومترابطة تعمل بشكل تعاوني. وكجزء من بحثها في هذه الرؤية، استكشفت شركة Gensyn مسارات مختلفة نحو التعلم اللامركزي ولاحظت مؤخرًا أن التعلم التعزيزي بعد التدريب يكون فعالًا بشكل خاص عندما تتواصل النماذج وتقدم ملاحظات لبعضها البعض.  

على وجه التحديد، تشير التجارب إلى أن نماذج التعلم المعزز تعمل على تحسين كفاءة التعلم عندما يتم تدريبها كجزء من سرب تعاوني وليس بشكل مستقل.  

في هذا الإعداد، تقوم كل عقدة سرب بتشغيل نموذج Qwen 2.5 1.5B وتشارك في حل المشكلات الرياضية (GSM8K) من خلال عملية منظمة من ثلاث مراحل. في المرحلة الأولى، يحاول كل نموذج بشكل مستقل حل المشكلة المعطاة، وتوليد المنطق والإجابة بتنسيق محدد. في المرحلة الثانية، تقوم النماذج بمراجعة استجابات أقرانها وتقديم ملاحظات بناءة. في المرحلة النهائية، يصوت كل نموذج على ما يتوقع أن تعتبره الأغلبية أفضل إجابة، ثم يصقل استجابته وفقًا لذلك. من خلال هذه التفاعلات التكرارية، تعمل النماذج بشكل جماعي على تعزيز قدراتها على حل المشكلات.  

تشير النتائج التجريبية إلى أن هذه الطريقة تعمل على تسريع عملية التعلم، مما يتيح للنماذج إنشاء استجابات أكثر دقة على بيانات اختبار غير مرئية مع تكرارات تدريب أقل.  

توضح عمليات تصور البيانات باستخدام TensorBoard الاتجاهات الرئيسية التي لوحظت في عقدة سرب مشاركة. تعرض هذه المخططات أنماطًا دورية بسبب "إعادة الضبط" الدورية التي تحدث بين جولات التدريب التعاوني. يمثل المحور x في جميع المخططات الوقت المنقضي منذ انضمام العقدة إلى السرب، بينما ينقل المحور y مقاييس أداء مختلفة. من اليسار إلى اليمين، تصور المخططات: مكافأة صحة الإجماع، والتي تقيس الحالات التي قام فيها النموذج بتنسيق استجابته بشكل صحيح وأنتج إجابة دقيقة رياضيًا؛ المكافأة الإجمالية، وهي مجموع مرجح للتقييمات القائمة على القواعد (مثل التنسيق والدقة الرياضية والتماسك المنطقي)؛ خسارة التدريب، والتي تعكس كيف يتكيف النموذج بناءً على إشارات المكافأة لتحسين عملية التعلم الخاصة به؛ وطول إكمال الاستجابة، والذي يتتبع عدد الرموز المستخدمة في الاستجابات - مما يشير إلى أن النماذج تصبح أكثر إيجازًا عندما تتلقى انتقادات الأقران.

thumbsUp
0

إخلاء المسؤولية: يعكس محتوى هذه المقالة رأي المؤلف فقط ولا يمثل المنصة بأي صفة. لا يُقصد من هذه المقالة أن تكون بمثابة مرجع لاتخاذ قرارات الاستثمار.

منصة PoolX: احتفظ بالعملات لتربح
ما يصل إلى 10% + معدل الفائدة السنوي. عزز أرباحك بزيادة رصيدك من العملات
احتفظ بالعملة الآن!