Home تكنولوجيا MLow: برنامج ترميز الصوت ذو معدل البت المنخفض الخاص بـ Meta

MLow: برنامج ترميز الصوت ذو معدل البت المنخفض الخاص بـ Meta

0
MLow: برنامج ترميز الصوت ذو معدل البت المنخفض الخاص بـ Meta
  • في Meta، ندعم الاتصال في الوقت الفعلي (RTC) لمليارات الأشخاص من خلال تطبيقاتنا، بما في ذلك WhatsApp وInstagram وMessenger.
  • نحن نعمل على جعل RTC في متناول الجميع من خلال توفير تجربة عالية الجودة – حتى أولئك الذين ليس لديهم اتصالات سريعة أو أحدث الهواتف.
  • نظرًا لأن المزيد من الأشخاص يعتمدون على منتجاتنا لإجراء المكالمات على مر السنين، فقد عملنا على إيجاد طرق جديدة للتأكد من أن جميع المكالمات تتمتع بجودة صوت ثابتة.
  • لقد قمنا بتطوير برنامج الترميز Meta Low Bitrate (MLow): أداة جديدة تعمل على تحسين جودة الصوت للأشخاص الذين لديهم اتصالات بطيئة السرعة.
الشكل 1: تؤدي زيادة التعقيد أو معدل البت بشكل عام إلى تحسين الجودة، لكن برامج الترميز الجيدة تحقق جودة أعلى عند موازنة الاثنين الآخرين.

تستخدم منتجات RTC العديد من العناصر الأساسية لتقديم تجربة كاملة، وأحد أهم المكونات هو برامج ترميز الصوت/الفيديو. تساعد برامج الترميز هذه على ضغط بيانات الصوت/الفيديو التي تم التقاطها بحيث يمكن نقلها بكفاءة عبر الإنترنت إلى المستلم، مما يحافظ على التجربة في الوقت الفعلي. على سبيل المثال، إذا كان الصوت الخام الذي تم التقاطه لمكالمة نموذجية هو 768 كيلوبت في الثانية (أحادي، تم أخذ عينات منه عند 48 كيلو هرتز، وعمق البت 16)، فيمكن ضغط برامج الترميز الحديثة إلى 25-30 كيلوبت في الثانية. غالبًا ما يأتي هذا الضغط على حساب بعض الجودة (فقدان المعلومات)، لكن برامج الترميز الجيدة يمكنها تحقيق التوازن بين الجودة ومعدل البت والتعقيد من خلال استغلال طبيعة وشكل الإشارة الصوتية. .

يعد إنشاء برنامج ترميز جيد أمرًا صعبًا للغاية، ولهذا السبب لا نرى برامج ترميز جديدة تظهر كثيرًا. آخر برنامج ترميز جيد مفتوح المصدر معروف على نطاق واسع هو Opus، الذي تم إصداره في عام 2012، والذي أصبح برنامج الترميز المفضل لمجموعة واسعة من التطبيقات على الإنترنت. استخدمت Meta Opus لجميع احتياجات RTC الخاصة بها وقد خدمتنا جيدًا حتى الآن – مما ساعدنا على تقديم مكالمات عالية الجودة لمليارات المستخدمين حول العالم.

دافعنا لتطوير برنامج ترميز جديد

نظرًا للكم الهائل من استخدام RTC في المنتجات التعريفية، فإننا ننظر إلى كيفية أداء برنامج الترميز عبر مجموعة من سيناريوهات الشبكة وكيفية تأثيره على تجربة المستخدم النهائي. وعلى وجه الخصوص، لاحظنا أن عددًا كبيرًا من المكالمات بها اتصالات شبكة سيئة بشكل كامل أو جزئي في المكالمة. عادةً ما تكتشف وحدة تقييم النطاق الترددي (BWE) جودة الشبكة، ومع انخفاض جودة الشبكة، يجب على برنامج الترميز تقليل معدل البت التشغيلي لتجنب الازدحام على الشبكة ومنع تدفق الصوت – مما يؤثر على توازن الثلاثة المذكورة أعلاه. ومما يزيد الأمور تعقيدًا أن إجراء مكالمة فيديو على الرغم من ضعف جودة الشبكة لا يترك مساحة كبيرة للصوت ويؤدي إلى انخفاض معدل البت الصوتي بشكل أكبر. أدنى نقطة تشغيل لـ Opus هي 6 كيلوبت في الثانية، حيث تعمل في وضع النطاق الضيق (0 – 4 كيلو هرتز) ولا تلتقط بشكل كافٍ جميع الترددات الصوتية التي تنتجها الأصوات البشرية – وبالتالي لا يبدو الصوت واضحًا أو طبيعيًا. مثال لكيفية ظهور صوت Opus بسرعة 6 كيلوبت في الثانية والملف المرجعي المقابل للمقارنة.

READ  نظام تحديد المواقع العالمي (GPS) للدماغ: رؤية قرد القرد (marmoset vision) تكشف عن رؤى جديدة في الملاحة المكانية

إشارة مرجعية المصدر:

Opus @ 6 كيلوبت في الثانية النطاق الضيق (NB):

في العامين الماضيين، شهدنا تطوير بعض برامج الترميز الصوتية الجديدة المستندة إلى التعلم الآلي (ML) والتي توفر صوتًا عالي الجودة بمعدلات بت منخفضة جدًا. في أكتوبر 2022، تم إصدار ميتا الترميز، والذي يحقق جودة صوت سلسة بشكل مذهل بمعدلات بت منخفضة جدًا. على الرغم من أن برامج الترميز المستندة إلى AI/ML يمكنها تحقيق جودة أفضل بمعدلات بت أقل، إلا أن هذا غالبًا ما يأتي بتكلفة حسابية أعلى. ونتيجة لذلك، لا يمكن إلا للهواتف المحمولة المتطورة (باهظة الثمن) تشغيل برامج الترميز هذه بشكل موثوق، بينما يستمر المستخدمون الذين يستخدمون الأجهزة المنخفضة في مواجهة مشكلات جودة الصوت عند مستويات معدل البت المنخفضة. لذا فإن التأثير الصافي لبرامج الترميز الجديدة هذه والمكلفة حسابيًا يقتصر حقًا على جزء صغير من المستخدمين.

يستخدم عدد كبير من مستخدمينا أجهزة منخفضة التكلفة. على سبيل المثال، يتم إجراء أكثر من 20 بالمائة من مكالماتنا على أجهزة ARMv7، ويتم إجراء 10 ملايين مكالمة على WhatsApp يوميًا على الأجهزة التي يزيد عمرها عن 10 سنوات. نظرًا لخيارات برنامج الترميز المتوفرة بسهولة والتزامنا بضمان حصول جميع المستخدمين – بغض النظر عن أجهزتهم – على تجربة اتصال عالية الجودة، فمن الواضح أننا كنا بحاجة إلى برنامج ترميز ذو متطلبات حسابية منخفضة جدًا لا يزال يقدم صوتًا عالي الجودة بمعدلات بت منخفضة.

الترميز Mlow

لقد بدأنا تطوير برنامج الترميز الجديد في أواخر عام 2021. بعد ما يقرب من عامين من التطوير والاختبار النشط، نحن فخورون بالإعلان عن ذلك مثمانية قليل برنامج ترميز صوتي بمعدل بت يسمى MLow يحقق ضعف جودة Opus (POLQA MOS 1.89 مقابل 3.9 @ 6kbps WB). والأهم من ذلك، أننا قادرون على تحقيق أفضل جودة مع الحفاظ على التعقيد الحسابي لـ MLO. 10 في المئة أقل من أوبوس.

READ  إعادة تشغيل PS5: تفتح Sony السجل للشراء مباشرة من PlayStation

يوضح الشكل 2 أدناه مخطط MOS (متوسط ​​نقاط الرأي) على مقياس من 1 إلى 5 ويقارن درجات POLQA بين Opus وMLow بمعدلات بت مختلفة. كما يوضح الرسم البياني، يتمتع MLow بميزة كبيرة على Opus بمعدلات بت منخفضة جدًا، حيث يكمل الجودة بشكل أسرع من Opus.

الشكل 2: نتيجة POLQA تقارن Opus (WB) وMLow بمعدلات بت مختلفة على مجموعة بيانات كبيرة من الملفات.

لقد قمنا بالفعل بطرح MLow بالكامل لجميع مكالمات Instagram وMessenger، ونقوم بنشره بنشاط على WhatsApp – وقد شهدنا بالفعل تحسنًا مذهلاً في تفاعل المستخدم مدفوعًا بجودة صوت أفضل.

إليك بعض العينات الصوتية للاستماع إليها. نوصي باستخدام زوج سماعات الرأس المفضل لديك لتقدير الاختلافات الملحوظة في جودة الصوت.

أوبوس 6 كيلو بايت في الثانية ملحوظة Mlow 6 كيلوبت في الثانية WB ملحوظة

يؤدي تشفير الصوت عالي الجودة بمعدلات بت أقل أيضًا إلى فتح تقنيات أكثر فعالية لتصحيح الأخطاء الأمامية (FEC). بالمقارنة مع Opus، يمكن تعبئة FEC بمعدلات بت أقل بكثير باستخدام MLow، مما يؤدي إلى تحسين جودة الصوت بشكل كبير في سيناريوهات فقدان الحزمة.

فيما يلي عينتان صوتيتان بسرعة 14 كيلوبت في الثانية مع فقدان الحزمة من جانب جهاز الاستقبال بنسبة 30 بالمائة.

التأليف:

لاحظ أن Opus لا يمكنه تشفير أي تصحيح تصحيحي داخلي (FEC) بمعدلات البت هذه. يتطلب أي تصحيح داخلي للنطاق الترددي (FEC) ما لا يقل عن 19 كيلوبت في الثانية للتشفير عند فقدان الحزمة بنسبة 10 بالمائة، مما يؤثر على استعادة الصوت.

Mlow الداخلية

يعتمد MLow على مفاهيم برنامج الترميز CELP (التنبؤ الخطي المثير للكود) الكلاسيكي، مع التطورات حول توليد التحفيز، وتحديد المعلمات، وأنظمة الترميز. يمثل الشكل 3 عرضًا عالي المستوى لكيفية عمل برنامج الترميز داخليًا. على اليسار توجد إشارة دخل (صوت BCM خام) إلى جهاز التشفير، والذي يقسم الإشارة إلى نطاقين منخفضين وعاليين التردد. بعد ذلك، يتم ترميز كل نطاق على حدة، باستخدام المعلومات المشتركة لتحقيق ضغط أفضل. يتم تمرير جميع المخرجات من خلال جهاز تشفير النطاق لمزيد من الضغط وإنشاء الحمولة النافعة المشفرة. يقوم جهاز فك التشفير بالعكس تمامًا عندما يتم إعطاؤه حمولة لتوليد إشارات صوتية للإخراج.

READ  قد تكون هناك مشكلة في الطلب وتوزيع جهاز Apple iPhone
الشكل 3: بنية التشفير ووحدة فك التشفير MLow عالية المستوى.

تعمل تحسينات النطاق المقسم هذه على تمكين تشفير النطاق العالي باستخدام عدد قليل جدًا من البتات، مما يتيح تسليم MLow SuperWideBand (أخذ عينات 32 كيلو هرتز) باستخدام معدلات بت منخفضة جدًا.

ماذا بعد؟

لقد قام MLow بتحسين جودة الصوت بشكل كبير على الأجهزة المنخفضة الجودة، بينما يتم تشفير المكالمات من طرف إلى طرف. بدءًا من تطوير برنامج ترميز جديد وحتى شحنه بنجاح إلى مليارات المستخدمين حول العالم، نحن متحمسون جدًا لما أنجزناه في العامين الماضيين. نواصل العمل على تحسين استعادة الصوت في شبكات فقدان الحزم الثقيلة من خلال التخلص من المزيد من الصوت الزائد، وهو ما يتيح لنا MLow القيام به بكفاءة. بينما نواصل العمل على تسهيل إجراء المكالمات الصوتية عالية الجودة لجميع مستخدمينا، يسعدنا مشاركة المزيد.

LEAVE A REPLY

Please enter your comment!
Please enter your name here