لماذا نحتاج إلى محرك ونموذج برمجة جديد لتحليل البيانات في المقام الأول؟ كما هو الحال مع العديد من الاتجاهات في برمجة الكمبيوتر، يعود ذلك إلى التغيرات في الاتجاهات الاقتصادية التي تكمن وراء تطبيقات الكمبيوتر والأجهزة.
طوال تاريخها، زادت سرعة الكمبيوتر في كل عام من خلال زيادة سرعة المعالج: كان بإمكان المعالجات الجديدة في كل عام تشغيل المزيد من التعليمات في الثانية مقارنة بالعام السابق. نتيجة لذلك، تسارعت التطبيقات أيضًا تلقائيًا في كل عام، دون الحاجة إلى تغيير رموزها. أدى هذا الاتجاه إلى تكوين نظام بيئي كبير ومعتمد من التطبيقات مع مرور الوقت، معظمها لم يتم تصميمه ليعمل على معالج واحد، واستفاد من اتجاه تحسين سرعة المعالجات لتوسيع العمليات الحسابية الكبيرة أو الحجوم الكبيرة من البيانات مع مرور الوقت.
للأسف، توقف هذا الاتجاه في الأجهزة حوالي عام 2005: نظرًا للحدود الصعبة في تشتت الحرارة، توقف مطورو الأجهزة عن زيادة سرعة المعالجات الفردية، وانتقلوا نحو إضافة مزيد من نوى وحدة المعالجة المركزية المتوازية التي تعمل بنفس السرعة. هذا التغيير يعني أنه، فجأة، تحتاج التطبيقات إلى تعديل لإضافة التوازيية من أجل تشغيل أسرع، وبدأ إلى حد ما في وضع المرحلة لنماذج برمجة جديدة مثل Apache Spark .
بالإضافة إلى ذلك، لم تتوقف التقنيات الخاصة بتخزين البيانات وجمعها بشكل قابل للاستيعاب بشكل جوهري في عام 2005، عندما حدث ذلك في سرعة المعالجة. يستمر تكلفة تخزين 1 تيرابايت من البيانات في الانخفاض بنسبة تقريبًا 2 مرة كل 14 شهرًا، مما يعني أنه من الرخيص بالنسبة للمؤسسات بجميع الأحجام تخزين كميات كبيرة من البيانات. علاوة على ذلك، تستمر العديد من التقنيات الخاصة بجمع البيانات (المستشعرات، الكاميرات، مجموعات البيانات العامة، إلخ) في الانخفاض في التكلفة وتحسن في الدقة. على سبيل المثال، تستمر تقنية الكاميرا في التحسن في الدقة والانخفاض في تكلفة البكسل في كل عام، لدرجة أن كاميرا الويب 12 ميجابيكسل تكلف فقط 3-4 دولارات أمريكية؛ مما جعل تكلفة جمع مجموعة واسعة من البيانات البصرية رخيصة، سواء من الأشخاص الذين يصورون فيديو أو المستشعرات الآلية في بيئة صناعية. علاوة على ذلك، تعتبر الكاميرات بحد ذاتها الاستشعارات الرئيسية في أجهزة جمع البيانات الأخرى، مثل التلسكوبات وحتى أجهزة تسلسل الجينات، مما يقود إلى انخفاض تكلفة هذه التقنيات أيضًا.
النتيجة النهائية هي عالم حيث جمع البيانات رخيص للغاية – قد تعتبر العديد من المؤسسات أمرًا مهمومًا عدم تسجيل البيانات ذات الصلة المحتملة للأعمال – لكن معالجتها تتطلب عمليات حسابية متوازية كبيرة، في كثير من الأحيان على مجموعات من الأجهزة. علاوة على ذلك، في هذا العالم الجديد، لا يمكن للبرمجيات التي تم تطويرها في الستينيات من القرن الماضي توسيع نفسها تلقائيًا، ولا تستطيع نماذج البرمجة التقليدية لتطبيقات معالجة البيانات توسيع نفسها تلقائيًا أيضًا، مما يخلق حاجة لنماذج برمجة جديدة. إنه هذا العالم الذي تم إنشاء Apache Spark من أجله.
أهلاً بك مجدداً في حسابك
لتبدأ بالتجربة المجانية لمدة 14 يوماً