کتاب یادگیری ماشین و کلان داده با آپاچی اسپارک Apache Spark k به زبان فارسی نوشته مهندس پویا صبر آموز تقدیم شما کاربران سایت آغازه می کنیم. آپاچی اسپارک یک موتورِ قدرتمند، برای پردازش دادههای بزرگ به صورتِ توزیعشده است. منظور از دادههای بزرگ، داده هایی است که معمولاً بر روی یک کامپیوتر نمیتوانند پردازش شوند (مثلا دادههایی که از مقدار حافظهی اصلیِ (RAM) یک کامپیوتر بیشتر هستند). منظور از «توزیعشده» این است که، دادهها، بر روی چندین کامپیوتر (که به آنها Node یا گره گفته میشود)، قرار دارند و بایستی پردازش شوند.
عنوان کتاب: یادگیری ماشین و کلان داده با آپاچی اسپارک Apache Spark
زبان کتاب: فارسی
تعداد صفحه : ۹۵
حجم فایل: ۲ مگابایت
آپاچی اسپارک، همچنین از کتابخانه های مختلفی نیز تشکیل شده است. MLib، کتابخانه یادگیری ماشین (Machine Learning) برای اسپارک است و توانایی پردازش الگوریتمهای مختلف دادهکاوی (Data Mining) و یادگیریماشین را بر روی بستر اسپارک فراهم می آورد. Graphx، یک کتابخانه دیگر از اسپارک است. این کتابخانه، توانایی پردازش و تحلیل دادههای گراف (یعنی داده هایی که به صورت گراف نمایش داده می شوند) را دارد. Apache Spark Streaming نیز یک بخش دیگر از آپاچی اسپارک است. این بخش، قابلیت پردازش جریان دادهها (داده هایی که در یک بازهی مشخص دیده میشوند، مثلا یک بار دیده می شوند و از بین می روند) را نیز دارد.
مثالی را در نظر بگیرید که میخواهید بر روی یک فایل بسیار بزرگ متنی، مثلا یک فایل که بازدید کاربران یک سامانه رادر طیِ ۵سال ذخیره کرده است، عملیاتی انجام دهید. مثلا، تمامی کاربرانی که از شهر تهران، وارد سیستم شدهاند، را واکشی کنید. اگر این فایل بسیار بزرگ باشد، یا اینکه چندین فایل مختلف بسیار بزرگ داشته باشید (مثلا داده های هر ماه را بر روی یک فایل ذخیره کرده باشید)، قطعاً فیلتر کردنِ این فایلهای سنگین، به زمان زیادی احتیاج دارد. ممکن است، در مثالِ بالا، حدودِ ۱۲ساعت، پردازش بر روی دادهها انجام شود، تا کاربرانِ شهرِ تهران را از بین تمامی شهرها فیلتر کنید.
برای حل این مشکل (و مشکلاتی از این دست)، آپاچی اسپارک یک راه حل بسیار مناسب به نظر میرسد. اگر شما چندین کامپیوترِ متوسط (که زیاد هم قدرتمند نیستند) در اختیار داشته باشید، می توانید با استفاده از موتور آپاچی اسپارک (Apache Spark)، این قبیل کارها را به صورت موازی (Parallel) بر روی کامپیوترهای مختلف اجرا کرده و نتیجه را به صورت تجمیع شده، بر روی یک سیستم قرار دهید.
اسپارک میتواند از سیستمهای مختلفِ ذخیرهسازیِ توزیع شده (مانند HDFS یا Cassandra) استفاده کند. اسپارک در مقایسه با هدوپ (Hadoop)، میتواند بسیار سریعتر باشد. این موتورِ پردازشِ سریع، در سال ۲۰۰۹ در دانشگاه برکلی تولید شده است.
سخن نویسنده کتاب:
کتاب روبه رو حاصل ترجمه و تألیف کامل دو تکنولوژي بنیاد نرمافزارهاي آزاد آپـاچ شـامل آپـاچ ماهوت و آپاچ اسپارك میباشد. سعی شده در قسمتهای یکه مستندات اصلی این تکنولـوژي ها ی گویاي مطلب اصلی نبوده مثالهایی عملی به آن اضافه کرده و آن مطلب را تکمیل کنم.امیدوارم با تألیف و ترجمه این اثر بتوانم گامهای هرچند کوچـک در راه ارتقـا دانـش تخصصـی علوم کامپیوتر برداشته باشم و در انجام رسالتی که بر عهده من است مؤثر واقع شود.مثالها و تمرینهاي موجود در این کتاب جهت دسترسی سـاده و اسـتفاده آسـان همگـی در وبگاه آن به نشانی Aghazeh.com موجود میباشد.در خاتمه بر خود لازم میدانم از تمامی دوستان و اساتید که با کمک هایشان راهنماي من در این مسیر بودند و همچنین سرکار خانم مرضیه یادگار که زحمـت طراحـی جلـد کتـاب را بـر عهـده گرفتند تشکر و قدردانی میکنم.بیشک این اثر نیز مانند باقی کتابهاخالی از نقـص نبـوده اسـت، لـذا از تمـامی دانـش پژوهـان گرامی و دانشجویان عزیز تقاضا داریم با ارائه نظرات ارزشمند خود مارا در رفع نواقص و کمبود همیاری کنند.
فصل های کتاب یادگیری ماشین و کلان داده با آپاچی اسپارک :
- فصل اول – چرا یادگیری ماشین
- فصل دوم – معرفی ابزار آپاچی ماهوت Apache Mahout
- فصل سوم – یادگیری ماشین (خوشه بندی- طبقه بندی و … )
- فصل چهارم – بررسی دقیق محیط Apache Mahout
- فصل پنجم – سیستم پیشنهاد دهنده Recommendation
- فصل ششم – خوشه بندی (Clustering)
- فصل هفتم – طبقه بندی (Classification)
- فصل هشتم – معرفی اپاچی اسپارک Apache Spark
- فصل نهم – دیتاست های توزیع شده ارتجاعی
- فصل دهم – نصب آپاچی اسپارک
- فصل یازدهم – برنامه نویسی هسته اسپارک
- فصل دوازدم- گسترش اسپارک
- فصل سیزدهم – برنامه نویسی پیشرفته در اپاچی اسپارک
دانلود و توضیحات ...
- عنوان : یادگیری ماشین و کلان داده با آپاچی اسپارک Apache Spark
- حجم فایل : 2 مگابایت
- توضیحات کوتاه : آموزش اپاچی اسپارک به فارسی
- نویسنده : حسن کریمی
- منبع : آغازه
بدون دیدگاه