Starburst Enterprise شامل نمایه سازی هوشمند و ذخیره سازی است. میتوانید با بهروزرسانی خوشهتان به سختافزار مناسب و پیکربندی رابط نمایهسازی و ذخیرهسازی هوشمند Starburst برای هر فهرستی که به ذخیرهسازی اشیا با رابط Hive، Iceberg یا Delta Lake دسترسی پیدا میکند، از بهبود عملکرد بهره ببرید. استقرار خوشه در Amazon Elastic Kubernetes Service (EKS) یا Microsoft Azure Kubernetes Service (AKS) مورد نیاز است. برای اطلاعات بیشتر، دستورالعمل نصب و پیکربندی را ببینید.
توجه: نمایه سازی و ذخیره سازی هوشمند یک ویژگی پیش نمایش عمومی است. با سؤال یا بازخورد با پشتیبانی Starburst تماس بگیرید.
بررسی اجمالی #
نمایهسازی و ذخیرهسازی هوشمند بهطور خودکار فهرستها و حافظههای پنهان را با دادههای درخواستی شما ایجاد و نگهداری میکند، که بر اساس ویژگیهای جستارهای پردازش شده تعیین میشود.
شتاب پیشفرض #
هنگامی که یک پرس و جو به ستونی دسترسی پیدا می کند که تسریع نشده است، سیستم داده ها و نمایه سازی را روی خوشه انجام می دهد تا دسترسی آینده به داده های ستون را تسریع کند. این فرآیند ایجاد ایندکس ها و کش ها را گرم کردن نیز می نامند. گرم کردن به صورت جداگانه توسط هر کارگر بر اساس تقسیم های پردازش شده انجام می شود و از ذخیره سازی با کارایی بالای محلی کارگر استفاده می کند. به طور معمول، این ها درایوهای SSD NVMe هستند.
هنگامی که دادههای جدیدی به جدول اضافه میشود یا ایجاد فهرست و حافظه پنهان در حال انجام است، بخشهای جدیدی از جدول که تسریع نشدهاند از ذخیرهسازی شی ارائه میشوند. پس از تکمیل فهرستبندی و ذخیرهسازی ناهمزمان، پردازش پرس و جو برای دسترسی به آن داده تسریع میشود، زیرا دادهها مستقیماً در خوشه از فهرستها و حافظههای پنهان در دسترس هستند و دیگر نیازی به بازیابی از ذخیرهسازی شی از راه دور ندارند.
این منجر به بهبود عملکرد بلافاصله برای مجموعه داده های اخیراً استفاده شده می شود. علاوه بر شتاب پیشفرض خودکار، کاربران پیشرفته میتوانند قوانین گرمآپ فهرستسازی و ذخیرهسازی خاصی را ایجاد کنند. شتاب پیشفرض اولویت کمتری نسبت به قانون گرم کردن ایجاد شده توسط کاربر دارد.
شتاب پیشفرض برای جستارهای SELECT * FROM که معمولاً برای کاوش یک جدول به جای بازیابی دادههای خاص استفاده میشوند، انجام نمیشود.
انواع شتاب #
نمایه سازی هوشمند و پول نقد از انواع مختلفی از شتاب برای بهبود عملکرد پردازش پرس و جو استفاده می کند:
این انواع شتاب به طور خودکار توسط شتاب پیشفرض استفاده میشوند و همچنین میتوانند به صورت دستی با قوانین گرم کردن تعریف شده با REST API پیکربندی شوند.
شتاب کش داده #
شتاب حافظه پنهان داده سیستمی است که داده های خام را از ذخیره شیء مستقیماً بر روی ذخیره سازی با کارایی بالا که به کارگران در خوشه متصل می شود ذخیره می کند. داده های یک یا چند شیء در خوشه به عنوان شکاف پردازش می شوند. داده های موجود از شکاف ها و ابرداده های مرتبط به عنوان یک گروه ردیف در فهرست بندی هوشمند و ذخیره سازی مدیریت می شوند.
این گروه های ردیف برای تسریع هرگونه نمایش داده شده به داده های موجود استفاده می شوند. گروه های ردیف در قالب ذخیره سازی اختصاصی ستون ستون اختصاصی ذخیره می شوند.
از مقدار col_warm_up_type_data در ویژگی colwarmuptype برای پیکربندی شتاب حافظه پنهان داده برای یک ستون خاص با API REST استفاده کنید.
شتاب شاخص #
شتاب شاخص از داده ها در یک ستون خاص در یک جدول برای ایجاد یک فهرست استفاده می کند. این شاخص به گروه ردیف اضافه می شود و در هنگام دسترسی به یک ستون برای فیلتر کردن ردیف ها استفاده می شود. این سؤالات را که از پیش بینی ها ، پیوستن ، فیلترها و جستجوها استفاده می کنند ، تسریع می کند و اسکن داده ها را به حداقل می رساند.
انواع شاخص (مانند bitmap ، درخت و سایر موارد) به طور خودکار توسط انواع داده های ستون تعیین می شوند.
از مقدار col_warm_up_type_data در ویژگی colwarmuptype برای پیکربندی شتاب شاخص برای یک ستون خاص با API REST استفاده کنید.
شتاب جستجوی متن #
شتاب جستجوی متن یک شاخص توکن شده از محتوای ستون های متن را ایجاد می کند که در پیش بینی های پرس و جو استفاده می شود. این سؤالات را که از پیش بینی فیلترها و جستجوها در ستون های متن استفاده می کنند ، تسریع می کند.
به عنوان مثال ، یک مورد استفاده مناسب ، جستجوی یک رشته کوتاه خاص در یک ستون بزرگتر مانند توضیحات است.
این شاخص از کتابخانه مشهور آپاچی لوچن استفاده می کند.
برای پیکربندی شتاب جستجوی متن برای یک ستون خاص با API REST از مقدار col_warm_up_type_lucene در ویژگی Colwarmuptype استفاده کنید.
تمیز کردن خودکار #
هنگامی که ذخیره موجود در خوشه از فضای ذخیره سازی خارج می شود ، عناصر فهرست و حافظه نهان به طور خودکار حذف می شوند. به عنوان یک کاربر یا سرپرست ، نیازی به مدیریت فهرست و حافظه پنهان نیست. هنگامی که از آستانه ظرفیت ذخیره سازی فراتر رود ، سیستم محتوای زیر را حذف می کند تا اینکه به آستانه پاکسازی برسد:
- تمام محتوای منقضی شده بر اساس مقدار TTL.
- محتوای با کمترین مقادیر در ویژگی اولویت که در نتیجه شتاب پیش فرض ایجاد شده است.
- محتوای مربوط به قوانین گرمایش سفارشی برای نمایه سازی و ذخیره سازی.
پس از تمیز کردن ، داده های جدید بر اساس دسترسی به داده ها توسط پرس و جوهای پردازش شده ، فهرست بندی و ذخیره می شوند.
پیکربندی #
نمایه سازی و ذخیره سازی هوشمند در خوشه های مبتنی بر Kubernetes در EKS یا AK ها با پیکربندی خاص پشتیبانی می شود. این مناسب برای کاتالوگ ها با استفاده از اتصال Hive ، Iceberg یا Delta Lake Connector با حداقل تغییرات پیکربندی برای پرونده Catalog Properties مناسب است.
چه اتفاقی می افتد در صورت ذخیره و فهرست بندی داده ها؟آیا من نتایج جزئی دریافت می کنم؟
نه. در صورت وجود تقسیم از SSD ، به آن ارائه می شود. اما اگر اینگونه نباشد ، فهرست بندی و ذخیره سازی هوشمند داده ها را برای این تقسیم از ذخیره شیء برای تکمیل پرس و جو دریافت می کند و نتایج مناسب را ارسال می کند. سپس شاخص و حافظه نهان به صورت ناهمزمان به صورت مناسب ایجاد می شوند تا نمایش داده شدگان آینده بتوانند از شاخص و حافظه نهان استفاده کنند.
آیا فرصتی وجود دارد که کاربر بتواند نتایج بی نظیری را بدست آورد؟
شماره فهرست بندی و ذخیره سازی هوشمند از نقشه برداری بین تقسیمات تولید شده و داده های فهرست و حافظه نهان در SSD در هنگام پردازش پرس و جو استفاده می کند. اگر شکافی از SSD قابل استفاده باشد ، این است ؛اما اگر اینگونه نباشد ، فهرست بندی و ذخیره سازی هوشمند داده های این تقسیم را از ذخیره شی دریافت می کند و سپس به صورت ناهمزمان فهرست بندی و ذخیره آن را در صورت لزوم قرار می دهد.
سرعت ذخیره و نمایه سازی چیست؟
عملکرد به عوامل مختلفی بستگی دارد. به عنوان مثال ، نمایه سازی و ذخیره کل مجموعه داده های TPC-DS SF1000 حدود 20 دقیقه در یک خوشه با دو کارگر با اندازه دستگاه R5d. 8xlarge طول می کشد.