Usage of fuzzy classification of distribution type for small volume samples
40
Інформаційні системи, механіка та керування
УДК 519.23
DOI: http://dx.doi.org/10.20535/2219-3804172017123925
Н. А. Яремчук , професор кафедри, к.т.н., Р. С. Cеменюк2, аспірант
1
ВИКОРИСТАННЯ НЕЧІТКОЇ КЛАСИФІКАЦІЇ ВИДУ РОЗПОДІЛУ
ДЛЯ ВИБІРОК МАЛОГО ОБ’ЄМУ
Existing methods for improving the measurement result accuracy with small
volume samples are analyzed. The fuzzy identification method (proposed by
Y. M. Klikushyn) which permits identification distributions under condition of
small samples was selected for distribution identification.
The further research of features and development of fuzzy identification in
small volume samples was conducted, the scope of fuzzy identification usage was
expended and a research on probability of dispensation differentiation was carried
out in the work.
The reliability of classifying samples using the generation of reference samples
was defined in the work. The research of reliability on one sample showed that the
probability of changing linguistic code is quite large. It is recommended to average
several samples to increase the likelihood of accurate identification. Number of
samples can be determined for a given probability.
The research of fuzzy classification included the development of finding fuzzy
estimates algorithm for samples of different sizes, finding the necessary and
sufficient number of estimates and choice of choice principles of used estimates
from the possible range. The correlations for fuzzy estimates based on the
specified volume were obtained. Usage of these ratios allowed expanding the
scope of fuzzy classification and creating a library of linguistic codes which
greatly simplifies its procedure. Recommendations on the samples number
required for achieving necessary classification probability were made.
В статье рассмотрено применение метода нечеткой классификации вида
распределения одной или нескольких выборок малого объема, основанного
на непараметрическом оценивании, для построения контрольных карт точности и стабильности технологического процесса. Нечеткая классификация
позволяет определить эффективную оценку центра распределения и вид контрольной карты.
Вступ
На практиці часто виникають задачі опрацювання результатів вимірювань за малих об’ємах вибірок. Отже невизначеність результату вимірювання доволі велика. У зв’язку із цим постає задача підвищення точнос-
1
НТУУ «Київський політехнічний інститут ім. Ігоря Сікорського», кафедра інформаційно вимірювальної техніки
2
НТУУ «Київський політехнічний інститут ім. Ігоря Сікорського», кафедра інформаційно вимірювальної техніки
41
Р о з д і л
1 .
І н ф о р м а ц і й н і
с и с т е м и
ті результату вимірювання. Тому пошук нових методів, що дозволяють підвищити точність при опрацюванні результатів вимірювань є актуальним.
Як показали дослідження, проведені у роботах [1, 2], знання виду
розподілу має важливе значення під час опрацюванні результатів вимірювань.
Знання виду розподілу дозволяє:
у значній мірі підвищити точність оцінок, що є результатами вимірювань за рахунок вибору найбільш ефективних [4];
значно точніше визначати коефіцієнт охоплення для розширеної невизначеності [1, 2] замість вибору оцінки зверху.
Таким чином знання розподілу дозволяє зменшити і стандартну, і
розширену невизначеність.
Так у роботі [1] наведено ефективні оцінки (медіана, середина розмаху), знайдені статистичним опрацюванням вибірок, розподілених за іншими, ніж нормальний, розподілами. Якщо розподіл генеральної сукупності, із якої отримують практичну вибірку скінченного обсягу, є інший ніж
нормальний, то середнє значення не обов’язково буде найкращою оцінкою
результату вимірювання.
Зокрема, у разі розподілів із обмеженими граничними значеннями,
наприклад, рівномірного, особливо арксинусного розподілів генеральної
сукупності за обсягів вибірки значно ефективнішою оцінкою результату (із
меншою дисперсією за заданого обсягу вибірки) є середина розмаху вибірки.
У табл. 1 наведені значення відносної ефективності En середини розмаху і медіани відносно середнього значення вибірки [1]:
u ( x)
,
En
(1)
u ( xc )
де u x – стандартна невизначеність середнього арифметичного,
u xc – стандартна невизначеність інших оцінок центру розподілу
Таблиця 1.
Відносна ефективність середини розмаху та медіани
із вибірок деяких розподілів
Розподіл/оцінка
n9
En
Арксинусний/середина розмаху
Лапласа/медіана
n
2
n
5
1,22
1,41
2
Під час оцінювання якості вимірювання важливою є не тільки стандартна невизначеність, але й розширена. Оскільки форма розподілу Лапласа і особливо рівномірного та арксинусного розподілів істотно відрізняєть-
42
Інформаційні системи, механіка та керування
ся від нормального, то і зв’язок між розширеною і стандартною невизначеністю середини розмаху вибірок є іншим ніж у разі нормального розподілу
вибірки. Цей зв’язок, як відомо, кількісно відображається коефіцієнтом
охоплення, а також ефективною кількістю ступенів свободи. Якщо розподіл не відомий, то потрібно брати оцінку зверху, тобто максимальне значення. Існуючі методи ідентифікації виду розподілу або не можуть бути
використанні для малих вибірок, або вони можуть використовуватись лише для конкретного розподілу [1, 2]. Тому для ідентифікації розподілу у
роботі обрано метод нечіткої ідентифікації, запропонований Клікушиним Ю. М. [2], який дозволяє ідентифікувати розподіли за умов малих вибірок. Оскільки нечіткі оцінки залежать від об’єму вибірки або кількості
порядкових статистик, метод дозволяє ідентифікувати розподіли у разі фіксованого об’єму вибірки у 9 або 17 елементів.
Даний метод побудовано наступним чином. У якості теоретичної бази для формування процедур ідентифікації використана теорія нечітких
множин, зокрема поняття лінгвістичної змінної (ЛЗ), а також введене поняття центр розподілу [2, 3]. Нечітка оцінка (НО) представляє собою середнє арифметичне певних частин впорядкованої вибірки, тим самим вказуючи, у якій частині діапазону концентрується більшість значень.
Для ідентифікації використовуються шість нечітких оцінок, чутливих до концентрації впорядкованих значень. Нечіткі оцінки, що представляють комбінації певних порядкових статистик, ранжуються, кодуються і
за певним набором коду ідентифікують розподіл. Як вказано у роботі [1], у
разі нечіткої ідентифікації можна розрізнити рівномірний, нормальний,
арксинусоїдний розподіли і розподіл Лапласа.
Апробація нечіткої ідентифікації, проведена автором, показала доцільність використання даного метода. Але процедура нечіткої ідентифікації,
що наведена в роботі [2], розроблена тільки для фіксованого об’єму вибірки ( n 9 , n 17 ). Крім того відсутній аналіз вірогідності розрізнення розподілів.
Постановка задачі
Провести подальше дослідження особливостей і удосконалення нечіткої ідентифікації у вибірках малого об’єму, розширити область застосування нечіткої ідентифікації й провести дослідження вірогідності розрізнення розподілів.
Генерація опорних вибірок для верифікації і дослідження
нечіткої ідентифікації
Для дослідження нечіткої ідентифікації обр (...truncated)