Linear Discriminant Analysis Là Gì
1. Giới thiệu
Trong hai nội dung bài viết trước, tôi đang trình làng về thuật tân oán sút chiều dữ liệu được áp dụng thoáng rộng tốt nhất - Principle Component Analysis (PCA). Như sẽ đề cập, PCA là một trong những phương pháp nằm trong các loại unsupervised learning, tức là nó chỉ sử dụng các vector biểu hiện tài liệu nhưng mà ko dùng tới labels, nếu như có, của tài liệu. Trong bài xích toán classification, dạng điển hình nổi bật độc nhất vô nhị của supervised learning, việc thực hiện labels đang mang về công dụng phân nhiều loại tốt hơn.Quý Khách sẽ xem: Lda là gì
Nhắc lại một lần tiếp nữa, PCA là phương pháp bớt chiều tài liệu thế nào cho lượng biết tin về tài liệu, biểu đạt ngơi nghỉ tổng phương thơm không đúng, được giữ lại là nhiều độc nhất vô nhị. Tuy nhiên, trong vô số nhiều ngôi trường hợp, ta không đề xuất giữ giàng lượng biết tin lớn nhất mà chỉ cần lưu lại công bố cần thiết mang lại riêng rẽ bài bác toán thù. Xét ví dụ về bài xích tân oán phân lớp cùng với 2 classes được biểu lộ vào Hình 1.
Bạn đang xem: Linear discriminant analysis là gì
quý khách đang xem: Ldomain authority là gì

Hình 1: Chiếu dữ liệu lên các đường trực tiếp khác biệt. Có hai lớp dữ liệu minch hoạ vì những điểm màu xanh lá cây với đỏ. Dữ liệu được giảm số chiều về 1 bằng phương pháp chiếu bọn chúng lên những đường thẳng khác biệt (d_1) và (d_2). Trong nhị biện pháp chiều này, phương thơm của (d_1) tương tự với pmùi hương của yếu tắc thiết yếu trước tiên của tài liệu, pmùi hương của (d_2) gần cùng với nhân tố phụ của dữ liệu giả dụ dùng PCA. lúc chiếu lên (d_1), những điểm màu đỏ và xanh bị chồng lấn lên nhau, làm cho vấn đề phân loại dữ liệu là không khả thi trên tuyến đường thẳng này. trái lại, lúc được chiếu lên (d_2), dữ liệu của nhị class được chia thành các cụm tương xứng bóc biệt nhau, làm cho câu hỏi classification trngơi nghỉ nên dễ dàng và đơn giản hơn cùng công dụng hơn. Các mặt đường cong hình chuông trình bày dao động phân bổ tỷ lệ của dữ liệu hình chiếu trong mỗi class.
Trong Hình 1, ta mang sử rằng tài liệu được chiếu lên 1 con đường thẳng cùng từng điểm được thay mặt bởi vì hình chiếu của chính nó phát xuất trực tiếp cơ. Vậy nên, trường đoản cú tài liệu những chiều, ta đang giảm nó về 1 chiều. Câu hỏi đề ra là, đường trực tiếp cần có phương như thế nào để hình chiếu của dữ liệu trê tuyến phố thẳng này mang lại lợi ích cho câu hỏi classification nhất? Việc classification dễ dàng độc nhất rất có thể được phát âm là việc tìm và đào bới ra một ngưỡng giúp phân tách nhị class một biện pháp đơn giản và dễ dàng với đạt hiệu quả tốt nhất có thể.
Xét hai tuyến đường thằng (d_1) cùng (d_2). Trong đó phương của (d_1) sát với phương thơm của yếu tắc chủ yếu giả dụ làm PCA, phương của (d_2) ngay sát cùng với pmùi hương của yếu tố phú kiếm được bởi PCA. Nếu ra làm sút chiều tài liệu bằng PCA, ta đang thu được dữ liệu ngay gần cùng với các điểm được chiếu lên (d_1). Hiện giờ Việc phân tách bóc nhì class trnghỉ ngơi phải phức tạp vị các điểm đại diện mang đến nhị classes ông chồng lấn lên nhau. trái lại, giả dụ ta chiếu dữ liệu phát xuất thẳng ngay sát cùng với nhân tố phú tìm kiếm được bởi PCA, tức (d_2), các điểm hình chiếu ở hoàn toàn về hai phía không giống nhau của điểm color lục trên tuyến đường thẳng này. Với bài toán classification, câu hỏi chiếu dữ liệu lên (d_2) do vậy đang đem đến công dụng rộng. Việc phân loại một điểm dữ liệu bắt đầu sẽ tiến hành xác minh lập cập bằng phương pháp đối chiếu hình chiếu của chính nó lên (d_2) cùng với điểm màu xanh da trời lục này.
Qua ví dụ bên trên ta thấy, chưa hẳn việc cất giữ biết tin các tuyệt nhất sẽ luôn đưa về kết quả tốt nhất. Chú ý rằng hiệu quả của so sánh bên trên trên đây không có nghĩa là nhân tố phú đem về công dụng giỏi rộng nhân tố chủ yếu, nó chỉ là một trong ngôi trường thích hợp đặc biệt. Việc chiếu dữ liệu xuất xứ trực tiếp nào yêu cầu nhiều đối chiếu ví dụ hơn nữa. Cũng xin nói thêm, hai tuyến phố thằng (d_1) với (d_2) bên trên đây ko vuông góc với nhau, tôi chỉ lựa chọn ra nhì phía gần cùng với các thành phần bao gồm và phụ của tài liệu để minch hoạ. Nếu bạn phải tìm hiểu thêm về thành phần chính/phụ, các bạn sẽ thấy Bài 27 và Bài 28 về Principal Component Analysis (Phân tích nguyên tố chính) hữu dụng.
Linear Discriminant Analysis (LDA) được thành lập nhằm mục tiêu giải quyết vấn đề này. LDA là 1 phương pháp bớt chiều tài liệu mang đến bài bác tân oán classification. LDA có thể được xem là một phương pháp giảm chiều dữ liệu (dimensionality reduction), và cũng rất có thể được xem như là một cách thức phân lớp (classification), và cũng hoàn toàn có thể được áp dụng mặt khác cho tất cả hai, tức bớt chiều tài liệu sao cho vấn đề phân lớp tác dụng tuyệt nhất. Số chiều của tài liệu new là nhỏ rộng hoặc bằng (C-1) trong số đó (C) là số lượng classes. Từ ‘Discriminant’ được hiểu là mọi đọc tin đặc trưng cho từng class, khiến nó không bị lẫn với những classes khác. Từ ‘Linear’ được sử dụng vày cách giảm chiều dữ liệu được tiến hành do một ma trận chiếu (projection matrix), là một phép biến hóa đường tính (linear transform).
Trong Mục 2 dưới đây, tôi đang trình diễn về trường đúng theo binary classification, tức bao gồm 2 classes. Mục 3 vẫn bao quát lên đến ngôi trường hợp với những classes hơn 2. Mục 4 sẽ có các ví dụ và code Pydong dỏng mang đến LDA.
2. Linear Discriminant Analysis đến bài bác toán với 2 classes
2.1. Ý tưởng cơ bản
Mọi phương pháp classification những được ban đầu với bài xích toán thù binary classification, cùng LDA cũng chưa hẳn nước ngoài lệ.
Quay lại cùng với Hinc 1, những đường hình chuông thể hiện thứ thị của những hàm tỷ lệ tỷ lệ (probability density function - pdf) của tài liệu được chiếu xuống theo từng class. Phân phối hận chuẩn chỉnh tại đây được sử dụng nhỏng là 1 trong những đại diện, tài liệu không tuyệt nhất thiết luôn cần theo đúng phân phối hận chuẩn.
Độ rộng của mỗi mặt đường hình chuông biểu hiện độ lệch chuẩn của tài liệu. Dữ liệu càng triệu tập thì độ lệch chuẩn càng nhỏ dại, càng phân tán thì độ lệch chuẩn càng tốt. Khi được chiếu lên (d_1), dữ liệu của hai classes bị phân tán không ít, làm cho chúng bị xáo trộn sát vào nhau. Khi được chiếu lên (d_2), mỗi classes đều phải sở hữu độ lệch chuẩn chỉnh nhỏ, để cho tài liệu trong từng class tập trung rộng, dẫn đến công dụng giỏi rộng.
Tuy nhiên, việc độ lệch chuẩn chỉnh nhỏ trong những class không đủ để bảo đảm an toàn độ Discriminant của dữ liệu. Xét các ví dụ vào Hình 2.

Hình 2: Khoảng giải pháp thân những mong rằng và tổng các pmùi hương sai tác động tới độ discriminant của dữ liệu. a) Khoảng biện pháp thân nhị mong muốn là to tuy nhiên pmùi hương sai trong mỗi class cũng phệ, làm cho nhị phân păn năn ông chồng lấn lên nhau (phần màu xám). b) Pmùi hương không đúng cho từng class là hết sức nhỏ tuổi nhưng lại nhì mong muốn thừa ngay sát nhau, khiến cho cạnh tranh rõ ràng 2 class. c) khi phương thơm không đúng đầy đủ nhỏ và khoảng cách giữa nhị kỳ vọng đầy đủ Khủng, ta thấy rằng dữ liệu discriminant rộng.
Hình 2a) giống với tài liệu Lúc chiếu lên (d_1) sinh sống Hình 1. Cả nhì class đa số quá phân tán để cho tỉ trọng chồng lấn (phần diện tích S màu xám) là mập, tức dữ liệu không thực sự discriminative.
Hình 2b) là ngôi trường phù hợp khi độ lệch chuẩn chỉnh của nhì class phần đông nhỏ, tức tài liệu tập trung hơn. Tuy nhiên, sự việc cùng với ngôi trường thích hợp này là khoảng cách giữa nhì class, được đo bởi khoảng cách thân nhì mong rằng (m_1) và (m_2), là thừa nhỏ tuổi, làm cho phần ck lấn cũng chỉ chiếm môt tỉ trọng lớn, với tất yếu, cũng không xuất sắc cho classification.
Xem thêm: Hà Giang Có Đặc Sản Gì, Mua Gì Làm Quà? 10 Đặc Sản Hà Giang Vô Cùng Hấp Dẫn
cũng có thể bạn đang trường đoản cú hỏi, độ lệch chuẩn chỉnh và khoảng cách giữa nhị mong rằng thay mặt đại diện cho những tiêu chí gì:
Khoảng bí quyết thân những mong rằng là lớn chứng minh rằng nhì classes nằm xa nhau, tức tài liệu thân những classes là khác nhau nhiều. Bình phương khoảng cách thân nhì mong muốn ((m_1 - m_2)^2) còn được gọi là between-class variance.
Hai classes được hotline là discriminative giả dụ nhị class đó biện pháp cách nhau (between-class variance lớn) và dữ liệu trong mỗi class tất cả xu hướng như là nhau (within-class variance nhỏ). Linear Discriminant Analysis là thuật toán thù đi tìm kiếm một phnghiền chiếu sao cho tỉ lệ thân between-class variance với within-class variance lớn số 1 hoàn toàn có thể.
2.2. Xây dựng hàm mục tiêu
Giả sử rằng tất cả (N) điểm dữ liệu (mathbfx_1, mathbfx_2, dots, mathbfx_N) trong các số đó (N_1 &=&mathbfw^T underbracesum_k=1^2 sum_n in mathcalC_k (mathbfx_n - mathbfm_k)(mathbfx_n - mathbfm_k)^T_mathbfS_W mathbfw = mathbfw^TmathbfS_W mathbfw~~~~~(6)endeqnarray>(mathbfS_W) nói một cách khác là within-class covariance matrix. Đây cũng là một ma trận đối xứng nửa xác định dương bởi nó là tổng của nhị ma trận đối xứng nửa xác định dương.
Trong ((5)) và ((6)), ta vẫn sử dụng đẳng thức:với (mathbfa, mathbfb) là hai vectors cùng chiều ngẫu nhiên.
vì vậy, bài bác tân oán tối ưu đến LDA trnghỉ ngơi thành:
2.3. Nghiệm của bài bác toán thù buổi tối ưu
Nghiệm (mathbfw) của ((7)) vẫn là nghiệm của phương thơm trình đạo hàm hàm kim chỉ nam bởi 0. Sử dụng chain rule đến đạo hàm hàm những trở thành với cách làm ( abla_mathbfwmathbfw mathbfAmathbfw = 2mathbfAw) trường hợp (mathbfA) là 1 ma trận đối xứng, ta có:
Lưu ý: Trong ((10)), ta đã mang sử rằng ma trận (mathbfS_W) là khả nghịch. Điều này không luôn luôn luôn đúng, cơ mà có một trick nhỏ tuổi là ta có thể xấp xỉ (mathbfS_W) vày ( armathbfS_W approx mathbfS_W + lambdamathbfI) với (lambda) là một vài thực dương nhỏ dại. Ma trận mới này là khả nghịch vì trị riêng bé dại duy nhất của nó bởi cùng với trị riêng biệt nhỏ dại độc nhất vô nhị của (mathbfS_W) cùng cùng với (lambda) tức ko nhỏ dại hơn (lambdomain authority > 0). Vấn đề này được suy ra từ việc (mathbfS_W) là một trong những ma trận nửa xác định dương. Từ đó suy ra (armathbfS_W) là 1 ma trận xác minh dương vì những trị riêng rẽ của chính nó là thực dương, cùng vì thế, nó khả nghịch. lúc tính toán thù, ta rất có thể thực hiện nghịch hòn đảo của (armathbfS_W).
Kỹ thuật này được thực hiện rất nhiều lúc ta bắt buộc áp dụng nghịch đảo của một ma trận nửa xác minh dương cùng không biết nó gồm thực sự là xác định dương hay là không.
Quay trở về với ((10)), bởi vì (J(mathbfw)) là một số trong những vô hướng, ta suy ra (mathbfw) nên là một trong những vector riêng biệt của (mathbfS_W^-1mathbfS_B) ứng với cùng một trị riêng rẽ làm sao kia. ngoài ra, giá trị của trị riêng rẽ này bằng cùng với (J(mathbfw)). Vậy, để hàm kim chỉ nam là lớn nhất thì (J(mathbfw)) đó là trị riêng biệt lớn số 1 của (mathbfS_W^-1mathbfS_B). Dấu bằng xẩy ra khi (mathbfw) là vector riêng rẽ ứng với trị riêng rẽ lớn nhất đó. quý khách gọi rất có thể hiểu phần này hơn lúc chứng kiến tận mắt bí quyết xây dựng trên Pynhỏ sinh sống Mục 4.
Từ rất có thể thấy ngay lập tức rằng trường hợp (mathbfw) là nghiệm của ((7)) thì (kmathbfw) cũng là nghiệm cùng với (k) là số thực không giống ko ngẫu nhiên. Vậy ta có thể chọn (mathbfw) sao cho ((mathbfm_1 - mathbfm_2)^Tmathbfw = J(mathbfw) = L =) trị riêng lớn nhất của (mathbfS_W^-1mathbfS_B) . Khi kia, chũm tư tưởng của (mathbfS_B) làm việc ((5)) vào ((10)) ta có:
Vấn đề này có nghĩa là ta có thể chọn:với (alpha eq 0) bất kỳ.
Biểu thức ((11)) còn được hiểu như là Fisher’s linear discriminant, được đặt theo tên đơn vị công nghệ Ronald Fisher.
3. Linear Discriminant Analysis cho multi-class classification problems
3.1. Xây dựng hàm mất mát
Trong mục này, chúng ta đang chăm chú ngôi trường hòa hợp tổng thể lúc có rất nhiều hơn 2 classes. Giả sử rằng chiều của tài liệu (D) to hơn số lượng classes (C).
Giả sử rằng chiều nhưng bọn họ mong muốn bớt về là (D’ (mathbfX_k, mathbfY_k = mathbfW^TmathbfX_k) lần lượt là ma trận dữ liệu của class (k) vào không gian ban sơ và không gian bắt đầu cùng với số chiều nhỏ hơn.
(mathbfm_k = frac1N_ksum_n in mathcalC_kmathbfx_k in mathbbR^D) là vector mong rằng của class (k) trong không khí ban sơ.
(mathbfe_k = frac1N_ksum_n in mathcalC_k mathbfy_n = mathbfW^Tmathbfm_k in mathbbR^D’) là vector mong muốn của class (k) trong không gian mới.
Xem thêm: Cách Kiếm Bitcoin 2017 Làm Giàu Với Bitcoin Có Dễ Không, Làm Giàu Với Bitcoin Có Dễ Không
Một trong những biện pháp thành lập hàm phương châm mang lại multi-class LDA được minch họa vào Hình 3.