Phương pháp mô hình hóa thẻ điểm tín dụng

Trách nhiệm của nhà khoa học dữ liệu là thiết kế và phát triển một mô hình rủi ro tín dụng chính xác, hữu ích và ổn định. Trong quá trình phát triển mô hình, chúng tôi luôn cố gắng giải đáp một số câu hỏi của các doanh nghiệp. Những câu trả lời đôi khi đòi hỏi một sự phát xét chủ quan.

Câu hỏi 1: Làm thế nào để nói khách hàng đó từ “good” sang “bad”? Họ trả quá hạn 60, 90 hay 180 ngày?

Trả lời: Đây là một phần trong thiết kế mô hình. Chúng ta sẽ ghi lại nó dưới “định nghĩa hoạt động” (operational definition).

Câu hỏi 2: Khi mô hình dự đoán khách hàng “bad/good”, thời gian hợp lệ của mô hình là bao lâu? Có nên cố định độ dài của khoảng thời gian đó không?

Trả lời: Đây cũng là một phần trong thiết kế mô hình. Một lần nữa, chúng ta cần phải thống nhất với doanh nghiệp về những gì họ mong đợi từ mô hình dự đoán này.

Câu hỏi 3: Ai nên được đưa vào phân tích? Có cần loại trừ những khách hàng gian lận hay những người ở giữa khoảng “good” và “bad” không?

Trả lời: Trong thiết kế mô hình, chúng ta cần thêm một danh sách với tất cả các giả định với sự xác nhận của doanh nghiệp.

Câu hỏi 4: Đâu là những đặc điểm chính cho biết đó là khách hàng “good” hay “bad”?

Trả lời: Trong khuôn khổ lý thuyết, cần xác định đặc biệt các biến độc lập. Chúng ta sẽ tiến hành thăm dò dữ liệu để thiết lập mối quan hệ giữa các đặc điểm của khách hàng và biến số kết quả. Ví dụ: khách hàng có thu nhập thường xuyên thì ít có khả năng không trả được nợ hoặc các khách hàng cũ ít có khả năng bị vỡ nợ. Trong thuật ngữ khoa học, mỗi đặc tính, chẳng hạn như thu nhập hoặc tuổi tác, là một giả thuyết được kiểm chứng về ý nghĩa phương pháp thống kê như hồi quy logistic (logistic regression). Dựa trên phân tích thống kê, chúng ta có thể quyết định có giữ lại các biến đó trong mô hình hay không.

Các phần tiếp theo sẽ mô tả phương pháp xây dựng mô hình thẻ điểm chi tiết hơn.

Các phương pháp phát triển

Bất kỳ dự án kinh doanh, nghiên cứu hay phần mềm nào cũng đòi hỏi một phương pháp đúng đắn, có cơ sở, thường ở dạng bộ khung lý thuyết hoặc khái niệm. Mục đích của bộ khung này là mô tả thứ tự các bước và sự tương tác của chúng với nhau. Điều này đảm bảo rằng tất cả các giai đoạn quan trọng được thực hiện, hiểu rõ chính dự án đó, đặt ra những mốc quan trọng và xây dựng sự công tác tích cực giữa các bên liên quan của dự án.

Thông thường, có nhiều phương pháp có thể được áp dụng. Các dự án khai thác dữ liệu (data mining) là những ví dụ điển hình mà nhiều khuôn khổ khái niệm có sẵn. Khai thác dữ liệu thường liên quan đến việc phát triển mô hình dự báo được sử dụng cho mục đích kinh doanh. Có tính chất đa ngành, các dự án khai thác dữ liệu cần được xem xét từ nhiều góc nhìn khác nhau, như:

Kinh doanh – Nhằm đánh giá lợi ích kinh doanh tiềm năng.

Khoa học dữ liệu – Nhằm tạo ra một mô hình lý thuyết.

Phát triển phần mềm – Nhằm phát triển giải pháp phần mềm khả thi.

Mỗi góc nhìn có thể yêu cầu một phương pháp riêng biệt nhưng ít nhất có hai phương pháp sẽ được yêu cầu để phù hợp với những quan điểm trên. Ví dụ về hai phương pháp phổ biến là Agile-ScrumCRISP-DM (Cross Industry Standard Process for Data Mining – Quy trình chuẩn khai thác dữ liệu); Phương pháp đầu tiên phục vụ cho các yêu cầu phát triển phần mềm và kinh doanh, phương pháp sau được sử dụng để xây dựng mô hình.

Agile-Scrum là một phương pháp tiếp cận lặp đi, lặp lại theo thời gian, phát triển, xây dựng phần mềm từng bước và có mục tiêu chính là mang lại giá trị cho doanh nghiệp. Phương pháp này thúc đẩy sự tham gia tích cực của người dùng, tương tác giữa các bên liên quan, ưu tiên chuyển giao kết quả nhanh và thường xuyên. Vì vậy, nó rất thích hợp với các dự án khai thác dữ liệu, thường được thực hiện trong các khoảng thời gian ngắn và yêu cầu cập nhật thường xuyên để ứng phó với một môi trường kinh tế luôn thay đổi.

CRISP-DM là phương pháp hàng đầu cho quy trình khai thác dữ liệu. Nó bao gồm 6 giai đoạn liên kết chính:

1. Nghiên cứu yêu cầu kinh doanh (Business understanding)

2. Nghiên cứu dữ liệu (Data understanding)

3. Chuẩn bị dữ liệu (Data preparation)

4. Mô hình hóa (Modelling)

5. Đánh giá (Evaluation)

6. Triển khai (Deployment)

Hình 1: CRISP-DM – Quy trình khai thác dữ liệu

Mục đích cuối cùng của một mô hình dự đoán là đáp ứng các nhu cầu kinh doanh cụ thể liên quan đến việc cải thiện hiệu suất của một quy trình kinh doanh và doanh nghiệp. Hiểu biết về kinh doanh và dữ liệu là hai giai đoạn quan trọng đầu tiên của CRISP-DM. Kết quả của hai giai đoạn này sẽ là một nền tảng lý thuyết phục vụ thiết kế mô hình.

Khung lý thuyết và thiết kế mô hình

Khung lý thuyết là một nền tảng giúp xác định các yếu tố chủ chốt mà mối quan hệ của chúng trong mô hình dự báo, chẳng hạn như mô hình rủi ro tín dụng. Mục tiêu là xây dựng một loạt các giả thuyết và quyết định cách tiếp cận mô hình (như hồi quy logistic) để thử nghiệm các giả thuyết đó. Hơn nữa cần thiết lập phương pháp để đánh giá lại mô hình để xác nhận được mức độ chính xác của nó.

Các yếu tố chính trong khung lý thuyết này là:

(1) Biến phụ thuộc – Dependent Variable là biến đầu ra, trong trường hợp đánh giá tín dụng nó chính là “Trạng thái tín dụng” (Kết quả có thể là Nợ xấu – “bad” hay Nợ tốt – “good”).

(2) Các biến độc lập – Independent Variables là các tham số đầu vào phục vụ dự đoán, ví dụ như tuổi, tình trạng cư trú, thu nhập, công việc, chi tiết tài khoản ngân hàng, lịch sử thanh toán, lịch sử nợ xấu.

(3) Giả thuyết có thể kiểm chứng, ví dụ: chủ sở hữu nhà ít có khả năng không trả được nợ.

Bản thiết kế mô hình cần tuân theo các nguyên tắc  nghiên cứu, nó là nền tảng cho thu thập, đo lường và phân tích dữ liệu, do đó, mô hình có thể được kiểm tra, đánh giá mức độ độ tin cậy.

Một bản thiết kế mô hình tốt nên ghi lại những điều sau đây:

– Đơn vị phân tích, như: khách hàng, cấp sản phẩm

– Đối tượng dữ liệu (Ví dụ: những cá nhân vay mua ô tô) và cỡ mẫu.

– Định nghĩa trong vận hành thực tế, ví dụ như định nghĩa “thế nào là bad” và các giả định mô hình hóa, ví dụ như “loại trừ các khách hàng gian lận”.

– Khoảng thời gian quan sát – Observation Window (như lịch sử thanh toán của khách hàng trong suốt hai năm qua) và khung thời gian xác định kết quả đầu ra “good/bad” (được gọi là  Performance Window).

– Nguồn dữ liệu và phương pháp thu thập dữ liệu

Khoảng thời gian quan sát là dài hay ngắn sẽ phụ thuộc vào lĩnh vực hoạt động mà mô hình được thiết kế. Ví dụ, trong lĩnh vực ngân hàng, khoảng thời gian quan sát sẽ thường dài hơn so với lĩnh vực viễn thông, nơi thường xuyên có nhiều thay đổi trong các sản phẩm, do đó khoảng thời gian quan sát (Observation Window) và cửa sổ hiệu suất (Performance Window) ngắn hơn.

Performance Window

Hình 2: Sử dụng dữ liệu lịch sử để tiên đoán kết quả

Đối với khách hàng mới, những khách hàng này không có thông tin lịch sử (Không có Observation Window), họ được tính điểm bằng thông tin chúng ta có được tại thời điểm đăng ký (Loại này được gọi là Application Score). Dữ liệu bên ngoài (Ví dụ như dữ liệu thông tin tín dụng có được từ trung tâm thông tin tín dụng CIC) quan trọng hơn dữ liệu nội bộ cho loại tính điểm này. Đối với khách hàng cũ (Loại này được gọi là Behavioural Score), có dữ liệu lịch sử (Observation Window > 0), dữ liệu nội bộ quan trọng hơn và thường có kết quả dự báo tốt hơn so với khách hàng mới.

Các thẻ điểm khác nhau có thể được áp dụng trong toàn bộ hành trình của khách hàng bắt đầu từ các chiến dịch chuyển đổi để dự đoán khả năng khách hàng phản hồi chiến dịch marketing. Đối với khách hàng mới, lần đầu tiên đến với doanh nghiệp, khách hàng có thể được tính điểm dựa trên nhiều mô hình dự đoán, chẳng hạn như khả năng trả nợ của họ hoặc dự đoán khách hàng gian lận. Một loạt các mô hình Behavioural Score sẽ được áp dụng cho các khách hàng hiện tại để dự đoán xác suất vỡ nợ, từ đó giúp giới hạn tín dụng, thiết lập mức lãi suất hoặc lập kế hoạch các chiến dịch bán chéo, bán các dịch vụ thêm,.…

Các bước phát triển mô hình thẻ điểm tín dụng

Sau khi khung lý thuyết và thiết kế mô hình đã được xác định, chúng ta sẵn sàng cho các bước tiếp theo trong CRISP-DM. Tùy từng trường hợp cụ thể, có thể có những thay đổi nhỏ, tuy nhiên các bước điển hình của quy trình phát triển thẻ điểm tín dụng được liệt kê như trong bảng dưới đây:

Hình 2: Các bước điển hình trong xây dựng mô hình Scorecard rủi ro tín dụng tiêu chuẩn