Tổng quan về Cell Tracking Challenge sau 10 năm

 

Bối cảnh cá nhân

Chào các bạn độc giả! Mình là một sinh viên đang tìm hiểu sâu về lĩnh vực theo dõi tế bào (cell tracking). Trong quá trình học tập, mình nhận thấy “The Cell Tracking Challenge” (CTC) là một challenge rất nổi tiếng trong cộng đồng nghiên cứu, được biết đến với bộ dữ liệu đa dạng, tiêu chí đánh giá khách quan và hệ thống xếp hạng minh bạch. Tuy nhiên, việc nắm bắt toàn diện về cấu trúc, cách thức đánh giá và những điểm quan trọng của Challenge này không hề dễ dàng, nhất là với những người mới bắt đầu.

Chính vì vậy, mục đích của bài viết này là cung cấp một cái nhìn tổng quan, rõ ràng và dễ hiểu về CTC, dựa trên những gì tôi đã tổng hợp và nghiên cứu. Bài viết này dựa trên thông tin từ nhiều nguồn, đặc biệt là bài báo "The Cell Tracking Challenge: 10 years of objective benchmarking" được đăng trên Nature Methods. Hy vọng rằng, thông qua đây, chúng ta có thể cùng nhau tiếp cận Challenge một cách hiệu quả hơn, từ đó thúc đẩy các nghiên cứu và ứng dụng trong lĩnh vực theo dõi tế bào.

Giới thiệu

Cell Tracking Challenge (CTC) là một sáng kiến đánh giá hiệu năng thuật toán theo dõi tế bào tự động, đã trở thành chuẩn mực trong lĩnh vực phân đoạn và theo dõi tế bào. Lĩnh vực này đã cung cấp công cụ quan trọng cho các nhà nghiên cứu sinh học, nhưng những tiến bộ về kính hiển vi (độ phân giải, số chiều, tốc độ thu nhận) và sự phát triển nhanh của học máy (đặc biệt là học sâu) đòi hỏi các thuật toán theo dõi tiên tiến hơn[1]. CTC được khởi động năm 2013 (hội nghị ISBI lần thứ 10) nhằm thúc đẩy phát triển và đánh giá khách quan thuật toán theo dõi tế bào. CTC cung cấp một kho dữ liệu đa dạng gồm video vi mô theo thời gian có chú giải, cùng các tiêu chí và quy trình đánh giá khách quan – tất cả đều công khai cho cộng đồng khoa học[2].

CTC đã tổ chức báo cáo đầu tiên năm 2014 (6 đội tham gia, 8 bộ dữ liệu) và báo cáo chuyên sâu năm 2017 (21 thuật toán, 13 bộ dữ liệu)[3][4]. Phân tích năm 2017 chỉ ra rằng các phương pháp khai thác ngữ cảnh không gian-thời gian hoặc sử dụng học máy (lúc đó còn ít) vượt trội hơn so với phương pháp truyền thống. Kiến trúc U-Net hiện đại nằm trong nhóm đầu cho nhiệm vụ phân đoạn tế bào trên nhiều bộ dữ liệu tăng cường độ tương phản[4]. Ngược lại, theo dõi không giám sát hoàn toàn vẫn là mục tiêu xa vời. Hiệu quả thuật toán phụ thuộc mạnh vào từng bộ dữ liệu: chưa có giải pháp “phổ quát” do độ phức tạp và đa dạng của dữ liệu[5]. Hầu hết thuật toán khi đó chưa đủ tốt cho video tín hiệu-nhiễu thấp, hoặc cho tế bào hình dạng/kết cấu phức tạp. Đặc biệt, các bộ dữ liệu lớn 3D (ví dụ phôi phát triển) cực kỳ thách thức do số lượng, mật độ tế bào cao và yêu cầu tính toán lớn[6].

Từ sau 2017, CTC nhận được nhiều bài nộp mới và đã giải quyết phần lớn các thách thức trước đó, thông qua những cải tiến sẽ được trình bày trong các phần sau[7]. Những nâng cấp chính gồm: bổ sung hạng mục đánh giá chỉ phân đoạn, mở rộng kho dữ liệu với các tập đa dạng hơn, tạo “tiêu chuẩn bạc” (silver standard) làm tập chú giải tham chiếu mở rộng từ kết quả thuật toán tốt nhất (hữu ích cho các mô hình học sâu cần nhiều dữ liệu), cập nhật bảng xếp hạng mới nhất, phân tích sâu mối quan hệ giữa hiệu năng thuật toán với đặc điểm dữ liệu/chú giải, và hai nghiên cứu mới về khả năng tổng quát hóatính tái sử dụng của các phương pháp hàng đầu[8]. Những đóng góp này mang lại kết luận thực tiễn quan trọng cho cả nhà phát triển lẫn người dùng thuật toán theo dõi tế bào.

Phương pháp

Bộ dữ liệu và tiêu chuẩn chú giải: CTC đã mở rộng kho dữ liệu từ 13 bộ (2017) lên 20 bộ dữ liệu tính đến 2022[9]. Các dữ liệu mới bao gồm: video huỳnh quang 2D (tế bào gan Huh7 biểu hiện protein phát sáng YFP-TIA-1), video trường sáng 2D (tế bào gốc máu chuột và tế bào gốc cơ chuột trong vi môi trường hydrogel), video huỳnh quang 3D (tế bào ung thư phổi A549 gắn GFP-actin) và phiên bản mô phỏng của chúng với nhiều thành phần giả chân động (filopodia), cùng các video hiển vi trung mô (mesoscopic) kích thước rất lớn về phôi bọ cánh cứng Tribolium (dạng bản đồ 3D ~10 GB mỗi video, hoặc khối 3D hoàn chỉnh >100 GB mỗi video)[10][11]. Hình 1 trong bài minh họa các dữ liệu mới này, và Hình 2 tổng kết các đặc tính định lượng và định tính chính của từng bộ dữ liệu (ví dụ: tỷ lệ tín hiệu trên nhiễu – SNR, độ tương phản – CR, tính đồng nhất tín hiệu trong và giữa các tế bào – Het_i, Het_b, độ phân giải – Res, hình dạng – Sha, độ thưa – Spa, biến đổi cường độ theo thời gian – Cha, độ chồng lấn – Ove, tốc độ phân bào – Mit, v.v.)[12][13]. Các giá trị định lượng được mã màu (xanh-lá đến đỏ) biểu thị mức độ phức tạp dữ liệu: xanh nghĩa là thuận lợi, đỏ là thách thức lớn hơn (loại bỏ ngoại lệ và nội suy theo thang màu)[14]. Nhờ phương pháp trên (xem mục “Dataset properties” trong Methods), mỗi bộ dữ liệu đều được đặc trưng bằng một bộ chỉ số chất lượng hình ảnh nhất quán[15].

CTC sử dụng hệ chú giải tham chiếu hai cấp cho dữ liệu thật: “tiêu chuẩn vàng” (gold standard) và “tiêu chuẩn bạc” (silver standard)[16]. Đối với dữ liệu mô phỏng, do đã biết chính xác vị trí/đường đi tế bào, các chú giải chuẩn chính là “chân lý mặt đất” gốc (không bị nhiễu, mờ) trước khi thêm nhiễu vào video[17]. Đối với dữ liệu thật, chú giải chuẩn vàng được tạo bằng đa số phiếu từ 3 chuyên gia độc lập. Cụ thể, với phân đoạn, do khối lượng công việc lớn, chỉ một phần các tế bào trong mỗi video được chuyên gia vẽ mặt nạ phân đoạn (trung bình chỉ 17,8% tổng số xuất hiện tế bào)[18][19]. Còn đối với phát hiện và theo dõi, chuyên gia đánh dấu tất cả các tế bào (bằng marker) và nối chúng qua các khung hình thành cây phả hệ (ngoại trừ trường hợp đặc biệt ở các phôi lớn, chỉ chú giải một vùng sinh học quan trọng của phôi)[19]. Ngược lại, chú giải chuẩn bạc là bộ chú giải tự động được tạo bằng cách hợp nhất kết quả của các thuật toán hàng đầu trên tập dữ liệu huấn luyện, dưới sự hướng dẫn của chú giải vàng về phát hiện (dùng marker vàng để định vị vùng cần hợp nhất)[20]. Phương pháp hợp nhất sử dụng thuật toán bỏ phiếu theo pixel/voxel: với mỗi vị trí tế bào (marker vàng), thu thập các vùng mà thuật toán tốt nhất đã phân đoạn trùng lên đó, sau đó lấy phần giao xuất hiện trong >2/3 số vùng để tạo vùng hợp nhất cuối[21][22]. Quy trình được hiệu chỉnh để tối ưu độ chính xác phân đoạn so với vàng (điều chỉnh ngưỡng 2/3 phù hợp từng video) và giảm thiểu mất sót hay chồng lấn vùng giữa các thuật toán[23][24]. Kết quả, chú giải bạc phủ gần như toàn bộ số tế bào (trung bình 99,1% số trường hợp trong video) – vượt xa mức phủ hạn chế của chú giải vàng (vì vàng chỉ chú thích một phần)[25]. Điều này cung cấp cho người tham gia một tập dữ liệu có gắn nhãn phong phú hơn để huấn luyện các mô hình học sâu, vốn đòi hỏi lượng dữ liệu lớn[26]. (Chú ý: không đạt được 100% do ngay cả thuật toán tốt nhất cũng bỏ sót một vài tế bào). Toàn bộ chú giải vàng và bạc được công khai cho tập huấn luyện, nhưng giữ kín cho tập kiểm tra để tránh hiện tượng mô hình “học tủ” – đảm bảo đánh giá năng lực tổng quát hóa thật sự thay vì nhớ dữ liệu cụ thể[27].

Người tham gia và thuật toán: CTC chứng kiến sự gia tăng mạnh về mức độ tham gia so với 2017. Số nhóm tăng từ 16 lên 50, thuộc 19 quốc gia; số thuật toán được đánh giá từ 21 lên 89 thuật toán[28]. Mỗi bài dự thi nộp kết quả gồm các ảnh mặt nạ phân đoạn có nhãn và file văn bản cấu trúc chứa cây phả hệ (nếu có theo dõi). Ban tổ chức kiểm tra các kết quả và chạy thử các thuật toán nộp kèm để xác minh tính hợp lệ, định dạng thống nhất[29]. Danh sách đầy đủ các thuật toán phân đoạn và theo dõi được cung cấp ở Phụ lục (bảng dữ liệu bổ sung), và Hình 3 đưa ra cái nhìn tổng quan về chiến lược và kỹ thuật mà các phương pháp sử dụng[30]. Cụ thể, khoảng 1/3 phương pháp phân đoạn chọn cách tách bạch bước phát hiện đối tượng trước rồi mới phân đoạn (loại DetSeg), thay vì phân đoạn trực tiếp toàn ảnh (Seg)[31]. Về theo dõi, đa số phương pháp xếp hạng cao đều thực hiện theo kiểu hai bước: phân đoạn từng khung trước, sau đó liên kết (SegLnk hoặc DetSegLnk), áp đảo so với số ít phương pháp chỉ dựa trên phát hiện điểm (DetLnkSeg) hoặc tích hợp phân đoạn & liên kết đồng thời (Seg&Lnk)[31][32]. Điều này xác nhận xu hướng chung: phần lớn thuật toán theo dõi hiện nay dựa trên việc phân đoạn từng khung hình làm tiền đề cho việc liên kết qua thời gian.

Tiêu chí đánh giá và bảng xếp hạng: CTC hiện có hai bảng đánh giá độc lập: Cell Tracking Benchmark (CTB) – đánh giá bài toán kết hợp phân đoạn theo dõi; và Cell Segmentation Benchmark (CSB) – tập trung đánh giá phân đoạn (kèm phát hiện) không xét khía cạnh liên kết theo dõi[33]. CTB là hạng mục truyền thống từ đầu (2013) của CTC, còn CSB mới được giới thiệu năm 2019 để đáp ứng nhu cầu so sánh thuật toán phân đoạn đơn thuần[34]. Mỗi thuật toán được chấm bằng các thước đo định lượng chính (mô tả chi tiết trong mục “Quantitative performance criteria” của Methods): (i) SEGđộ chính xác phân đoạn (tính trung bình IoU giữa vùng dự đoán và vùng tham chiếu), (ii) TRAđộ chính xác theo dõi (khoảng cách chuẩn hóa giữa kết quả theo dõi của thuật toán và chuẩn vàng, tính đến chi phí hiệu chỉnh bằng tay)[35]. Đối với CSB (không có liên kết), nhóm tác giả đã giới thiệu thêm thước đo DETđộ chính xác phát hiện – là một dạng điều chỉnh của F1-Score, nhấn mạnh recall hơn precision (tương tự F3-Score) để tránh bỏ lọt tế bào trong chuỗi thời gian[36][37]. Tóm lại, SEG đánh giá chất lượng phân đoạn, TRA đánh giá cả phát hiện + liên kết, còn DET chỉ đánh giá phát hiện. Ngoài ra, Overall Performance (OP) cho mỗi bảng CTB hoặc CSB được tính bằng trung bình đơn giản của hai thành phần (SEG và TRA cho CTB, hoặc SEG và DET cho CSB)[38]. Tất cả các thước đo trên đều cho giá trị từ 0 đến 1, càng cao nghĩa là thuật toán càng tốt[39].

Bên cạnh các chỉ số kỹ thuật trên, bài báo còn xem xét các thước đo “mang ý nghĩa sinh học” nhằm trả lời những câu hỏi mà nhà sinh học quan tâm[40]. Các chỉ số này gồm: CT (Complete Tracks) – tỷ lệ quãng đường tế bào được thuật toán tái hiện đầy đủ (từ lúc xuất hiện đến lúc biến mất) so với phả hệ chuẩn; TF (Track Fractions) – trung bình tỷ lệ đoạn track đúng liên tục dài nhất mà thuật toán khớp được trên mỗi track của chuẩn (đại diện cho phần quãng đường một tế bào đi mà thuật toán theo dõi đúng trước khi mất dấu); BC(i) (Branching Correctness) – độ chính xác phát hiện sự kiện phân chia (mitosis) với sai số cho phép i khung hình; và CCA (Cell Cycle Accuracy) – độ chính xác tái hiện đúng thời gian chu kỳ tế bào (khoảng thời gian giữa hai lần phân bào liên tiếp)[40][41]. Các chỉ số này cũng được chuẩn hóa 0-1 (1 là tốt nhất). Mặc dù không dùng để xếp hạng chính thức, chúng cung cấp góc nhìn sinh học về kết quả thuật toán.

Phân tích dữ liệu và thống kê: Nhóm tác giả đã tiến hành một số phân tích chuyên sâu trên kết quả của các thuật toán: (1) Tương quan giữa chất lượng hình ảnh và hiệu năng thuật toán: sử dụng hệ số tương quan Spearman giữa từng chỉ số chất lượng ảnh (Hình 2) với điểm SEG, TRA/DET của mọi thuật toán trên tập dữ liệu đó[42]. Phân tích được thực hiện ở mức toàn cục (gộp tất cả bộ dữ liệu), theo từng loại ảnh (huỳnh quang 2D, 3D, trường sáng, pha tương phản, DIC), và cho từng bộ dữ liệu riêng lẻ[43]. (2) Tương quan giữa chất lượng chú giải và hiệu năng thuật toán: so sánh độ khó của nhiệm vụ chú giải (đo bằng mức độ nhất quán giữa các chuyên gia – chỉ số MSEG_GT, MDET_GT, MTRA_GT cho vàng; và chất lượng hợp nhất – SEG_ST, DET_ST cho bạc) với điểm thuật toán[44][45]. (3) Thay đổi trong chiến lược thuật toán theo thời gian: phân tích các xu hướng thuật toán (ví dụ: dùng học máy hay không, tách bước phát hiện hay không) và hiệu quả tương ứng, để xem sự tiến bộ của các phương pháp theo thời gian 2013–2022. (4) Nghiên cứu tính tổng quát hóa: tiến hành một thí nghiệm với sự tham gia của 9 đội mạnh, yêu cầu họ huấn luyện lại mô hình theo 6 cấu hình dữ liệu khác nhau (sử dụng bộ huấn luyện riêng từng bộ dữ liệu với: chỉ vàng, chỉ bạc, vàng+bạc; và huấn luyện gộp tất cả bộ dữ liệu với: chỉ vàng, chỉ bạc, vàng+bạc), tổng cộng 78 mô hình cho mỗi phương pháp[46][47]. Hiệu năng các mô hình này được đánh giá trên 13 bộ dữ liệu (đã dùng để huấn luyện, mỗi cấu hình) và trên 3 bộ dữ liệu hoàn toàn mới mà mô hình chưa thấy khi huấn luyện (gồm Fluo-C2DL-Huh7, Fluo-N2DH-SIM+, Fluo-N3DH-SIM+)[48]. Thử nghiệm này giúp đánh giá mức độ ổn định và khái quát của thuật toán khi thay đổi dữ liệu huấn luyện. (5) Sáng kiến tái sử dụng: CTC đề xuất một bộ hướng dẫn tùy chọn để tăng tính tái sử dụng của thuật toán, nhất là các phương pháp học sâu. Theo đó, người phát triển nên công bố mã nguồn (GitHub), cung cấp hướng dẫn rõ ràng để khởi tạo mô hình, tải trọng số đã huấn luyện, huấn luyện tiếp trên dữ liệu mới và áp dụng mô hình cho dữ liệu mới; liệt kê đầy đủ các yêu cầu thư viện/phần mềm; và tốt nhất cung cấp notebook Jupyter tương thích Google Colab để người dùng dễ chạy thử và fine-tune mô hình trên GPU miễn phí[49][50]. Các tiêu chí này nhằm đảm bảo ngay cả người không phát triển thuật toán cũng có thể dễ dàng áp dụng mô hình đã có vào dữ liệu của họ.

Kết quả

Mở rộng bộ dữ liệu và chú giải: Đến 2022, CTC đã có 20 bộ dữ liệu thử thách, tăng thêm 7 bộ so với 2017, giúp đa dạng hóa và tăng độ phức tạp của kho dữ liệu[9]. Những dữ liệu mới này bổ sung các tình huống thực nghiệm quan trọng: ví dụ, video kính hiển vi tờ ánh sáng (light-sheet) ghi lại phát triển phôi (Tribolium castaneum), video tế bào ung thư với các nhánh giả linh động (mô phỏng quá trình di chuyển kiểu trung mô), hay video trường sáng theo dõi sự phân bào nhanh của tế bào gốc trong vi môi trường nhân tạo[10][11]. Hình 1 minh họa ảnh mẫu từ các bộ dữ liệu mới, trong khi Hình 2 so sánh định lượng đặc điểm chất lượng của tất cả tập dữ liệu thách thức. Các bộ dữ liệu mới này giúp kiểm tra thuật toán trên những trường hợp khó: chẳng hạn, bộ Fluo-N3DL-TRIF (phôi Tribolium 3D đầy đủ) có kích thước tới 100 GB, đòi hỏi thuật toán vừa chính xác vừa hiệu quả; hay bộ Fluo-C3DH-A549-SIM (tế bào mô phỏng với chân giả) thách thức thuật toán xác định đúng ranh giới tế bào khi chúng có cấu trúc thò thụt rất phức tạp[9][51]. Bên cạnh đó, nhóm tác giả cũng tổng hợp bảng mô tả kỹ thuật cho mọi bộ dữ liệu (Phụ lục) và sử dụng các thước đo chất lượng ảnh đã nêu (SNR, CR, Het_i, Het_b, Res, Sha, Spa, Cha, Ove, Mit) để gán nhãn độ khó cho từng tập (Hình 2)[12][13]. Kết quả này hỗ trợ người dùng hiểu trước độ phức tạp của dữ liệu: ví dụ nền màu đỏ ở một tiêu chí nghĩa là tập dữ liệu đó có đặc điểm khiến bài toán khó hơn tương ứng (như Ove đỏ cho biết tế bào hay chồng lấn nhau nhiều)[14].

Về chú giải tham chiếu, CTC hiện cung cấp đầy đủ chú giải vàng cho tất cả bộ dữ liệu huấn luyện và dùng các kết quả bài thi (đến 2022) để tạo chú giải bạc như một kho dữ liệu gắn nhãn lớn. Bảng phụ lục cho thấy trung bình chú giải vàng chỉ bao phủ ~17,8% trường hợp tế bào (vì không thể vẽ thủ công hết), trong khi chú giải bạc đạt ~99,1%[19][26]. Nhờ đó, người phát triển thuật toán có thể tận dụng tập “bạc” này (gần như đầy đủ) để huấn luyện mô hình học sâu thay vì chỉ dựa vào số ít chú giải vàng hiện có[26]. Dĩ nhiên, vẫn còn một tỷ lệ nhỏ tế bào chưa được đánh dấu trong chuẩn bạc do giới hạn của ngay cả thuật toán tốt nhất. Tất cả các chú giải vàng/bạc đều công bố công khai cho tập huấn luyện, nhưng với tập kiểm tra thì giữ kín nhằm đảm bảo bài thi không thể tinh chỉnh đặc hiệu cho dữ liệu kiểm tra (tránh overfitting)[52].

Thống kê bài thi và chiến lược thuật toán: Tính đến giữa 2022, CTC ghi nhận 50 đội tham gia từ 19 quốc gia, nộp tổng cộng 89 thuật toán (tăng mạnh so với 2017)[28]. Danh sách chi tiết có trong tài liệu bổ sung; tại đây nhóm tác giả phân loại các thuật toán theo chiến lược phân đoạn/theo dõi (Hình 3a) và kỹ thuật triển khai cụ thể (Hình 3b)[31][53]. Phần lớn (khoảng 2/3) các phương pháp phân đoạn trực tiếp tạo mask đối tượng (loại Seg), số còn lại chọn phát hiện vị trí trước rồi mới tách vùng (loại DetSeg)[31]. Đối với bài toán theo dõi, xu hướng áp đảo là các phương pháp liên kết dựa trên kết quả phân đoạn từng khung (SegLnk hoặc DetSegLnk). Rất ít phương pháp chỉ dựa trên phát hiện (DetLnkSeg) hoặc gộp chung (Seg&Lnk), và nhìn chung các phương pháp không thực hiện phân đoạn rõ ràng cho từng khung thường có hiệu năng thấp hơn trên các bộ dữ liệu có tế bào dày đặc[32][54]. Thật vậy, phân tích cho thấy chiến lược DetSeg (phát hiện trước, phân đoạn sau) vượt trội đáng kể so với Seg thuần túy trên các bộ dữ liệu có tế bào phân cụm nhiều (ví dụ DIC-C2DH-HeLa)[54]. Lý do là việc phát hiện từng tế bào bằng học máy trước giúp giảm các lỗi gộp hoặc tách nhầm tế bào trong giai đoạn phân đoạn, từ đó cải thiện điểm DET về phát hiện[55]. Hiện nay, chiến lược dựa trên phát hiện này chiếm ưu thế cả ở các bộ dữ liệu phôi lớn: trong số những thuật toán có điểm DET cao nhất trên các tập khó như Fluo-N3DH-CE, Fluo-N3DL-DRO/TRIC/TRIF, đa phần đều thuộc loại dựa trên phát hiện (các nhóm IGFL-FR, JAN-US, MPI-GE, OX-UK, RWTH-GE)[56].

Về kỹ thuật phân đoạn, xu hướng rõ ràng là các thuật toán dùng học máy (đặc biệt học sâu) nhìn chung vượt trội so với phương pháp truyền thống dựa trên ngưỡng hoặc phát triển vùng. Điều này đúng cho cả ảnh không nhuộm (như trường sáng, pha tương phản) – vốn rất khó tìm đặc trưng thủ công, nên việc để mạng học tự rút trích đặc trưng tỏ ra hiệu quả hơn – lẫn ảnh huỳnh quang 2D, 3D[57]. Sự cải thiện về điểm SEG qua thời gian cũng gắn liền với sự xuất hiện của các mô hình học sâu tự tối ưu cấu trúc (như nnU-Net của nhóm DKFZ-GE) hoặc kiến trúc đa nhánh (như các mô hình KIT-GE (3) và (4)), cho phép kết hợp nhiều đầu ra để nâng cao kết quả[58]. Phân tích dữ liệu mở rộng cho thấy từ ~2019 trở đi, hiệu năng phân đoạn (SEG) và phát hiện (DET) của các phương pháp học sâu tăng nhanh hơn đáng kể so với phương pháp không học máy, và đến ~2021 thì cả điểm theo dõi (TRA) cũng vậy – phản ánh sự bứt phá của mô hình học sâu so với phương pháp cổ điển[59]. Mặc dù vậy, đáng chú ý là hiệu năng liên kết theo dõi (TRA) chưa cho thấy khác biệt đáng kể giữa thuật toán dùng học máy và không dùng, xét trên tất cả dữ liệu[60]. Nói cách khác, hiện chưa có bằng chứng thống kê là thuật toán dùng học sâu để nối track vượt trội hơn cách truyền thống. Nguyên nhân một phần do giới hạn dữ liệu huấn luyện: rất ít bộ dữ liệu có đầy đủ chú giải track để huấn luyện mô hình học sâu về liên kết, nên đa số nhóm vẫn dùng thuật toán nối truyền thống (dựa trên tối ưu, quy tắc thủ công)[61]. Dù vậy, một số phương pháp tiên phong đã xuất hiện, như BGU-IL (5) sử dụng Graph Neural Network (GNN) để nối các khung thời gian thành đường đi toàn cục cho từng tế bào, coi video như một đồ thị và tìm “đường đi lớn nhất” tương ứng mỗi cell[62][63]. Một ví dụ khác là KIT-GE (4) – tích hợp luôn bước liên kết vào một nhánh của mạng học sâu hai nhánh, thực hiện phân đoạn và liên kết đồng thời[64]. Tuy nhiên, các cách tiếp cận tích hợp như vậy hiện rất hiếm, có lẽ bởi khi dữ liệu đã được phân đoạn tốt thì bước liên kết đơn giản (dựa trên khoảng cách, chồng lấn vùng) đã đủ hiệu quả mà không cần mạng chuyên biệt[64]. Nhìn rộng ra, hầu hết quy trình theo dõi công bố hiện nay vẫn là hai giai đoạn tách biệt: tối ưu phân đoạn trước theo tiêu chí định lượng, rồi mới tinh chỉnh hoặc làm thủ công bước ghép track[65]. Cách làm này phần nào kìm hãm tiến bộ của bài toán theo dõi, vì các thành tựu học sâu trong lĩnh vực theo dõi vật thể và ước tính chuyển động (như mô hình deep tracking, optical flow) chưa được áp dụng cho theo dõi tế bào[66]. Đây là cơ hội mở cho tương lai, khi các phương pháp video processing học sâu (ví dụ tăng độ phân giải video, nội suy khung hình) đã được dùng trong lĩnh vực khác[67] nhưng chưa được khám phá trong bối cảnh theo dõi tế bào.

Bảng xếp hạng kỹ thuật: Dựa trên điểm số, nhóm tác giả đã tổng hợp leaderboard cho cả hạng mục CSB (phân đoạn) và CTB (phân đoạn + theo dõi) tính đến 1/6/2022. Hình 4a liệt kê top-3 thuật toán CSB trên từng bộ dữ liệu (kèm điểm SEG và DET và điểm trung bình OP), và Hình 4b tương tự cho top-3 CTB (điểm SEG, TRA và OP)[68][69]. Xét về thành tích tổng thể, nhóm dùng hệ thống tính điểm: mỗi lần một thuật toán đứng top-1, top-2, top-3 trên bất kỳ bộ dữ liệu thì lần lượt được 3, 2, 1 điểm; cộng tất cả để xếp hạng các nhóm xuất sắc nhất[70]. Kết quả cho thấy các phương pháp hàng đầu đều thuộc một số nhóm nổi bật: đứng đầu bảng CSB là CALT-US (một biến thể U-Net tối ưu hóa)[71], theo sau là KIT-GE (3) và đồng hạng ba gồm DKFZ-GE (dựa trên nnU-Net) cùng KIT-GE (4) KTH-SE (1)[71]. Còn bảng CTB thì cả ba vị trí dẫn đầu đều thuộc về hai nhóm: KIT-GE (3), KIT-GE (4) KTH-SE (1)[71]. (Dấu * cạnh tên nghĩa là phiên bản đã tinh chỉnh để tổng quát hơn.) Các thuật toán top này được mô tả kỹ hơn trong mục “Top-performing algorithms” (Methods) – hầu hết đều ứng dụng học sâu cho phân đoạn. Thật vậy, 4/5 thuật toán đứng đầu hai bảng đều dùng mô hình học sâu cho bước phân đoạn (KIT-GE (3), KIT-GE (4), CALT-US, DKFZ-GE)[72]. Tuy nhiên, cũng có ngoại lệ đáng chú ý: KTH-SE (1) BGU-IL (1)* sử dụng phương pháp truyền thống (không học máy) nhưng vẫn đạt kết quả tương đương top học sâu trên một số bộ dữ liệu nhờ thuật toán phân đoạn/ghép nối rất tinh gọn và hiệu quả[73]. Đặc biệt, KTH-SE (2) (một biến thể khác của nhóm KTH) đạt hiệu năng ấn tượng trên các bộ phôi – một bài toán mà cả phương pháp học sâu cũng gặp nhiều khó khăn[74].

Đáng mừng là hiệu năng tổng thể đã cải thiện rõ rệt so với 5 năm trước. Phân tích dữ liệu mở rộng cho thấy từ 2017 đến 2022, điểm SEG và DET của các phương pháp tốt nhất đều tăng lên trên đa số bộ dữ liệu, đặc biệt là những bộ khó nhất như Fluo-C2DL-MSC hay Fluo-N3DL-DRO (cải thiện đáng kể)[75]. Nói cách khác, nhiệm vụ phát hiện tế bào có vẻ gần như được giải quyết trên nhiều bộ dữ liệu, dù nhiệm vụ phân đoạn vẫn cần chú ý cải thiện thêm ở một vài tập lâu nay vốn khó (như Fluo-C2DL-MSC, Fluo-C3DL-MDA231, Fluo-N3DL-DRO) cũng như các tập mới bổ sung[75][76]. Tương tự, điểm SEG (và TRA) trong hạng mục CTB cũng tăng đáng kể so với trước, nhưng vẫn cho thấy cần nỗ lực hơn ở đúng những tập dữ liệu “khó nhằn” kể trên[77].

Yếu tố ảnh hưởng hiệu năng: Một kết quả quan trọng của nghiên cứu là hiểu rõ hơn yếu tố nào trong dữ liệu ảnh hưởng mạnh đến thành tích thuật toán. Xét toàn cục, phân tích tương quan Spearman chỉ tìm được duy nhất một thông số có tương quan trung bình (rho ≈ 0,4) với điểm phân đoạn (SEG) của thuật toán: đó là độ chồng lấn giữa các tế bào (Ove)[78]. Hệ quả này gợi ý: nhìn chung, các thuật toán dễ dàng phân đoạn hơn khi tế bào không biến đổi hình dạng quá nhiều và ít di động – tức là trường hợp tế bào ít chồng lấn nhau giữa hai khung liên tiếp sẽ cho kết quả tốt hơn so với khi hình dạng thay đổi mạnh hoặc di chuyển nhiều[79]. Ngoài yếu tố toàn cục này, khi phân tích theo từng loại hiển vi, nhiều mối tương quan mạnh khác xuất hiện, phù hợp với trực giác: chẳng hạn trên ảnh huỳnh quang 2D, hiệu năng cao khi ảnh có SNR cao (nhiễu thấp), tế bào hình dạng đều (Sha cao giúp SEG cao), và đáng ngạc nhiên là ảnh độ phân giải thấp lại có điểm TRA cao hơn[80][81]. Sự trái ngược ở độ phân giải có thể lý giải do hai bộ dữ liệu huỳnh quang 2D phức tạp (Fluo-C2DL-MSC và Fluo-C2DL-Huh7) có Res tương đối cao nhưng lại có nhiều yếu tố bất lợi (hình dạng rất bất thường – Sha thấp, cháy sáng giảm tín hiệu – Cha cao, SNR thấp, độ tương phản thấp – CR thấp, v.v.), nên lợi thế về Res của chúng bị lấn át bởi các nhược điểm khác[82]. Trong khi đó, với ảnh huỳnh quang 3D, các bộ dữ liệu khác nhau cho kết quả rất phân tán nên chỉ thấy tương quan trung bình: Res cao giúp SEG và TRA tăng (rho dương), còn tế bào hình dạng càng không đều (Sha thấp) thì SEG giảm, khoảng cách giữa các tế bào (Spa) lớn thì SEG tăng nhẹ[83][84]. Đối với ảnh trường sáng (bright-field), hầu hết yếu tố chất lượng đều tương quan như dự đoán: SNR cao cải thiện cả SEG và TRA, ngược lại CR, Het_i, Het_b cao (ảnh nền không đồng nhất, tín hiệu bên trong và giữa các tế bào không đồng đều) đều làm giảm hiệu năng; Res cao, Spa lớn cũng tương quan nghịch với SEG[85]. Riêng việc Res và Spa (khoảng cách) càng lớn mà điểm thấp hơn có vẻ ngược so với kỳ vọng – điều này do trong 2 bộ bright-field, bộ BF-C2DL-HSC có Res và mật độ Spa thấp (xấu) hơn bộ còn lại, nhưng các yếu tố khác của nó lại thuận lợi hơn (như tín hiệu đồng nhất hơn – Het_b thấp, tế bào hình tròn hơn – Sha cao, độ chồng lấn Ove cao giúp che bớt nền) nên tổng thể kết quả BF-C2DL-HSC tốt hơn BF-C2DL-MuSC[86]. Với ảnh pha tương phản (PhC), do chỉ có 2 bộ mà tính chất khác nhau rõ rệt, một số tương quan ngược bất ngờ xuất hiện: ví dụ CR cao thì kết quả kém (vì bộ có CR cao – PhC-C2DL-PSC – lại khó hơn nhiều bộ kia do Res thấp, Spa thấp và Mit cao)[87]. Ngược lại, mức dị biệt tín hiệu (Het_i, Het_b) cao lại làm tăng hiệu năng trên ảnh PhC[88]. Điều này gợi ý rằng đặc trưng kết cấu phức tạp và quầng sáng (halo) vốn có ở ảnh pha tương phản thực ra có lợi cho các thuật toán nhận dạng mẫu hình (như mô hình học máy) – chúng tận dụng được những chi tiết này để phân biệt tế bào với nền[89]. Tóm lại, ngoài yếu tố chung là độ chồng lấn tế bào, mỗi loại ảnh đều có tập yếu tố riêng ảnh hưởng đến kết quả theo cách đôi khi khó lường. Phân tích chi tiết hơn cho từng bộ dữ liệu (phân bổ điểm theo giá trị các chỉ số chất lượng) được cung cấp trong các biểu đồ bổ sung, giúp xác định rõ điểm nghẽn của thuật toán trên từng loại dữ liệu[90].

Phân tích cũng chỉ ra mối liên hệ mật thiết giữa chất lượng chú giải và hiệu năng thuật toán. Hình 5 cung cấp các chỉ số định lượng về chất lượng bộ chú giải vàng (MSEG_GT, MDET_GT, MTRA_GT) và bạc (SEG_ST, DET_ST) cho tất cả các bộ dữ liệu[44][91]. MSEG_GT phản ánh mức độ nhất quán giữa các người chú thích – qua đó đo độ khó nội tại của việc phân đoạn thủ công từng tập; còn SEG_ST đánh giá độ chính xác hợp nhất kết quả máy so với chuẩn vàng – phản ánh chất lượng của “tiêu chuẩn bạc” tương ứng[92][93]. Nhìn vào Hình 5, có thể thấy độ khó phân đoạn bằng tay (màu ở cột MSEG_GT) thay đổi tùy tập: nhiều bộ dữ liệu có MSEG_GT không cao, nghĩa là ngay cả chuyên gia cũng khó thống nhất khi vẽ vùng tế bào (thường do ảnh mờ, tế bào chen chúc hoặc hình dạng không rõ)[91]. Ngược lại, các cột SEG_ST, DET_ST hầu hết rất cao (gần mức tối đa) nhờ việc hợp nhất nhiều kết quả tốt lại – xác nhận chuẩn bạc đạt chất lượng cao. Khi tính tương quan Spearman, cả ba chỉ số chất lượng vàng đều tương quan thuận mức trung bình với hiệu năng thuật toán (điểm SEG/TRA)[94]. Nói cách khác, những video mà chuyên gia chú thích khó (ít đồng thuận) thì thuật toán cũng khó xử lý, điều này phù hợp với kỳ vọng thông thường[95]. Đặc biệt về phân đoạn, nhiều bộ có MSEG_GT khá thấp cho thấy vẫn còn dư địa để cải thiện tính nhất quán trong khâu gán nhãn dữ liệu – nếu con người làm tốt hơn thì máy cũng sẽ học tốt hơn[96]. Ở cấp độ từng loại ảnh, xu hướng tương tự vẫn thấy (ngoại trừ DIC do quá ít dữ liệu để kết luận)[97]. Trong khi đó, chất lượng chuẩn bạc SEG_ST, DET_ST tương quan mạnh với điểm thuật toán[98], điều dễ hiểu vì chuẩn bạc chính là hợp nhất các thuật toán tốt – nó gần như bao phủ toàn bộ tế bào nên mô hình huấn luyện theo đó sẽ đạt kết quả cao. Kết quả này nhấn mạnh rằng việc tăng độ bao phủ và chất lượng của tập chú giải (như thông qua chuẩn bạc) đem lại cải thiện trực tiếp cho thuật toán[99]. Do vậy, cần tiếp tục cải tiến cách tạo “sự thật bạc”, vì bất kỳ cải thiện nào ở dữ liệu huấn luyện cũng sẽ phản ánh ngay ở chất lượng phân đoạn của mô hình cuối[100].

Hiệu năng sinh học: Ngoài các chỉ số kỹ thuật (SEG, DET, TRA), bài báo còn xem xét bảng xếp hạng theo các chỉ số sinh học (CT, TF, BC(i), CCA) để đánh giá mức độ thuật toán đáp ứng nhu cầu phân tích của nhà sinh học. Hình 6 trình bày top-3 thuật toán cho từng bộ dữ liệu theo bộ tiêu chí sinh học này (tính đến 1/6/2022)[101][102]. Kết quả rất thú vị: các phương pháp có điểm sinh học cao nhất chính là những phương pháp đã đứng đầu theo chỉ số kỹ thuật. Cụ thể, ba thuật toán dẫn đầu về tiêu chí sinh học là KIT-GE (3), KTH-SE (1)KIT-GE (4) – cũng chính là những thuật toán hàng đầu ở nhiệm vụ theo dõi đầy đủ (CTB)[103]. Điều này dù sao cũng hợp lý, vì một thuật toán theo dõi chính xác về kỹ thuật thì khả năng cao sẽ tái hiện tốt phả hệ (CT) và các sự kiện phân bào (BC, CCA). So với báo cáo 2017, các điểm số sinh học đã tiến bộ đáng kể, đặc biệt trên những bộ dữ liệu rất phức tạp như DIC-C2DH-HeLa (tế bào cụm dày), hai bộ phôi lớn Fluo-N3DH-CE và Fluo-N3DL-DRO, cũng như các bộ mô phỏng Fluo-N2DH-SIM+ và Fluo-N3DH-SIM+[104]. Tuy nhiên, do các thuật toán chưa được tối ưu trực tiếp theo tiêu chí sinh học, khoảng cách còn xa để đạt mức hoàn hảo: nhất là hai chỉ số CT và TF còn thấp, nghĩa là khả năng theo dõi đầy đủ dòng dõi tế bào suốt video vẫn hạn chế[105][106]. Đây là mục tiêu quan trọng cho các phương pháp tương lai nhằm phục vụ tốt nghiên cứu phát triển phôi (vì cần theo dõi trọn vẹn phả hệ).

Phân tích tương quan giữa thước đo kỹ thuật và sinh học cho thấy độ chính xác theo dõi kỹ thuật (TRA) liên hệ chặt chẽ với hai chỉ số sinh học chính. Cụ thể, TRA và TF có tương quan rất cao (rho ≈ 0,698), TRA và CT tương quan trung bình-khá (rho ≈ 0,608)[107]. Đường quan hệ TRA–TF gần như tuyến tính, còn TRA–CT thì phi tuyến: đạt TRA cao là điều kiện cần để CT cao (theo dõi trọn vẹn phả hệ), nhưng TRA cao chưa đảm bảo CT cao vì có thể theo dõi tốt phần lớn nhưng vẫn mất một số nhánh cuối[107]. Xu hướng này cũng tương tự khi tách theo từng loại hiển vi: ví dụ ảnh huỳnh quang 2D và pha tương phản có tương quan TRA–TF rất mạnh, TRA–CT cũng rất mạnh (với PhC) hoặc khá (với Fluo-2D); còn DIC ít dữ liệu nên không rõ ràng[108]. Trong khi đó tương quan giữa TRA với BC(i) và CCA chỉ ở mức trung bình mạnh (PhC, Fluo-3D), và cũng mang tính phi tuyến tương tự CT[109]. Kết quả này gợi ý rằng cải thiện thuật toán theo tiêu chí kỹ thuật (TRA) sẽ đồng thời cải thiện được phần lớn khía cạnh sinh học (TF, BC, CCA), nhưng để nâng cao CT (theo dõi phả hệ đầy đủ) có lẽ cần chiến lược chuyên biệt hơn chứ không chỉ tối ưu TRA đơn thuần.

Nghiên cứu khả năng tổng quát hóa: Trong thí nghiệm đặc biệt về tổng quát hóa, 9 nhóm đã huấn luyện lại mô hình theo các cấu hình dữ liệu khác nhau rồi nộp tổng cộng 78 kết quả mỗi nhóm (như mô tả ở phần Methods). Qua so sánh, nhóm tác giả rút ra một số nhận định quan trọng. Thứ nhất, khi dùng thêm dữ liệu bạc (hoặc cả vàng + bạc) để huấn luyện riêng từng bộ, hiệu năng thuật toán thường tăng nhẹ đến trung bình so với chỉ dùng dữ liệu vàng – tức là mở rộng dữ liệu huấn luyện giúp ích, nhưng không quá nhiều đối với hầu hết trường hợp[110][111]. Nhiều phương pháp học sâu hiện đại hóa ra đã có thể đạt kết quả tốt chỉ với lượng dữ liệu hạn chế từ tập vàng[112]. Tuy nhiên, ở những bộ dữ liệu có chú giải vàng đặc biệt khó thu được và rất thưa thớt (ví dụ BF-C2DL-MuSC, DIC-C2DH-HeLa, Fluo-C3DL-MDA231, Fluo-N3DH-CE, PhC-C2DL-PSC), việc bổ sung chú giải bạc giúp tăng đáng kể điểm số (khoảng 10–15% hoặc hơn)[113][114]. Điểm chung của các bộ này là chất lượng chú giải vàng thấp (MSEG_GT trung bình-thấp) và tỷ lệ phủ chú giải vàng rất nhỏ (chỉ ~0,3% đến 9% số tế bào)[115]. Điều này nhấn mạnh tầm quan trọng của cả chất lượng lẫn độ phủ của dữ liệu gốc trong quá trình huấn luyện mô hình.

Thứ hai, so sánh giữa chiến lược huấn luyện hợp nhất tất cả dữ liệu so với riêng từng bộ, kết quả cho thấy huấn luyện chung nhiều bộ (all-datasets) cũng hiệu quả tương đương việc huấn luyện tối ưu cho từng bộ[116]. Nói cách khác, mô hình học máy có khả năng học đặc trưng tổng quát từ nhiều loại dữ liệu khác nhau mà không bị giảm sút so với mô hình dành riêng cho từng loại. Ngoại lệ duy nhất là bộ Fluo-N3DH-CE (phôi C. elegans 3D), khi huấn luyện gộp nhiều dữ liệu khác lại cho kết quả kém hơn so với chỉ dùng dữ liệu bạc riêng của nó[116]. Nguyên nhân do tập này quá khác biệt so với các tập còn lại: đây là bộ 3D thực duy nhất có đối tượng gần hình cầu, mật độ tế bào cao (Spa rất thấp, nhiều tế bào chen chúc – Ove cao, Mit cao) và tốc độ chụp thời gian chậm hơn hẳn các bộ khác[117]. Những khác biệt này làm cho mô hình huấn luyện chung khó thích nghi tối ưu cho tập Fluo-N3DH-CE bằng mô hình chuyên biệt[118].

Thứ ba, khi áp dụng các mô hình (đã huấn luyện) vào dữ liệu hoàn toàn xa lạ – ở đây là 3 bộ không có trong bất kỳ tập huấn luyện nào (Fluo-C2DL-Huh7, Fluo-N2DH-SIM+, Fluo-N3DH-SIM+) – thì điểm số đạt được khá thấp (chỉ khoảng 0,4–0,6)[119]. Lúc đầu điều này có vẻ cho thấy các phương pháp học máy hiện tại kém tổng quát khi gặp loại dữ liệu mới. Nhưng phân tích kỹ hơn: ví dụ Fluo-C2DL-Huh7 mặc dù mới, nhưng về bản chất rất giống bộ Fluo-C2DL-MSC (cùng là ảnh huỳnh quang 2D tế bào bào tương), nên các mô hình đạt kết quả tương tự như trên bộ MSC[120]. Tương tự, hai bộ mô phỏng Fluo-N2DH-SIM+ và Fluo-N3DH-SIM+ có hiệu năng dự đoán thấp một phần do khác biệt bản chất giữa dữ liệu mô phỏng và dữ liệu thực – như đã thảo luận, Fluo-N3DH-SIM+ khác biệt nhiều so với các bộ huỳnh quang 3D thực (Fluo-N3DH-CE, CHO) về đặc tính ảnh, và điều này cũng đúng khi so Fluo-N2DH-SIM+ với Fluo-N2DH-GOWT1[121]. Do đó, kết quả kém trên dữ liệu “unseen” chủ yếu xảy ra khi tập mới khác hẳn so với bất kỳ tập nào mô hình đã học, chứ không phải hoàn toàn ngẫu nhiên. Dẫu vậy, rõ ràng các phương pháp học sâu hiện nay khó có thể áp dụng trực tiếp cho loại dữ liệu khác biệt mà không huấn luyện lại. Một tín hiệu lạc quan là trong nghiên cứu này, thuật toán KTH-SE (1) (không dùng học máy) thể hiện khả năng tổng quát cao đáng kể: dù chỉ tối ưu trên dữ liệu huỳnh quang, nó vẫn cạnh tranh sòng phẳng với các mô hình học sâu tốt nhất trong hạng mục CTB khi áp dụng cho các bộ dữ liệu khác loại[122]. Điều đó cho thấy phương pháp truyền thống đôi khi có tính linh hoạt cao trong môi trường mới, nhưng nhìn chung để thuật toán học sâu tái sử dụng tốt thì cần chiến lược fine-tune phù hợp.

Tính tái sử dụng: Như đã trình bày, CTC đưa ra bộ hướng dẫn để khuyến khích người phát triển thuật toán học sâu làm cho phương pháp của họ dễ dàng chia sẻ và chuyển giao. Tính đến nay đã có 11 nhóm thực hiện đầy đủ các khuyến nghị này, bao gồm toàn bộ các nhóm top đầu. Cụ thể như các phương pháp: BGU-IL (5)[123], CALT-US, DKFZ-GE, IGFL-FR, KIT-GE (3), KIT-GE (4), MU-CZ (2), MU-US (3), MU-US (4), PURD-US đều đã công khai mã nguồn, kèm tài liệu hướng dẫn chạy và huấn luyện mô hình trên dữ liệu mới, cũng như cung cấp sẵn notebook Colab để người dùng thử nghiệm[123]. Thuật toán KTH-SE (1) viết bằng MATLAB cũng được coi là tái sử dụng được nhờ có gói code rõ ràng. Những notebook Colab này được liên kết ngay trên trang GitHub của CTC, giúp bất kỳ ai cũng có thể tải mô hình và chạy thử trên dữ liệu của mình. Nhờ các nỗ lực này, việc chuyển giao phương pháp đến các phòng thí nghiệm khác hoặc ứng dụng cho thí nghiệm mới trở nên thuận lợi hơn bao giờ hết[124]. Nhóm tác giả cho biết hiện tại các hướng dẫn tái sử dụng vẫn là tự nguyện, nhưng trong tương lai CTC sẽ bắt buộc các bài thi phải tuân theo, nhằm đảm bảo mọi thuật toán nộp vào đều đi kèm mô hình/mã có thể dùng dễ dàng[125][126].

Kết luận

Sau 10 năm, CTC đã thúc đẩy sự phát triển vượt bậc của các thuật toán theo dõi tế bào, đồng thời cung cấp cho cộng đồng bộ dữ liệu và công cụ đánh giá tiêu chuẩn. Từ phân tích năm 2017 đến nay, có thể thấy một chuyển dịch lớn sang mô hình học sâu. Hiện tại, phần lớn thuật toán phân đoạn đều sử dụng học máy (60/89 thuật toán) và chúng vượt trội hẳn phương pháp không học máy – thể hiện qua việc 4/5 thuật toán top đầu cả CSB và CTB đều dùng mô hình học sâu[72]. Tuy nhiên, đáng chú ý là một vài thuật toán cổ điển vẫn giữ vị trí số 1 trên một số bộ dữ liệu và đạt hiệu năng ngang ngửa phương pháp học máy (tiêu biểu: KTH-SE (1), BGU-IL (1) tận dụng chiến lược phân đoạn, phát hiện, liên kết rất hiệu quả)[73]. Điều này cho thấy các tiếp cận truyền thống chưa hoàn toàn lỗi thời, đặc biệt khi chúng được thiết kế tinh chỉnh cho trường hợp cụ thể.

Sự trỗi dậy nhanh chóng của học sâu được quan sát rõ rệt qua mức tăng điểm theo thời gian: các thuật toán học sâu cải thiện hiệu năng nhanh hơn hẳn so với truyền thống, đặc biệt gắn liền với những đột phá như mô hình tự cấu hình (nnU-Net) hay mạng đa nhánh[127]. Hầu hết các thuật toán học sâu phân đoạn tế bào hàng đầu đều là biến thể của kiến trúc U-Net, một số ít dùng RCNN hoặc HRNet[128]. Ví dụ, phương pháp DKFZ-GE dùng U-Net tự động tìm tham số tối ưu cho từng tập (nnU-Net), hay BGU-IL (5) kết hợp ConvLSTM với U-Net – đều là những cải tiến dựa trên U-Net nguyên bản[129][130]. Sự thống trị của U-Net có thể lý giải bởi tính đơn giản và hiệu quả của nó: cách tiếp cận phân đoạn toàn ảnh, kết hợp cả đặc trưng nông (cụ thể) và sâu (ngữ nghĩa) qua skip-connection giúp xác định ranh giới tế bào sắc nét[131]. Nhờ đó, dù ra đời đã lâu, U-Net và các biến thể vẫn liên tục đứng top trong lĩnh vực này.

Ở khía cạnh theo dõi (liên kết), đến nay chưa có sự bứt phá tương tự với học sâu. Chỉ rất ít nhóm thử dùng mạng học sâu cho bước nối track (như BGU-IL (5) dùng GNN), và kết quả chung chưa cho thấy khác biệt rõ với phương pháp tối ưu cổ điển[132]. Rào cản chính là thiếu dữ liệu được chú giải đầy đủ để huấn luyện; do vậy, nhiều nhóm vẫn phải dùng thuật toán nối dựa trên quy tắc/tiêu chí cố định, và các phương pháp này tuy không học máy nhưng vẫn hoạt động khá tốt trong nhiều trường hợp[133]. Một cách tiếp cận đáng chú ý là kết hợp yếu tố học sâu với thuật toán truyền thống – ví dụ kết hợp mô hình học sâu với thuật toán tối ưu hóa – nhằm tận dụng ưu điểm đôi bên[134]. Cũng có nỗ lực tích hợp liền mạch phân đoạn và theo dõi trong một mô hình (KIT-GE (4)), nhưng nhìn chung hầu hết pipeline vẫn tách rời hai bước. Thực tế cho thấy nếu ảnh đã phân đoạn tốt thì việc nối đơn giản cũng đủ, nên ít nhóm đầu tư vào mô hình nối chuyên biệt[64]. Điều này đồng nghĩa còn nhiều tiềm năng trong việc áp dụng các kỹ thuật theo dõi đối tượng hiện đại (vốn phổ biến trong thị giác máy tính) vào bài toán theo dõi tế bào – ví dụ như dùng mạng deep tracking, bộ theo dõi song song với phát hiện, v.v., những thứ đang được dùng cho video phóng to độ phân giải hay tăng tốc khung hình nhưng chưa ai thử cho dữ liệu sinh học[66].

Việc xác định yếu tố nào quyết định thành bại của thuật toán theo dõi tế bào là một bài toán phức tạp, do có rất nhiều tham số đan xen: từ chất lượng mẫu, cài đặt kính hiển vi, cho đến chiến lược tiền xử lý, lượng dữ liệu huấn luyện và bản chất thuật toán. Không ngạc nhiên khi phân tích chỉ tìm được một yếu tố toàn cục ảnh hưởng hiệu năng: độ thay đổi hình thái tế bào qua thời gian (đo bằng mức chồng lấn Ove)[135]. Tuy nhiên, ở mức từng loại dữ liệu, nhóm tác giả đã chỉ ra nhiều yếu tố quan trọng (SNR, CR, Res, Sha, v.v.) tác động riêng. Thông tin này rất hữu ích: nó gợi ý cho nhà sinh học cách tối ưu khâu tạo dữ liệu (ví dụ tăng tín hiệu, giảm nhiễu, chụp dày hơn để giảm chồng lấn, v.v.), đồng thời giúp nhà phát triển thuật toán biết cần chú trọng xử lý vấn đề gì đối với mỗi loại dữ liệu cụ thể[136][137]. Phân tích cũng khẳng định một điều hiển nhiên nhưng quan trọng: hiệu năng thuật toán tỷ lệ thuận với chất lượng tập chú giải tham chiếu. Video nào con người chú thích khó, máy cũng khó làm tốt; và đặc biệt, việc có tập chú giải mở rộng (silver) gần như đầy đủ mang lại lợi ích rõ rệt cho các thuật toán học sâu[99]. Điều này nhấn mạnh giá trị của sáng kiến tạo “tiêu chuẩn bạc” của CTC, đồng thời kêu gọi nỗ lực tiếp tục cải tiến phương pháp này – vì bất kỳ nâng cấp nào ở khâu tạo silver đều sẽ cải thiện trực tiếp kết quả phân đoạn của mô hình[100].

CTC cũng chú trọng đến khía cạnh ứng dụng và chuyển giao. Việc tiêu chuẩn hóa định dạng đầu vào/ra đã phần nào giúp các thuật toán dễ sử dụng lại. Đặc biệt, đối với mô hình học sâu, nhóm tổ chức đã đưa ra hướng dẫn để tác giả cung cấp sẵn mã nguồn và mô hình huấn luyện – thuận tiện cho người dùng khác tải về và fine-tune trên dữ liệu mới[138]. Họ khuyến khích sử dụng nền tảng Google Colab để bất kỳ ai cũng có thể chạy thử với GPU miễn phí. Mặc dù các hướng dẫn này chưa bắt buộc, nhóm tác giả dự định sẽ yêu cầu tất cả các bài dự thi tương lai phải tuân theo nhằm xây dựng một thư viện thuật toán thực sự dễ tiếp cận cho cộng đồng[126]. Hiện tại đã có 11 thuật toán (bao gồm mọi phương pháp top đầu) đáp ứng tiêu chí này, giúp cho việc chuyển giao công nghệ sang các phòng thí nghiệm khác trở nên đơn giản hơn rất nhiều[124].

Một điểm mới quan trọng khác của CTC là bổ sung các bộ dữ liệu đa dạng. Những dữ liệu mới – như video phôi thu nhận bằng kính hiển vi tờ ánh sáng, video tế bào ung thư di chuyển với chân giả, video tế bào gốc trong vi môi trường – không chỉ mở rộng phạm vi thách thức thuật toán mà còn phục vụ các lĩnh vực sinh học mũi nhọn. Chẳng hạn, kính hiển vi tờ ánh sáng ngày càng phổ biến trong sinh học phát triển, nghiên cứu chữa lành vết thương và cơ sinh học, tạo ra nhu cầu phân tích dữ liệu kích thước cực lớn. CTC đã đáp ứng bằng cách thêm các tập phôi Tribolium cỡ hàng trăm GB, giúp kiểm tra khả năng thuật toán xử lý dữ liệu “khủng” này[139]. Thực tế, một số thuật toán đã đạt độ chính xác gần ngang chuyên gia trên những tập khổng lồ đó (ví dụ KTH-SE (2) và MPI-GE (CBG) (2))[140]. Tương tự, các video tế bào ung thư có chồi actin (mô phỏng di cư kiểu trung mô) rất hữu ích để nghiên cứu sự di chuyển của tế bào ung thư và quá trình lành vết thương, nhưng đồng thời đòi hỏi thuật toán phải nhận diện ranh giới tế bào chính xác trong điều kiện hình dạng tế bào thay đổi liên tục[141]. Ngoài ra, dữ liệu tế bào gốc máu/cơ trong giếng vi mô cho phép thí nghiệm số lượng lớn nhằm khảo sát ảnh hưởng của vi môi trường đến số phận tế bào gốc – một chủ đề quan trọng của sinh học tế bào gốc. Những video này thách thức thuật toán ở chỗ phát hiện và theo dõi tốc độ phân bào rất cao của tế bào (Mit cao)[142]. Như vậy, bằng cách thêm các bộ dữ liệu “khó” nhưng mang tính thực tiễn cao, CTC đang thúc đẩy phát triển thuật toán theo hướng phục vụ trực tiếp các bài toán sinh học hiện đại.

Về mặt đánh giá, hạng mục CSB (chỉ phân đoạn) được thiết lập như một kênh riêng cho những nhóm chỉ muốn tập trung giải quyết bài toán phân đoạn mà không cần theo dõi. Điều này xuất phát từ yêu cầu thực tế của cộng đồng, và CSB đã chứng tỏ hiệu quả khi thu hút nhiều phương pháp mới tham gia[143]. Tuy nhiên, kết quả tổng quát chỉ ra rằng cả phân đoạn và theo dõi đều còn khoảng cách để đạt độ hoàn thiện mong muốn – cần những thuật toán tinh vi hơn để nâng cao cả tiêu chí kỹ thuật lẫn sinh học, đặc biệt là nâng cao khả năng tổng quát hóa mô hình học sâu[144]. Một kế hoạch sắp tới là CTC sẽ triển khai thêm hạng mục chỉ theo dõi (tracking-only), cho phép các thuật toán tối ưu riêng bước liên kết mà không bị ảnh hưởng bởi lỗi phân đoạn[145]. Điều này đồng thời tạo điều kiện để họ tập trung cải thiện các tiêu chí sinh học về phả hệ (vì sẽ so sánh trực tiếp kết quả nối track). Tất nhiên, vẫn còn những câu hỏi mở như làm sao chuyển các tiêu chí sinh học đó thành hàm mục tiêu tối ưu trực tiếp cho mô hình, hay đánh giá ảnh hưởng của lan truyền lỗi phân đoạn đến kết quả phả hệ cuối cùng[146]. Nhóm tác giả nhận định rằng mặc dù đã có tiến bộ đáng kể sau một thập kỷ (nhất là nhờ làn sóng học sâu), bài toán theo dõi tế bào chưa phải đã giải quyết xong. Thách thức lớn vẫn nằm ở bước liên kết theo dõi (theo dõi lâu dài còn kém hơn phân đoạn) và việc đảm bảo mô hình học sâu hoạt động tốt trên nhiều loại dữ liệu khác nhau. CTC, với vai trò nền tảng đánh giá chuẩn mực, sẽ tiếp tục đồng hành cùng cộng đồng nghiên cứu để hướng tới những giải pháp toàn diện hơn cho bài toán này.

Ứng dụng thực tế

·       Phân tích phát triển phôi: Thuật toán theo dõi tế bào được áp dụng để dựng phả hệ tế bào trong các phôi đang phát triển (ví dụ phôi Tribolium, C. elegans). Điều này hỗ trợ các nhà sinh học phát triển hiểu rõ quá trình phân chia và biệt hóa tế bào qua thời gian trong phôi, phục vụ nghiên cứu phát triển sinh vậtcơ sinh học[139].

·       Nghiên cứu di căn và lành vết thương: Các phương pháp CTC giúp theo dõi sự di động của tế bào trong bối cảnh vết thương hoặc ung thư. Đặc biệt, việc theo dõi các tế bào ung thư có chân giả actin cung cấp công cụ cho nghiên cứu quá trình di cư kiểu trung mô của tế bào ung thư và cơ chế đóng vết thương, khi cần quan sát cách tế bào di chuyển và tương tác trong môi trường phức tạp[141].

·       Sinh học tế bào gốc và vi môi trường: Nhờ các thuật toán theo dõi, các nhà nghiên cứu có thể phân tích hiệu ứng của vi môi trường lên số phận tế bào gốc trong các thí nghiệm high-throughput (như nuôi tế bào gốc máu/cơ trong giếng vi mô). Thuật toán tự động đếm và theo dõi tế bào phân chia nhanh giúp rút ra kết luận về ảnh hưởng của môi trường đến khả năng tự làm mới hay biệt hóa của tế bào gốc[141].

·       Hỗ trợ thuật toán học sâu dữ liệu sinh học: Bộ chú giải bạc với ~99% đối tượng và tập dữ liệu phong phú của CTC là tài nguyên quý giá để huấn luyện các mô hình học sâu về phân đoạn/theo dõi tế bào. Điều này đặc biệt hữu ích cho các nhóm nghiên cứu cần mô hình tốt nhưng thiếu dữ liệu gốc được gán nhãn – họ có thể dùng trực tiếp dữ liệu CTC để huấn luyện hoặc fine-tune mô hình của mình[20].

·       Chuyển giao công nghệ theo dõi tế bào: Nhờ các hướng dẫn tái sử dụng, nhiều thuật toán hàng đầu (cùng mã nguồn và mô hình đã huấn luyện) được công bố công khai. Các nhà nghiên cứu trong phòng thí nghiệm có thể dễ dàng áp dụng ngay những mô hình này cho dữ liệu của họ bằng cách tải mã, chạy notebook Colab và tinh chỉnh trên vài mẫu dữ liệu của riêng mình[49][123]. Điều này giúp rút ngắn khoảng cách giữa phát triển thuật toán và ứng dụng thực tiễn, đưa các công cụ tiên tiến đến tay các nhà sinh học một cách thuận lợi.

Kết luận chính từ nghiên cứu

·       Học sâu thống trị phân đoạn: Mô hình học sâu (đặc biệt dựa trên U-Net) đã thay thế phần lớn phương pháp truyền thống trong bài toán phân đoạn tế bào, đạt hiệu năng cao hơn rõ rệt[72][147]. Tuy vậy, một số thuật toán cổ điển với thiết kế tinh gọn vẫn có thể sánh ngang trên các bộ dữ liệu cụ thể (ví dụ KTH-SE, BGU-IL)[73].

·       Hiệu năng tăng đáng kể nhưng chưa đồng đều: Nhờ có CSB và các cuộc thi ISBI, điểm phát hiện và phân đoạn đã cải thiện mạnh trên đa số bộ dữ liệu từ 2017–2022[75]. Nhiệm vụ phát hiện gần như được giải quyết trên nhiều tập, nhưng phân đoạn ở một số bộ khó và liên kết theo dõi nói chung vẫn cần thuật toán tốt hơn[76]. Đặc biệt, khả năng theo dõi toàn bộ phả hệ (CT) và các đoạn track dài (TF) còn thấp, cho thấy việc theo dõi đầy đủ tế bào qua thời gian vẫn là thách thức lớn[148].

·       Yếu tố dữ liệu quyết định: Sự thay đổi hình dạng tế bào (đo bằng mức độ chồng lấn Ove) là yếu tố duy nhất tìm được có tương quan đáng kể toàn cục với độ khó phân đoạn – tế bào càng biến dạng, di động nhiều thì mô hình càng khó theo dõi[79]. Ngoài ra, các yếu tố như tỉ lệ nhiễu, độ tương phản, độ phân giải, hình dạng tế bào, tốc độ phân bào... đều ảnh hưởng hiệu năng ở mức độ khác nhau tùy từng loại ảnh, phần lớn phù hợp với dự đoán (nhiễu cao, tín hiệu không đều, v.v. làm giảm điểm) trừ một số trường hợp ngoại lệ do tương tác giữa nhiều yếu tố phức tạp[149][150]. Kết luận chung là không có một thông số đơn lẻ nào quyết định tất cả, mà thuật toán chịu ảnh hưởng bởi tổ hợp nhiều đặc trưng của từng bộ dữ liệu.

·       Chất lượng chú giải quyết định trần hiệu năng: Hiệu quả của thuật toán bị giới hạn bởi chất lượng và độ đầy đủ của dữ liệu huấn luyện. Nếu ngay cả chuyên gia cũng khó chú thích (MSEG_GT thấp) thì thuật toán khó đạt điểm cao[94]. Ngược lại, khi cung cấp cho mô hình một tập chú giải gần như hoàn chỉnh (như tập bạc), thuật toán có thể đạt kết quả rất tốt, tiệm cận hiệu năng người chú thích[25][98]. Do đó, đầu tư vào cải thiện chú giải (ví dụ dùng nhiều người gán nhãn, tạo silver chất lượng cao hơn) sẽ trực tiếp nâng cao kết quả thuật toán.

·       Thuật toán hàng đầu không đòi hỏi dữ liệu huấn luyện quá lớn: Nghiên cứu tổng quát hóa cho thấy nhiều phương pháp top-3 chỉ dùng tập vàng (ít dữ liệu) nhưng vẫn đạt kết quả gần ngang khi dùng thêm nhiều dữ liệu bạc[110][151]. Điều này chứng tỏ các mô hình học sâu hiện đại có thể học hiệu quả từ lượng dữ liệu hạn chế nếu chất lượng dữ liệu tốt. Tuy nhiên, với các bộ dữ liệu có chú giải thưa hoặc khó, bổ sung dữ liệu bạc vẫn cải thiện đáng kể (tăng 10–15% điểm)[114].

·       Mô hình học sâu kém tổng quát trên dữ liệu khác biệt: Khi áp dụng mô hình đã huấn luyện sang loại dữ liệu mới khác xa dữ liệu huấn luyện (ví dụ mô hình huấn luyện trên ảnh huỳnh quang đem sang ảnh bright-field), hiệu năng giảm mạnh (chỉ đạt 40–60% so với trước)[119]. Nếu dữ liệu mới có tính chất tương tự một phần dữ liệu cũ thì mô hình vẫn cho kết quả khá (như Fluo-C2DL-Huh7 vs Fluo-C2DL-MSC)[120], nhưng nhìn chung cần fine-tune hoặc huấn luyện lại để mô hình thích ứng hoàn toàn với dữ liệu kiểu mới.

·       Hạng mục đánh giá mới đáp ứng nhu cầu cộng đồng: Việc giới thiệu CSB (phân đoạn) vào 2019 đã thu hút nhiều nhóm tập trung giải quyết bài toán phân đoạn, tận dụng được nguồn dữ liệu và thước đo của CTC cho mục đích so sánh công bằng[143]. Tương tự, kế hoạch mở hạng mục theo dõi sẽ tạo động lực cải tiến riêng cho thuật toán ghép nối track, đặc biệt hướng đến các tiêu chí sinh học (theo dõi phả hệ hoàn chỉnh)[145].

·       Định hướng tương lai: Bài toán phân đoạn và theo dõi tế bào đã có tiến bộ vượt bậc trong 10 năm (ví dụ, nhiều trường hợp thuật toán gần đạt ngang mức chuyên gia[140]). Song chưa thể xem là đã giải quyết xong: phân đoạn một số trường hợp phức tạp vẫn khó, và bước theo dõi (đặc biệt tái hiện phả hệ đầy đủ) còn nhiều hạn chế[148][152]. Các tác giả nhấn mạnh cần nghiên cứu cách tích hợp các thước đo sinh học thành hàm mục tiêu để huấn luyện mô hình bám sát nhu cầu thực nghiệm hơn, đồng thời xem xét ảnh hưởng của lỗi phân đoạn lan truyền đến độ chính xác phả hệ[153]. Những bước tiếp theo này sẽ giúp thuật toán theo dõi tế bào ngày càng hữu ích cho nghiên cứu sinh học, đem lại kết quả không chỉ chính xác về mặt kỹ thuật mà còn có ý nghĩa về mặt sinh học.


[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52] [53] [54] [55] [56] [57] [58] [59] [60] [61] [62] [63] [64] [65] [66] [67] [68] [69] [70] [71] [72] [73] [74] [75] [76] [77] [78] [79] [80] [81] [82] [83] [84] [85] [86] [87] [88] [89] [90] [91] [92] [93] [94] [95] [96] [97] [98] [99] [100] [101] [102] [103] [104] [105] [106] [107] [108] [109] [110] [111] [112] [113] [114] [115] [116] [117] [118] [119] [120] [121] [122] [123] [124] [125] [126] [127] [128] [129] [130] [131] [132] [133] [134] [135] [136] [137] [138] [139] [140] [141] [142] [143] [144] [145] [146] [147] [148] [149] [150] [151] [152] [153] The Cell Tracking Challenge: 10 years of objective benchmarking | Nature Methods

https://www.nature.com/articles/s41592-023-01879-y?error=cookies_not_supported&code=1ffe0e83-7f97-41a1-bdad-585cc850e9ec

Nhận xét

Bài đăng phổ biến từ blog này

Tổng hợp bài báo: "Multimodal Large Language Models: A Survey"

Score-Based Generative Models và những tiến bộ mới