Tổng quan về Cell Tracking Challenge sau 10 năm
Bối cảnh cá nhân
Giới thiệu
Cell Tracking Challenge (CTC) là một sáng kiến đánh giá hiệu năng thuật toán theo dõi tế bào tự động,
đã trở thành chuẩn mực trong lĩnh vực phân đoạn và theo dõi tế bào. Lĩnh vực
này đã cung cấp công cụ quan trọng cho các nhà nghiên cứu sinh học, nhưng những
tiến bộ về kính hiển vi (độ phân giải, số chiều, tốc độ thu nhận) và sự phát
triển nhanh của học máy (đặc biệt là học sâu) đòi hỏi các thuật toán
theo dõi tiên tiến hơn[1]. CTC được khởi động năm 2013 (hội
nghị ISBI lần thứ 10) nhằm thúc đẩy phát triển và đánh giá khách quan thuật
toán theo dõi tế bào. CTC cung cấp một kho dữ liệu đa dạng gồm video vi mô theo
thời gian có chú giải, cùng các tiêu chí và quy trình đánh giá khách quan – tất
cả đều công khai cho cộng đồng khoa học[2].
CTC đã tổ chức báo cáo đầu tiên năm 2014 (6 đội tham gia, 8 bộ dữ liệu)
và báo cáo chuyên sâu năm 2017 (21 thuật toán, 13 bộ dữ liệu)[3][4]. Phân tích năm 2017 chỉ ra rằng
các phương pháp khai thác ngữ cảnh không gian-thời gian hoặc sử dụng học máy
(lúc đó còn ít) vượt trội hơn so với phương pháp truyền thống. Kiến trúc
U-Net hiện đại nằm trong nhóm đầu cho nhiệm vụ phân đoạn tế bào trên nhiều bộ dữ
liệu tăng cường độ tương phản[4]. Ngược lại, theo dõi không giám
sát hoàn toàn vẫn là mục tiêu xa vời. Hiệu quả thuật toán phụ thuộc mạnh vào từng
bộ dữ liệu: chưa có giải pháp “phổ quát” do độ phức tạp và đa dạng của dữ liệu[5]. Hầu hết thuật toán khi đó chưa
đủ tốt cho video tín hiệu-nhiễu thấp, hoặc cho tế bào hình dạng/kết cấu phức
tạp. Đặc biệt, các bộ dữ liệu lớn 3D (ví dụ phôi phát triển) cực kỳ thách thức
do số lượng, mật độ tế bào cao và yêu cầu tính toán lớn[6].
Từ sau 2017, CTC nhận được nhiều bài nộp mới và đã giải quyết phần
lớn các thách thức trước đó, thông qua những cải tiến sẽ được trình bày trong
các phần sau[7]. Những nâng cấp chính gồm: bổ
sung hạng mục đánh giá chỉ phân đoạn, mở rộng kho dữ liệu với các tập đa dạng
hơn, tạo “tiêu chuẩn bạc” (silver standard) làm tập chú giải tham chiếu
mở rộng từ kết quả thuật toán tốt nhất (hữu ích cho các mô hình học sâu cần nhiều
dữ liệu), cập nhật bảng xếp hạng mới nhất, phân tích sâu mối quan hệ giữa hiệu
năng thuật toán với đặc điểm dữ liệu/chú giải, và hai nghiên cứu mới về khả
năng tổng quát hóa và tính tái sử dụng của các phương pháp hàng đầu[8]. Những đóng góp này mang lại kết
luận thực tiễn quan trọng cho cả nhà phát triển lẫn người dùng thuật toán theo
dõi tế bào.
Phương pháp
Bộ dữ liệu và tiêu chuẩn chú
giải: CTC đã mở rộng kho dữ liệu từ 13 bộ (2017) lên 20
bộ dữ liệu tính đến 2022[9]. Các dữ liệu mới bao gồm: video
huỳnh quang 2D (tế bào gan Huh7 biểu hiện protein phát sáng YFP-TIA-1), video trường
sáng 2D (tế bào gốc máu chuột và tế bào gốc cơ chuột trong vi môi trường
hydrogel), video huỳnh quang 3D (tế bào ung thư phổi A549 gắn GFP-actin) và
phiên bản mô phỏng của chúng với nhiều thành phần giả chân động
(filopodia), cùng các video hiển vi trung mô (mesoscopic) kích thước rất lớn về
phôi bọ cánh cứng Tribolium (dạng bản đồ 3D ~10 GB mỗi video, hoặc khối
3D hoàn chỉnh >100 GB mỗi video)[10][11]. Hình 1 trong bài minh họa các
dữ liệu mới này, và Hình 2 tổng kết các đặc tính định lượng và định tính
chính của từng bộ dữ liệu (ví dụ: tỷ lệ tín hiệu trên nhiễu – SNR, độ tương phản
– CR, tính đồng nhất tín hiệu trong và giữa các tế bào – Het_i, Het_b, độ phân
giải – Res, hình dạng – Sha, độ thưa – Spa, biến đổi cường độ theo thời gian –
Cha, độ chồng lấn – Ove, tốc độ phân bào – Mit, v.v.)[12][13]. Các giá trị định lượng được mã
màu (xanh-lá đến đỏ) biểu thị mức độ phức tạp dữ liệu: xanh nghĩa là thuận lợi,
đỏ là thách thức lớn hơn (loại bỏ ngoại lệ và nội suy theo thang màu)[14]. Nhờ phương pháp trên (xem mục
“Dataset properties” trong Methods), mỗi bộ dữ liệu đều được đặc trưng bằng
một bộ chỉ số chất lượng hình ảnh nhất quán[15].
CTC sử dụng hệ chú giải tham chiếu hai cấp cho dữ liệu thật: “tiêu
chuẩn vàng” (gold standard) và “tiêu chuẩn bạc” (silver standard)[16]. Đối với dữ liệu mô phỏng,
do đã biết chính xác vị trí/đường đi tế bào, các chú giải chuẩn chính là “chân
lý mặt đất” gốc (không bị nhiễu, mờ) trước khi thêm nhiễu vào video[17]. Đối với dữ liệu thật, chú
giải chuẩn vàng được tạo bằng đa số phiếu từ 3 chuyên gia độc lập. Cụ
thể, với phân đoạn, do khối lượng công việc lớn, chỉ một phần các tế bào trong
mỗi video được chuyên gia vẽ mặt nạ phân đoạn (trung bình chỉ 17,8% tổng số xuất
hiện tế bào)[18][19]. Còn đối với phát hiện và theo
dõi, chuyên gia đánh dấu tất cả các tế bào (bằng marker) và nối chúng
qua các khung hình thành cây phả hệ (ngoại trừ trường hợp đặc biệt ở các phôi lớn,
chỉ chú giải một vùng sinh học quan trọng của phôi)[19]. Ngược lại, chú giải chuẩn bạc
là bộ chú giải tự động được tạo bằng cách hợp nhất kết quả của các thuật
toán hàng đầu trên tập dữ liệu huấn luyện, dưới sự hướng dẫn của chú giải
vàng về phát hiện (dùng marker vàng để định vị vùng cần hợp nhất)[20]. Phương pháp hợp nhất sử dụng
thuật toán bỏ phiếu theo pixel/voxel: với mỗi vị trí tế bào (marker vàng), thu
thập các vùng mà thuật toán tốt nhất đã phân đoạn trùng lên đó, sau đó lấy phần
giao xuất hiện trong >2/3 số vùng để tạo vùng hợp nhất cuối[21][22]. Quy trình được hiệu chỉnh để tối
ưu độ chính xác phân đoạn so với vàng (điều chỉnh ngưỡng 2/3 phù hợp từng
video) và giảm thiểu mất sót hay chồng lấn vùng giữa các thuật toán[23][24]. Kết quả, chú giải bạc phủ
gần như toàn bộ số tế bào (trung bình 99,1% số trường hợp trong video) – vượt
xa mức phủ hạn chế của chú giải vàng (vì vàng chỉ chú thích một phần)[25]. Điều này cung cấp cho người
tham gia một tập dữ liệu có gắn nhãn phong phú hơn để huấn luyện các mô hình học
sâu, vốn đòi hỏi lượng dữ liệu lớn[26]. (Chú ý: không đạt được 100% do
ngay cả thuật toán tốt nhất cũng bỏ sót một vài tế bào). Toàn bộ chú giải vàng
và bạc được công khai cho tập huấn luyện, nhưng giữ kín cho tập kiểm tra
để tránh hiện tượng mô hình “học tủ” – đảm bảo đánh giá năng lực tổng quát
hóa thật sự thay vì nhớ dữ liệu cụ thể[27].
Người tham gia và thuật toán: CTC chứng kiến sự
gia tăng mạnh về mức độ tham gia so với 2017. Số nhóm tăng từ 16 lên 50,
thuộc 19 quốc gia; số thuật toán được đánh giá từ 21 lên 89 thuật toán[28]. Mỗi bài dự thi nộp kết quả gồm
các ảnh mặt nạ phân đoạn có nhãn và file văn bản cấu trúc chứa cây phả hệ (nếu
có theo dõi). Ban tổ chức kiểm tra các kết quả và chạy thử các thuật toán nộp
kèm để xác minh tính hợp lệ, định dạng thống nhất[29]. Danh sách đầy đủ các thuật
toán phân đoạn và theo dõi được cung cấp ở Phụ lục (bảng dữ liệu bổ sung), và Hình
3 đưa ra cái nhìn tổng quan về chiến lược và kỹ thuật mà các phương
pháp sử dụng[30]. Cụ thể, khoảng 1/3
phương pháp phân đoạn chọn cách tách bạch bước phát hiện đối tượng trước rồi mới
phân đoạn (loại DetSeg), thay vì phân đoạn trực tiếp toàn ảnh (Seg)[31]. Về theo dõi, đa số phương pháp
xếp hạng cao đều thực hiện theo kiểu hai bước: phân đoạn từng khung trước,
sau đó liên kết (SegLnk hoặc DetSegLnk), áp đảo so với số ít phương pháp chỉ
dựa trên phát hiện điểm (DetLnkSeg) hoặc tích hợp phân đoạn & liên kết
đồng thời (Seg&Lnk)[31][32]. Điều này xác nhận xu hướng
chung: phần lớn thuật toán theo dõi hiện nay dựa trên việc phân đoạn từng
khung hình làm tiền đề cho việc liên kết qua thời gian.
Tiêu chí đánh giá và bảng xếp hạng: CTC hiện
có hai bảng đánh giá độc lập: Cell Tracking Benchmark (CTB) – đánh giá
bài toán kết hợp phân đoạn và theo dõi; và Cell Segmentation
Benchmark (CSB) – tập trung đánh giá phân đoạn (kèm phát hiện) không xét
khía cạnh liên kết theo dõi[33]. CTB là hạng mục truyền thống từ
đầu (2013) của CTC, còn CSB mới được giới thiệu năm 2019 để đáp ứng nhu cầu
so sánh thuật toán phân đoạn đơn thuần[34]. Mỗi thuật toán được chấm bằng
các thước đo định lượng chính (mô tả chi tiết trong mục “Quantitative
performance criteria” của Methods): (i) SEG – độ chính xác
phân đoạn (tính trung bình IoU giữa vùng dự đoán và vùng tham chiếu), (ii) TRA
– độ chính xác theo dõi (khoảng cách chuẩn hóa giữa kết quả theo dõi của
thuật toán và chuẩn vàng, tính đến chi phí hiệu chỉnh bằng tay)[35]. Đối với CSB (không có liên kết),
nhóm tác giả đã giới thiệu thêm thước đo DET – độ chính xác phát hiện
– là một dạng điều chỉnh của F1-Score, nhấn mạnh recall hơn precision (tương tự
F3-Score) để tránh bỏ lọt tế bào trong chuỗi thời gian[36][37]. Tóm lại, SEG đánh giá chất lượng
phân đoạn, TRA đánh giá cả phát hiện + liên kết, còn DET chỉ đánh giá phát hiện.
Ngoài ra, Overall Performance (OP) cho mỗi bảng CTB hoặc CSB được tính bằng
trung bình đơn giản của hai thành phần (SEG và TRA cho CTB, hoặc SEG và DET cho
CSB)[38]. Tất cả các thước đo trên đều
cho giá trị từ 0 đến 1, càng cao nghĩa là thuật toán càng tốt[39].
Bên cạnh các chỉ số kỹ thuật trên, bài báo còn xem xét các thước đo
“mang ý nghĩa sinh học” nhằm trả lời những câu hỏi mà nhà sinh học quan tâm[40]. Các chỉ số này gồm: CT
(Complete Tracks) – tỷ lệ quãng đường tế bào được thuật toán tái hiện đầy đủ
(từ lúc xuất hiện đến lúc biến mất) so với phả hệ chuẩn; TF (Track
Fractions) – trung bình tỷ lệ đoạn track đúng liên tục dài nhất mà thuật
toán khớp được trên mỗi track của chuẩn (đại diện cho phần quãng đường một tế
bào đi mà thuật toán theo dõi đúng trước khi mất dấu); BC(i) (Branching
Correctness) – độ chính xác phát hiện sự kiện phân chia (mitosis) với sai số
cho phép i khung hình; và CCA (Cell Cycle Accuracy) – độ chính
xác tái hiện đúng thời gian chu kỳ tế bào (khoảng thời gian giữa hai lần phân
bào liên tiếp)[40][41]. Các chỉ số này cũng được chuẩn
hóa 0-1 (1 là tốt nhất). Mặc dù không dùng để xếp hạng chính thức, chúng cung cấp
góc nhìn sinh học về kết quả thuật toán.
Phân tích dữ liệu và thống kê: Nhóm tác giả đã
tiến hành một số phân tích chuyên sâu trên kết quả của các thuật toán: (1) Tương
quan giữa chất lượng hình ảnh và hiệu năng thuật toán: sử dụng hệ số tương
quan Spearman giữa từng chỉ số chất lượng ảnh (Hình 2) với điểm SEG, TRA/DET của
mọi thuật toán trên tập dữ liệu đó[42]. Phân tích được thực hiện ở mức
toàn cục (gộp tất cả bộ dữ liệu), theo từng loại ảnh (huỳnh quang
2D, 3D, trường sáng, pha tương phản, DIC), và cho từng bộ dữ liệu riêng lẻ[43]. (2) Tương quan giữa chất lượng
chú giải và hiệu năng thuật toán: so sánh độ khó của nhiệm vụ chú giải (đo
bằng mức độ nhất quán giữa các chuyên gia – chỉ số MSEG_GT, MDET_GT, MTRA_GT
cho vàng; và chất lượng hợp nhất – SEG_ST, DET_ST cho bạc) với điểm thuật toán[44][45]. (3) Thay đổi trong chiến lược
thuật toán theo thời gian: phân tích các xu hướng thuật toán (ví dụ:
dùng học máy hay không, tách bước phát hiện hay không) và hiệu quả tương ứng, để
xem sự tiến bộ của các phương pháp theo thời gian 2013–2022. (4) Nghiên cứu
tính tổng quát hóa: tiến hành một thí nghiệm với sự tham gia của 9 đội mạnh,
yêu cầu họ huấn luyện lại mô hình theo 6 cấu hình dữ liệu khác nhau (sử
dụng bộ huấn luyện riêng từng bộ dữ liệu với: chỉ vàng, chỉ bạc, vàng+bạc; và
huấn luyện gộp tất cả bộ dữ liệu với: chỉ vàng, chỉ bạc, vàng+bạc), tổng cộng
78 mô hình cho mỗi phương pháp[46][47]. Hiệu năng các mô hình này được
đánh giá trên 13 bộ dữ liệu (đã dùng để huấn luyện, mỗi cấu hình) và trên 3
bộ dữ liệu hoàn toàn mới mà mô hình chưa thấy khi huấn luyện (gồm
Fluo-C2DL-Huh7, Fluo-N2DH-SIM+, Fluo-N3DH-SIM+)[48]. Thử nghiệm này giúp đánh giá mức
độ ổn định và khái quát của thuật toán khi thay đổi dữ liệu huấn luyện.
(5) Sáng kiến tái sử dụng: CTC đề xuất một bộ hướng dẫn tùy chọn để tăng
tính tái sử dụng của thuật toán, nhất là các phương pháp học sâu. Theo
đó, người phát triển nên công bố mã nguồn (GitHub), cung cấp hướng dẫn rõ ràng
để khởi tạo mô hình, tải trọng số đã huấn luyện, huấn luyện tiếp trên dữ liệu mới
và áp dụng mô hình cho dữ liệu mới; liệt kê đầy đủ các yêu cầu thư viện/phần mềm;
và tốt nhất cung cấp notebook Jupyter tương thích Google Colab để người dùng dễ
chạy thử và fine-tune mô hình trên GPU miễn phí[49][50]. Các tiêu chí này nhằm đảm bảo
ngay cả người không phát triển thuật toán cũng có thể dễ dàng áp dụng mô hình
đã có vào dữ liệu của họ.
Kết quả
Mở rộng bộ dữ liệu và chú giải: Đến 2022, CTC đã có 20 bộ dữ liệu thử thách, tăng thêm 7 bộ so
với 2017, giúp đa dạng hóa và tăng độ phức tạp của kho dữ liệu[9]. Những dữ liệu mới này bổ sung các
tình huống thực nghiệm quan trọng: ví dụ, video kính hiển vi tờ ánh sáng
(light-sheet) ghi lại phát triển phôi (Tribolium castaneum),
video tế bào ung thư với các nhánh giả linh động (mô phỏng quá trình di
chuyển kiểu trung mô), hay video trường sáng theo dõi sự phân bào nhanh
của tế bào gốc trong vi môi trường nhân tạo[10][11]. Hình 1 minh họa ảnh mẫu từ các bộ
dữ liệu mới, trong khi Hình 2 so sánh định lượng đặc điểm chất lượng của tất cả
tập dữ liệu thách thức. Các bộ dữ liệu mới này giúp kiểm tra thuật toán trên những
trường hợp khó: chẳng hạn, bộ Fluo-N3DL-TRIF (phôi Tribolium 3D đầy đủ)
có kích thước tới 100 GB, đòi hỏi thuật toán vừa chính xác vừa hiệu quả; hay bộ
Fluo-C3DH-A549-SIM (tế bào mô phỏng với chân giả) thách thức thuật toán xác định
đúng ranh giới tế bào khi chúng có cấu trúc thò thụt rất phức tạp[9][51]. Bên cạnh đó, nhóm tác giả cũng tổng
hợp bảng mô tả kỹ thuật cho mọi bộ dữ liệu (Phụ lục) và sử dụng các thước
đo chất lượng ảnh đã nêu (SNR, CR, Het_i, Het_b, Res, Sha, Spa, Cha, Ove, Mit)
để gán nhãn độ khó cho từng tập (Hình 2)[12][13]. Kết quả này hỗ trợ người dùng hiểu
trước độ phức tạp của dữ liệu: ví dụ nền màu đỏ ở một tiêu chí nghĩa là tập dữ
liệu đó có đặc điểm khiến bài toán khó hơn tương ứng (như Ove đỏ cho biết tế
bào hay chồng lấn nhau nhiều)[14].
Về chú giải tham chiếu, CTC hiện cung cấp đầy đủ chú giải
vàng cho tất cả bộ dữ liệu huấn luyện và dùng các kết quả bài thi (đến
2022) để tạo chú giải bạc như một kho dữ liệu gắn nhãn lớn. Bảng phụ lục
cho thấy trung bình chú giải vàng chỉ bao phủ ~17,8% trường hợp tế bào
(vì không thể vẽ thủ công hết), trong khi chú giải bạc đạt ~99,1%[19][26]. Nhờ đó, người phát triển thuật
toán có thể tận dụng tập “bạc” này (gần như đầy đủ) để huấn luyện mô hình học
sâu thay vì chỉ dựa vào số ít chú giải vàng hiện có[26]. Dĩ nhiên, vẫn còn một tỷ lệ nhỏ tế
bào chưa được đánh dấu trong chuẩn bạc do giới hạn của ngay cả thuật toán tốt
nhất. Tất cả các chú giải vàng/bạc đều công bố công khai cho tập huấn
luyện, nhưng với tập kiểm tra thì giữ kín nhằm đảm bảo bài thi không thể tinh
chỉnh đặc hiệu cho dữ liệu kiểm tra (tránh overfitting)[52].
Thống kê bài thi và chiến lược thuật toán:
Tính đến giữa 2022, CTC ghi nhận 50 đội tham gia từ 19 quốc gia, nộp tổng
cộng 89 thuật toán (tăng mạnh so với 2017)[28]. Danh sách chi tiết có trong tài liệu
bổ sung; tại đây nhóm tác giả phân loại các thuật toán theo chiến lược phân
đoạn/theo dõi (Hình 3a) và kỹ thuật triển khai cụ thể (Hình 3b)[31][53]. Phần lớn (khoảng 2/3) các phương
pháp phân đoạn trực tiếp tạo mask đối tượng (loại Seg), số còn lại chọn
phát hiện vị trí trước rồi mới tách vùng (loại DetSeg)[31]. Đối với bài toán theo dõi, xu hướng
áp đảo là các phương pháp liên kết dựa trên kết quả phân đoạn từng khung
(SegLnk hoặc DetSegLnk). Rất ít phương pháp chỉ dựa trên phát hiện (DetLnkSeg)
hoặc gộp chung (Seg&Lnk), và nhìn chung các phương pháp không thực hiện
phân đoạn rõ ràng cho từng khung thường có hiệu năng thấp hơn trên các bộ dữ liệu
có tế bào dày đặc[32][54]. Thật vậy, phân tích cho thấy chiến
lược DetSeg (phát hiện trước, phân đoạn sau) vượt trội đáng kể so
với Seg thuần túy trên các bộ dữ liệu có tế bào phân cụm nhiều (ví dụ
DIC-C2DH-HeLa)[54]. Lý do là việc phát hiện từng tế
bào bằng học máy trước giúp giảm các lỗi gộp hoặc tách nhầm tế bào trong giai
đoạn phân đoạn, từ đó cải thiện điểm DET về phát hiện[55]. Hiện nay, chiến lược dựa trên phát
hiện này chiếm ưu thế cả ở các bộ dữ liệu phôi lớn: trong số những thuật toán
có điểm DET cao nhất trên các tập khó như Fluo-N3DH-CE,
Fluo-N3DL-DRO/TRIC/TRIF, đa phần đều thuộc loại dựa trên phát hiện (các nhóm
IGFL-FR, JAN-US, MPI-GE, OX-UK, RWTH-GE)[56].
Về kỹ thuật phân đoạn, xu hướng rõ ràng là các thuật toán dùng học
máy (đặc biệt học sâu) nhìn chung vượt trội so với phương pháp truyền
thống dựa trên ngưỡng hoặc phát triển vùng. Điều này đúng cho cả ảnh không
nhuộm (như trường sáng, pha tương phản) – vốn rất khó tìm đặc trưng thủ
công, nên việc để mạng học tự rút trích đặc trưng tỏ ra hiệu quả hơn – lẫn ảnh
huỳnh quang 2D, 3D[57]. Sự cải thiện về điểm SEG qua thời
gian cũng gắn liền với sự xuất hiện của các mô hình học sâu tự tối ưu cấu trúc
(như nnU-Net của nhóm DKFZ-GE) hoặc kiến trúc đa nhánh (như các mô hình
KIT-GE (3) và (4)), cho phép kết hợp nhiều đầu ra để nâng cao kết quả[58]. Phân tích dữ liệu mở rộng cho thấy
từ ~2019 trở đi, hiệu năng phân đoạn (SEG) và phát hiện (DET) của các phương
pháp học sâu tăng nhanh hơn đáng kể so với phương pháp không học máy, và
đến ~2021 thì cả điểm theo dõi (TRA) cũng vậy – phản ánh sự bứt phá của mô hình
học sâu so với phương pháp cổ điển[59]. Mặc dù vậy, đáng chú ý là hiệu
năng liên kết theo dõi (TRA) chưa cho thấy khác biệt đáng kể giữa
thuật toán dùng học máy và không dùng, xét trên tất cả dữ liệu[60]. Nói cách khác, hiện chưa có bằng
chứng thống kê là thuật toán dùng học sâu để nối track vượt trội hơn cách truyền
thống. Nguyên nhân một phần do giới hạn dữ liệu huấn luyện: rất ít bộ dữ
liệu có đầy đủ chú giải track để huấn luyện mô hình học sâu về liên kết, nên đa
số nhóm vẫn dùng thuật toán nối truyền thống (dựa trên tối ưu, quy tắc thủ
công)[61]. Dù vậy, một số phương pháp tiên
phong đã xuất hiện, như BGU-IL (5) sử dụng Graph Neural Network (GNN) để
nối các khung thời gian thành đường đi toàn cục cho từng tế bào, coi video như
một đồ thị và tìm “đường đi lớn nhất” tương ứng mỗi cell[62][63]. Một ví dụ khác là KIT-GE (4) –
tích hợp luôn bước liên kết vào một nhánh của mạng học sâu hai nhánh, thực hiện
phân đoạn và liên kết đồng thời[64]. Tuy nhiên, các cách tiếp cận tích
hợp như vậy hiện rất hiếm, có lẽ bởi khi dữ liệu đã được phân đoạn tốt thì bước
liên kết đơn giản (dựa trên khoảng cách, chồng lấn vùng) đã đủ hiệu quả mà
không cần mạng chuyên biệt[64]. Nhìn rộng ra, hầu hết quy trình
theo dõi công bố hiện nay vẫn là hai giai đoạn tách biệt: tối ưu phân đoạn trước
theo tiêu chí định lượng, rồi mới tinh chỉnh hoặc làm thủ công bước ghép track[65]. Cách làm này phần nào kìm hãm tiến
bộ của bài toán theo dõi, vì các thành tựu học sâu trong lĩnh vực theo dõi vật
thể và ước tính chuyển động (như mô hình deep tracking, optical flow) chưa
được áp dụng cho theo dõi tế bào[66]. Đây là cơ hội mở cho tương lai,
khi các phương pháp video processing học sâu (ví dụ tăng độ phân giải video, nội
suy khung hình) đã được dùng trong lĩnh vực khác[67] nhưng chưa được khám phá trong bối
cảnh theo dõi tế bào.
Bảng xếp hạng kỹ thuật: Dựa trên điểm số, nhóm
tác giả đã tổng hợp leaderboard cho cả hạng mục CSB (phân đoạn) và CTB
(phân đoạn + theo dõi) tính đến 1/6/2022. Hình 4a liệt kê top-3 thuật toán
CSB trên từng bộ dữ liệu (kèm điểm SEG và DET và điểm trung bình OP), và
Hình 4b tương tự cho top-3 CTB (điểm SEG, TRA và OP)[68][69]. Xét về thành tích tổng thể, nhóm
dùng hệ thống tính điểm: mỗi lần một thuật toán đứng top-1, top-2, top-3 trên bất
kỳ bộ dữ liệu thì lần lượt được 3, 2, 1 điểm; cộng tất cả để xếp hạng các nhóm
xuất sắc nhất[70]. Kết quả cho thấy các phương pháp
hàng đầu đều thuộc một số nhóm nổi bật: đứng đầu bảng CSB là CALT-US (một
biến thể U-Net tối ưu hóa)[71], theo sau là KIT-GE (3) và đồng hạng ba gồm DKFZ-GE (dựa
trên nnU-Net) cùng KIT-GE (4) và KTH-SE (1)[71]. Còn bảng CTB thì cả ba vị trí dẫn
đầu đều thuộc về hai nhóm: KIT-GE (3), KIT-GE
(4) và KTH-SE (1)[71]. (Dấu * cạnh tên nghĩa là phiên
bản đã tinh chỉnh để tổng quát hơn.) Các thuật toán top này được mô tả kỹ hơn
trong mục “Top-performing algorithms” (Methods) – hầu hết đều ứng dụng học sâu
cho phân đoạn. Thật vậy, 4/5 thuật toán đứng đầu
hai bảng đều dùng mô hình học sâu cho bước phân đoạn (KIT-GE (3), KIT-GE
(4), CALT-US, DKFZ-GE)[72]. Tuy nhiên, cũng có ngoại lệ
đáng chú ý: KTH-SE (1) và BGU-IL (1)*
sử dụng phương pháp truyền thống (không học máy) nhưng vẫn đạt kết quả tương
đương top học sâu trên một số bộ dữ liệu nhờ thuật toán phân đoạn/ghép nối rất tinh
gọn và hiệu quả[73]. Đặc biệt, KTH-SE (2) (một biến thể
khác của nhóm KTH) đạt hiệu năng ấn tượng trên các bộ phôi – một bài toán mà cả
phương pháp học sâu cũng gặp nhiều khó khăn[74].
Đáng mừng là hiệu năng tổng thể đã cải thiện rõ rệt so với 5 năm
trước. Phân tích dữ liệu mở rộng cho thấy từ 2017 đến 2022, điểm SEG và DET của
các phương pháp tốt nhất đều tăng lên trên đa số bộ dữ liệu, đặc biệt là những
bộ khó nhất như Fluo-C2DL-MSC hay Fluo-N3DL-DRO (cải thiện đáng kể)[75]. Nói cách khác, nhiệm vụ phát hiện
tế bào có vẻ gần như được giải quyết trên nhiều bộ dữ liệu, dù nhiệm vụ
phân đoạn vẫn cần chú ý cải thiện thêm ở một vài tập lâu nay vốn khó (như
Fluo-C2DL-MSC, Fluo-C3DL-MDA231, Fluo-N3DL-DRO) cũng như các tập mới bổ sung[75][76]. Tương tự, điểm SEG (và TRA) trong
hạng mục CTB cũng tăng đáng kể so với trước, nhưng vẫn cho thấy cần nỗ lực hơn ở
đúng những tập dữ liệu “khó nhằn” kể trên[77].
Yếu tố ảnh hưởng hiệu năng: Một kết quả quan
trọng của nghiên cứu là hiểu rõ hơn yếu tố nào trong dữ liệu ảnh hưởng mạnh đến
thành tích thuật toán. Xét toàn cục, phân tích tương quan Spearman chỉ
tìm được duy nhất một thông số có tương quan trung bình (rho ≈ 0,4) với điểm
phân đoạn (SEG) của thuật toán: đó là độ chồng lấn giữa các tế bào (Ove)[78]. Hệ quả này gợi ý: nhìn chung, các
thuật toán dễ dàng phân đoạn hơn khi tế bào không biến đổi hình dạng quá nhiều
và ít di động – tức là trường hợp tế bào ít chồng lấn nhau giữa hai
khung liên tiếp sẽ cho kết quả tốt hơn so với khi hình dạng thay đổi mạnh hoặc
di chuyển nhiều[79]. Ngoài yếu tố toàn cục này, khi
phân tích theo từng loại hiển vi, nhiều mối tương quan mạnh khác xuất hiện,
phù hợp với trực giác: chẳng hạn trên ảnh huỳnh quang 2D, hiệu năng cao
khi ảnh có SNR cao (nhiễu thấp), tế bào hình dạng đều (Sha cao
giúp SEG cao), và đáng ngạc nhiên là ảnh độ phân giải thấp lại có điểm
TRA cao hơn[80][81]. Sự trái ngược ở độ phân giải có thể
lý giải do hai bộ dữ liệu huỳnh quang 2D phức tạp (Fluo-C2DL-MSC và
Fluo-C2DL-Huh7) có Res tương đối cao nhưng lại có nhiều yếu tố bất lợi (hình dạng
rất bất thường – Sha thấp, cháy sáng giảm tín hiệu – Cha cao, SNR thấp, độ
tương phản thấp – CR thấp, v.v.), nên lợi thế về Res của chúng bị lấn át bởi
các nhược điểm khác[82]. Trong khi đó, với ảnh huỳnh
quang 3D, các bộ dữ liệu khác nhau cho kết quả rất phân tán nên chỉ thấy
tương quan trung bình: Res cao giúp SEG và TRA tăng (rho dương), còn tế bào
hình dạng càng không đều (Sha thấp) thì SEG giảm, khoảng cách giữa các tế bào
(Spa) lớn thì SEG tăng nhẹ[83][84]. Đối với ảnh trường sáng
(bright-field), hầu hết yếu tố chất lượng đều tương quan như dự đoán: SNR
cao cải thiện cả SEG và TRA, ngược lại CR, Het_i, Het_b cao (ảnh nền không đồng
nhất, tín hiệu bên trong và giữa các tế bào không đồng đều) đều làm giảm
hiệu năng; Res cao, Spa lớn cũng tương quan nghịch với SEG[85]. Riêng việc Res và Spa (khoảng
cách) càng lớn mà điểm thấp hơn có vẻ ngược so với kỳ vọng – điều này do trong
2 bộ bright-field, bộ BF-C2DL-HSC có Res và mật độ Spa thấp (xấu) hơn bộ còn lại,
nhưng các yếu tố khác của nó lại thuận lợi hơn (như tín hiệu đồng nhất hơn –
Het_b thấp, tế bào hình tròn hơn – Sha cao, độ chồng lấn Ove cao giúp che bớt nền)
nên tổng thể kết quả BF-C2DL-HSC tốt hơn BF-C2DL-MuSC[86]. Với ảnh pha tương phản (PhC),
do chỉ có 2 bộ mà tính chất khác nhau rõ rệt, một số tương quan ngược bất ngờ
xuất hiện: ví dụ CR cao thì kết quả kém (vì bộ có CR cao – PhC-C2DL-PSC – lại
khó hơn nhiều bộ kia do Res thấp, Spa thấp và Mit cao)[87]. Ngược lại, mức dị biệt tín hiệu
(Het_i, Het_b) cao lại làm tăng hiệu năng trên ảnh PhC[88]. Điều này gợi ý rằng đặc trưng kết
cấu phức tạp và quầng sáng (halo) vốn có ở ảnh pha tương phản thực ra có lợi
cho các thuật toán nhận dạng mẫu hình (như mô hình học máy) – chúng tận dụng được
những chi tiết này để phân biệt tế bào với nền[89]. Tóm lại, ngoài yếu tố chung là độ
chồng lấn tế bào, mỗi loại ảnh đều có tập yếu tố riêng ảnh hưởng đến kết
quả theo cách đôi khi khó lường. Phân tích chi tiết hơn cho từng bộ dữ liệu
(phân bổ điểm theo giá trị các chỉ số chất lượng) được cung cấp trong các biểu
đồ bổ sung, giúp xác định rõ điểm nghẽn của thuật toán trên từng loại dữ
liệu[90].
Phân tích cũng chỉ ra mối liên hệ mật thiết giữa chất lượng chú giải
và hiệu năng thuật toán. Hình 5 cung cấp các chỉ số định lượng về chất lượng bộ
chú giải vàng (MSEG_GT, MDET_GT, MTRA_GT) và bạc (SEG_ST, DET_ST) cho tất cả
các bộ dữ liệu[44][91]. MSEG_GT phản ánh mức độ nhất quán
giữa các người chú thích – qua đó đo độ khó nội tại của việc phân đoạn
thủ công từng tập; còn SEG_ST đánh giá độ chính xác hợp nhất kết quả máy so với
chuẩn vàng – phản ánh chất lượng của “tiêu chuẩn bạc” tương ứng[92][93]. Nhìn vào Hình 5, có thể thấy độ
khó phân đoạn bằng tay (màu ở cột MSEG_GT) thay đổi tùy tập: nhiều bộ dữ liệu
có MSEG_GT không cao, nghĩa là ngay cả chuyên gia cũng khó thống nhất khi vẽ
vùng tế bào (thường do ảnh mờ, tế bào chen chúc hoặc hình dạng không rõ)[91]. Ngược lại, các cột SEG_ST, DET_ST
hầu hết rất cao (gần mức tối đa) nhờ việc hợp nhất nhiều kết quả tốt lại – xác
nhận chuẩn bạc đạt chất lượng cao. Khi tính tương quan Spearman, cả ba
chỉ số chất lượng vàng đều tương quan thuận mức trung bình với hiệu năng thuật
toán (điểm SEG/TRA)[94]. Nói cách khác, những video mà
chuyên gia chú thích khó (ít đồng thuận) thì thuật toán cũng khó xử lý, điều
này phù hợp với kỳ vọng thông thường[95]. Đặc biệt về phân đoạn, nhiều bộ có
MSEG_GT khá thấp cho thấy vẫn còn dư địa để cải thiện tính nhất quán trong khâu
gán nhãn dữ liệu – nếu con người làm tốt hơn thì máy cũng sẽ học tốt hơn[96]. Ở cấp độ từng loại ảnh, xu hướng
tương tự vẫn thấy (ngoại trừ DIC do quá ít dữ liệu để kết luận)[97]. Trong khi đó, chất lượng chuẩn bạc
SEG_ST, DET_ST tương quan mạnh với điểm thuật toán[98], điều dễ hiểu vì chuẩn bạc chính là
hợp nhất các thuật toán tốt – nó gần như bao phủ toàn bộ tế bào nên mô hình huấn
luyện theo đó sẽ đạt kết quả cao. Kết quả này nhấn mạnh rằng việc tăng độ bao
phủ và chất lượng của tập chú giải (như thông qua chuẩn bạc) đem lại cải thiện
trực tiếp cho thuật toán[99]. Do vậy, cần tiếp tục cải tiến cách
tạo “sự thật bạc”, vì bất kỳ cải thiện nào ở dữ liệu huấn luyện cũng sẽ phản
ánh ngay ở chất lượng phân đoạn của mô hình cuối[100].
Hiệu năng sinh học: Ngoài các chỉ số kỹ thuật
(SEG, DET, TRA), bài báo còn xem xét bảng xếp hạng theo các chỉ số sinh học
(CT, TF, BC(i), CCA) để đánh giá mức độ thuật toán đáp ứng nhu cầu phân tích của
nhà sinh học. Hình 6 trình bày top-3 thuật toán cho từng bộ dữ liệu theo bộ
tiêu chí sinh học này (tính đến 1/6/2022)[101][102]. Kết quả rất thú vị: các phương
pháp có điểm sinh học cao nhất chính là những phương pháp đã đứng đầu
theo chỉ số kỹ thuật. Cụ thể, ba thuật toán dẫn đầu về tiêu chí sinh học là KIT-GE
(3), KTH-SE (1) và KIT-GE (4) – cũng chính là những thuật
toán hàng đầu ở nhiệm vụ theo dõi đầy đủ (CTB)[103]. Điều này dù sao cũng hợp lý, vì một
thuật toán theo dõi chính xác về kỹ thuật thì khả năng cao sẽ tái hiện tốt phả
hệ (CT) và các sự kiện phân bào (BC, CCA). So với báo cáo 2017, các điểm số sinh
học đã tiến bộ đáng kể, đặc biệt trên những bộ dữ liệu rất phức tạp như
DIC-C2DH-HeLa (tế bào cụm dày), hai bộ phôi lớn Fluo-N3DH-CE và Fluo-N3DL-DRO,
cũng như các bộ mô phỏng Fluo-N2DH-SIM+ và Fluo-N3DH-SIM+[104]. Tuy nhiên, do các thuật toán chưa
được tối ưu trực tiếp theo tiêu chí sinh học, khoảng cách còn xa để đạt mức
hoàn hảo: nhất là hai chỉ số CT và TF còn thấp, nghĩa là khả năng theo
dõi đầy đủ dòng dõi tế bào suốt video vẫn hạn chế[105][106]. Đây là mục tiêu quan trọng cho các
phương pháp tương lai nhằm phục vụ tốt nghiên cứu phát triển phôi (vì cần theo
dõi trọn vẹn phả hệ).
Phân tích tương quan giữa thước đo kỹ thuật và sinh học cho thấy độ
chính xác theo dõi kỹ thuật (TRA) liên hệ chặt chẽ với hai chỉ số sinh học
chính. Cụ thể, TRA và TF có tương quan rất cao (rho ≈ 0,698), TRA và CT
tương quan trung bình-khá (rho ≈ 0,608)[107]. Đường quan hệ TRA–TF gần như tuyến
tính, còn TRA–CT thì phi tuyến: đạt TRA cao là điều kiện cần để CT cao (theo
dõi trọn vẹn phả hệ), nhưng TRA cao chưa đảm bảo CT cao vì có thể theo dõi tốt
phần lớn nhưng vẫn mất một số nhánh cuối[107]. Xu hướng này cũng tương tự khi
tách theo từng loại hiển vi: ví dụ ảnh huỳnh quang 2D và pha tương phản có
tương quan TRA–TF rất mạnh, TRA–CT cũng rất mạnh (với PhC) hoặc khá (với
Fluo-2D); còn DIC ít dữ liệu nên không rõ ràng[108]. Trong khi đó tương quan giữa TRA với
BC(i) và CCA chỉ ở mức trung bình mạnh (PhC, Fluo-3D), và cũng mang tính phi
tuyến tương tự CT[109]. Kết quả này gợi ý rằng cải thiện
thuật toán theo tiêu chí kỹ thuật (TRA) sẽ đồng thời cải thiện được phần lớn
khía cạnh sinh học (TF, BC, CCA), nhưng để nâng cao CT (theo dõi phả hệ
đầy đủ) có lẽ cần chiến lược chuyên biệt hơn chứ không chỉ tối ưu TRA đơn thuần.
Nghiên cứu khả năng tổng quát hóa: Trong thí
nghiệm đặc biệt về tổng quát hóa, 9 nhóm đã huấn luyện lại mô hình theo các cấu
hình dữ liệu khác nhau rồi nộp tổng cộng 78 kết quả mỗi nhóm (như mô tả ở phần Methods).
Qua so sánh, nhóm tác giả rút ra một số nhận định quan trọng. Thứ nhất, khi
dùng thêm dữ liệu bạc (hoặc cả vàng + bạc) để huấn luyện riêng từng bộ,
hiệu năng thuật toán thường tăng nhẹ đến trung bình so với chỉ dùng dữ liệu
vàng – tức là mở rộng dữ liệu huấn luyện giúp ích, nhưng không quá nhiều đối với
hầu hết trường hợp[110][111]. Nhiều phương pháp học sâu hiện đại
hóa ra đã có thể đạt kết quả tốt chỉ với lượng dữ liệu hạn chế từ tập vàng[112]. Tuy nhiên, ở những bộ dữ liệu có chú
giải vàng đặc biệt khó thu được và rất thưa thớt (ví dụ BF-C2DL-MuSC,
DIC-C2DH-HeLa, Fluo-C3DL-MDA231, Fluo-N3DH-CE, PhC-C2DL-PSC), việc bổ sung chú
giải bạc giúp tăng đáng kể điểm số (khoảng 10–15% hoặc hơn)[113][114]. Điểm chung của các bộ này là chất
lượng chú giải vàng thấp (MSEG_GT trung bình-thấp) và tỷ lệ phủ chú giải vàng rất
nhỏ (chỉ ~0,3% đến 9% số tế bào)[115]. Điều này nhấn mạnh tầm quan trọng
của cả chất lượng lẫn độ phủ của dữ liệu gốc trong quá trình huấn luyện
mô hình.
Thứ hai, so sánh giữa chiến lược huấn luyện hợp nhất tất cả dữ liệu
so với riêng từng bộ, kết quả cho thấy huấn luyện chung nhiều bộ
(all-datasets) cũng hiệu quả tương đương việc huấn luyện tối ưu cho từng
bộ[116]. Nói cách khác, mô hình học máy có
khả năng học đặc trưng tổng quát từ nhiều loại dữ liệu khác nhau mà không bị
giảm sút so với mô hình dành riêng cho từng loại. Ngoại lệ duy nhất là bộ
Fluo-N3DH-CE (phôi C. elegans 3D), khi huấn luyện gộp nhiều dữ liệu khác
lại cho kết quả kém hơn so với chỉ dùng dữ liệu bạc riêng của nó[116]. Nguyên nhân do tập này quá khác
biệt so với các tập còn lại: đây là bộ 3D thực duy nhất có đối tượng gần
hình cầu, mật độ tế bào cao (Spa rất thấp, nhiều tế bào chen chúc – Ove cao,
Mit cao) và tốc độ chụp thời gian chậm hơn hẳn các bộ khác[117]. Những khác biệt này làm cho mô
hình huấn luyện chung khó thích nghi tối ưu cho tập Fluo-N3DH-CE bằng mô hình
chuyên biệt[118].
Thứ ba, khi áp dụng các mô hình (đã huấn luyện) vào dữ liệu hoàn
toàn xa lạ – ở đây là 3 bộ không có trong bất kỳ tập huấn luyện nào
(Fluo-C2DL-Huh7, Fluo-N2DH-SIM+, Fluo-N3DH-SIM+) – thì điểm số đạt được khá
thấp (chỉ khoảng 0,4–0,6)[119]. Lúc đầu điều này có vẻ cho thấy
các phương pháp học máy hiện tại kém tổng quát khi gặp loại dữ liệu mới.
Nhưng phân tích kỹ hơn: ví dụ Fluo-C2DL-Huh7 mặc dù mới, nhưng về bản chất rất
giống bộ Fluo-C2DL-MSC (cùng là ảnh huỳnh quang 2D tế bào bào tương), nên các
mô hình đạt kết quả tương tự như trên bộ MSC[120]. Tương tự, hai bộ mô phỏng
Fluo-N2DH-SIM+ và Fluo-N3DH-SIM+ có hiệu năng dự đoán thấp một phần do khác
biệt bản chất giữa dữ liệu mô phỏng và dữ liệu thực – như đã thảo luận,
Fluo-N3DH-SIM+ khác biệt nhiều so với các bộ huỳnh quang 3D thực (Fluo-N3DH-CE,
CHO) về đặc tính ảnh, và điều này cũng đúng khi so Fluo-N2DH-SIM+ với
Fluo-N2DH-GOWT1[121]. Do đó, kết quả kém trên dữ liệu
“unseen” chủ yếu xảy ra khi tập mới khác hẳn so với bất kỳ tập nào mô
hình đã học, chứ không phải hoàn toàn ngẫu nhiên. Dẫu vậy, rõ ràng các phương
pháp học sâu hiện nay khó có thể áp dụng trực tiếp cho loại dữ liệu khác
biệt mà không huấn luyện lại. Một tín hiệu lạc quan là trong nghiên cứu này,
thuật toán KTH-SE (1) (không dùng học máy) thể hiện khả năng tổng quát
cao đáng kể: dù chỉ tối ưu trên dữ liệu huỳnh quang, nó vẫn cạnh tranh sòng phẳng
với các mô hình học sâu tốt nhất trong hạng mục CTB khi áp dụng cho các bộ dữ
liệu khác loại[122]. Điều đó cho thấy phương pháp truyền
thống đôi khi có tính linh hoạt cao trong môi trường mới, nhưng nhìn chung để
thuật toán học sâu tái sử dụng tốt thì cần chiến lược fine-tune phù hợp.
Tính tái sử dụng: Như đã trình bày, CTC đưa ra
bộ hướng dẫn để khuyến khích người phát triển thuật toán học sâu làm cho phương
pháp của họ dễ dàng chia sẻ và chuyển giao. Tính đến nay đã có 11 nhóm
thực hiện đầy đủ các khuyến nghị này, bao gồm toàn bộ các nhóm top đầu.
Cụ thể như các phương pháp: BGU-IL (5)[123], CALT-US, DKFZ-GE, IGFL-FR, KIT-GE
(3), KIT-GE (4), MU-CZ (2), MU-US (3), MU-US (4), PURD-US đều đã công khai
mã nguồn, kèm tài liệu hướng dẫn chạy và huấn luyện mô hình trên dữ liệu mới,
cũng như cung cấp sẵn notebook Colab để người dùng thử nghiệm[123]. Thuật toán KTH-SE (1) viết bằng
MATLAB cũng được coi là tái sử dụng được nhờ có gói code rõ ràng. Những
notebook Colab này được liên kết ngay trên trang GitHub của CTC, giúp bất kỳ ai
cũng có thể tải mô hình và chạy thử trên dữ liệu của mình. Nhờ các nỗ lực này,
việc chuyển giao phương pháp đến các phòng thí nghiệm khác hoặc ứng dụng
cho thí nghiệm mới trở nên thuận lợi hơn bao giờ hết[124]. Nhóm tác giả cho biết hiện tại các
hướng dẫn tái sử dụng vẫn là tự nguyện, nhưng trong tương lai CTC sẽ bắt buộc
các bài thi phải tuân theo, nhằm đảm bảo mọi thuật toán nộp vào đều đi kèm mô
hình/mã có thể dùng dễ dàng[125][126].
Kết luận
Sau 10 năm, CTC đã thúc đẩy
sự phát triển vượt bậc của các thuật toán theo dõi tế bào, đồng thời cung cấp
cho cộng đồng bộ dữ liệu và công cụ đánh giá tiêu chuẩn. Từ phân tích năm 2017
đến nay, có thể thấy một chuyển dịch lớn sang mô hình học sâu. Hiện tại,
phần lớn thuật toán phân đoạn đều sử dụng học máy (60/89 thuật toán) và chúng vượt
trội hẳn phương pháp không học máy – thể hiện qua việc 4/5 thuật toán top đầu
cả CSB và CTB đều dùng mô hình học sâu[72]. Tuy nhiên, đáng chú ý là một vài
thuật toán cổ điển vẫn giữ vị trí số 1 trên một số bộ dữ liệu và đạt hiệu năng
ngang ngửa phương pháp học máy (tiêu biểu: KTH-SE (1), BGU-IL (1) tận dụng chiến
lược phân đoạn, phát hiện, liên kết rất hiệu quả)[73]. Điều này cho thấy các tiếp cận
truyền thống chưa hoàn toàn lỗi thời, đặc biệt khi chúng được thiết kế tinh chỉnh
cho trường hợp cụ thể.
Sự trỗi dậy nhanh chóng của học sâu được quan sát rõ rệt qua mức tăng
điểm theo thời gian: các thuật toán học sâu cải thiện hiệu năng nhanh hơn
hẳn so với truyền thống, đặc biệt gắn liền với những đột phá như mô hình tự cấu
hình (nnU-Net) hay mạng đa nhánh[127]. Hầu hết các thuật toán học sâu
phân đoạn tế bào hàng đầu đều là biến thể của kiến trúc U-Net, một số ít
dùng RCNN hoặc HRNet[128]. Ví dụ, phương pháp DKFZ-GE dùng
U-Net tự động tìm tham số tối ưu cho từng tập (nnU-Net), hay BGU-IL (5) kết hợp
ConvLSTM với U-Net – đều là những cải tiến dựa trên U-Net nguyên bản[129][130]. Sự thống trị của U-Net có
thể lý giải bởi tính đơn giản và hiệu quả của nó: cách tiếp cận phân đoạn toàn ảnh,
kết hợp cả đặc trưng nông (cụ thể) và sâu (ngữ nghĩa) qua skip-connection giúp
xác định ranh giới tế bào sắc nét[131]. Nhờ đó, dù ra đời đã lâu, U-Net
và các biến thể vẫn liên tục đứng top trong lĩnh vực này.
Ở khía cạnh theo dõi (liên kết), đến nay chưa có sự bứt phá tương tự
với học sâu. Chỉ rất ít nhóm thử dùng mạng học sâu cho bước nối track (như
BGU-IL (5) dùng GNN), và kết quả chung chưa cho thấy khác biệt rõ với phương
pháp tối ưu cổ điển[132]. Rào cản chính là thiếu dữ liệu
được chú giải đầy đủ để huấn luyện; do vậy, nhiều nhóm vẫn phải dùng thuật
toán nối dựa trên quy tắc/tiêu chí cố định, và các phương pháp này tuy không học
máy nhưng vẫn hoạt động khá tốt trong nhiều trường hợp[133]. Một cách tiếp cận đáng chú ý là kết
hợp yếu tố học sâu với thuật toán truyền thống – ví dụ kết hợp mô hình học sâu
với thuật toán tối ưu hóa – nhằm tận dụng ưu điểm đôi bên[134]. Cũng có nỗ lực tích hợp liền mạch
phân đoạn và theo dõi trong một mô hình (KIT-GE (4)), nhưng nhìn chung hầu hết
pipeline vẫn tách rời hai bước. Thực tế cho thấy nếu ảnh đã phân đoạn tốt thì
việc nối đơn giản cũng đủ, nên ít nhóm đầu tư vào mô hình nối chuyên biệt[64]. Điều này đồng nghĩa còn nhiều tiềm
năng trong việc áp dụng các kỹ thuật theo dõi đối tượng hiện đại (vốn phổ
biến trong thị giác máy tính) vào bài toán theo dõi tế bào – ví dụ như dùng mạng
deep tracking, bộ theo dõi song song với phát hiện, v.v., những thứ đang được
dùng cho video phóng to độ phân giải hay tăng tốc khung hình
nhưng chưa ai thử cho dữ liệu sinh học[66].
Việc xác định yếu tố nào quyết định thành bại của thuật toán theo dõi tế
bào là một bài toán phức tạp, do có rất nhiều tham số đan xen: từ chất lượng mẫu,
cài đặt kính hiển vi, cho đến chiến lược tiền xử lý, lượng dữ liệu huấn luyện
và bản chất thuật toán. Không ngạc nhiên khi phân tích chỉ tìm được một yếu
tố toàn cục ảnh hưởng hiệu năng: độ thay đổi hình thái tế bào qua thời
gian (đo bằng mức chồng lấn Ove)[135]. Tuy nhiên, ở mức từng loại dữ
liệu, nhóm tác giả đã chỉ ra nhiều yếu tố quan trọng (SNR, CR, Res, Sha,
v.v.) tác động riêng. Thông tin này rất hữu ích: nó gợi ý cho nhà sinh học
cách tối ưu khâu tạo dữ liệu (ví dụ tăng tín hiệu, giảm nhiễu, chụp dày hơn để
giảm chồng lấn, v.v.), đồng thời giúp nhà phát triển thuật toán biết cần chú trọng
xử lý vấn đề gì đối với mỗi loại dữ liệu cụ thể[136][137]. Phân tích cũng khẳng định một điều
hiển nhiên nhưng quan trọng: hiệu năng thuật toán tỷ lệ thuận với chất lượng
tập chú giải tham chiếu. Video nào con người chú thích khó, máy cũng khó
làm tốt; và đặc biệt, việc có tập chú giải mở rộng (silver) gần như đầy đủ mang
lại lợi ích rõ rệt cho các thuật toán học sâu[99]. Điều này nhấn mạnh giá trị
của sáng kiến tạo “tiêu chuẩn bạc” của CTC, đồng thời kêu gọi nỗ lực tiếp tục cải
tiến phương pháp này – vì bất kỳ nâng cấp nào ở khâu tạo silver đều sẽ cải
thiện trực tiếp kết quả phân đoạn của mô hình[100].
CTC cũng chú trọng đến khía cạnh ứng dụng và chuyển giao. Việc
tiêu chuẩn hóa định dạng đầu vào/ra đã phần nào giúp các thuật toán dễ sử dụng
lại. Đặc biệt, đối với mô hình học sâu, nhóm tổ chức đã đưa ra hướng dẫn để tác
giả cung cấp sẵn mã nguồn và mô hình huấn luyện – thuận tiện cho người dùng
khác tải về và fine-tune trên dữ liệu mới[138]. Họ khuyến khích sử dụng nền tảng
Google Colab để bất kỳ ai cũng có thể chạy thử với GPU miễn phí. Mặc dù các hướng
dẫn này chưa bắt buộc, nhóm tác giả dự định sẽ yêu cầu tất cả các bài dự thi
tương lai phải tuân theo nhằm xây dựng một thư viện thuật toán thực sự dễ
tiếp cận cho cộng đồng[126]. Hiện tại đã có 11 thuật toán (bao
gồm mọi phương pháp top đầu) đáp ứng tiêu chí này, giúp cho việc chuyển giao
công nghệ sang các phòng thí nghiệm khác trở nên đơn giản hơn rất nhiều[124].
Một điểm mới quan trọng khác của CTC là bổ sung các bộ dữ liệu đa dạng.
Những dữ liệu mới – như video phôi thu nhận bằng kính hiển vi tờ ánh sáng,
video tế bào ung thư di chuyển với chân giả, video tế bào gốc trong vi môi trường
– không chỉ mở rộng phạm vi thách thức thuật toán mà còn phục vụ các lĩnh vực
sinh học mũi nhọn. Chẳng hạn, kính hiển vi tờ ánh sáng ngày càng phổ biến
trong sinh học phát triển, nghiên cứu chữa lành vết thương và cơ sinh học,
tạo ra nhu cầu phân tích dữ liệu kích thước cực lớn. CTC đã đáp ứng bằng cách
thêm các tập phôi Tribolium cỡ hàng trăm GB, giúp kiểm tra khả năng thuật
toán xử lý dữ liệu “khủng” này[139]. Thực tế, một số thuật toán đã đạt
độ chính xác gần ngang chuyên gia trên những tập khổng lồ đó (ví dụ KTH-SE (2)
và MPI-GE (CBG) (2))[140]. Tương tự, các video tế bào ung
thư có chồi actin (mô phỏng di cư kiểu trung mô) rất hữu ích để nghiên cứu sự
di chuyển của tế bào ung thư và quá trình lành vết thương, nhưng đồng thời
đòi hỏi thuật toán phải nhận diện ranh giới tế bào chính xác trong điều kiện
hình dạng tế bào thay đổi liên tục[141]. Ngoài ra, dữ liệu tế bào gốc
máu/cơ trong giếng vi mô cho phép thí nghiệm số lượng lớn nhằm khảo sát ảnh
hưởng của vi môi trường đến số phận tế bào gốc – một chủ đề quan trọng của sinh
học tế bào gốc. Những video này thách thức thuật toán ở chỗ phát hiện và theo
dõi tốc độ phân bào rất cao của tế bào (Mit cao)[142]. Như vậy, bằng cách thêm các bộ dữ
liệu “khó” nhưng mang tính thực tiễn cao, CTC đang thúc đẩy phát triển thuật
toán theo hướng phục vụ trực tiếp các bài toán sinh học hiện đại.
Về mặt đánh giá, hạng mục CSB (chỉ phân đoạn) được thiết lập như
một kênh riêng cho những nhóm chỉ muốn tập trung giải quyết bài toán phân đoạn
mà không cần theo dõi. Điều này xuất phát từ yêu cầu thực tế của cộng đồng, và
CSB đã chứng tỏ hiệu quả khi thu hút nhiều phương pháp mới tham gia[143]. Tuy nhiên, kết quả tổng quát chỉ
ra rằng cả phân đoạn và theo dõi đều còn khoảng cách để đạt độ hoàn thiện mong
muốn – cần những thuật toán tinh vi hơn để nâng cao cả tiêu chí kỹ thuật
lẫn sinh học, đặc biệt là nâng cao khả năng tổng quát hóa mô hình học
sâu[144]. Một kế hoạch sắp tới là CTC sẽ
triển khai thêm hạng mục chỉ theo dõi (tracking-only), cho phép các thuật
toán tối ưu riêng bước liên kết mà không bị ảnh hưởng bởi lỗi phân đoạn[145]. Điều này đồng thời tạo điều kiện
để họ tập trung cải thiện các tiêu chí sinh học về phả hệ (vì sẽ so sánh trực
tiếp kết quả nối track). Tất nhiên, vẫn còn những câu hỏi mở như làm sao chuyển
các tiêu chí sinh học đó thành hàm mục tiêu tối ưu trực tiếp cho mô hình, hay
đánh giá ảnh hưởng của lan truyền lỗi phân đoạn đến kết quả phả hệ cuối cùng[146]. Nhóm tác giả nhận định rằng mặc
dù đã có tiến bộ đáng kể sau một thập kỷ (nhất là nhờ làn sóng học sâu),
bài toán theo dõi tế bào chưa phải đã giải quyết xong. Thách thức lớn vẫn
nằm ở bước liên kết theo dõi (theo dõi lâu dài còn kém hơn phân đoạn) và
việc đảm bảo mô hình học sâu hoạt động tốt trên nhiều loại dữ liệu khác nhau.
CTC, với vai trò nền tảng đánh giá chuẩn mực, sẽ tiếp tục đồng hành cùng cộng đồng
nghiên cứu để hướng tới những giải pháp toàn diện hơn cho bài toán này.
Ứng dụng
thực tế
·
Phân tích phát triển phôi: Thuật toán theo dõi tế bào được áp dụng để dựng phả hệ tế bào trong
các phôi đang phát triển (ví dụ phôi Tribolium, C. elegans). Điều
này hỗ trợ các nhà sinh học phát triển hiểu rõ quá trình phân chia và biệt hóa
tế bào qua thời gian trong phôi, phục vụ nghiên cứu phát triển sinh vật
và cơ sinh học[139].
·
Nghiên cứu di căn và lành vết
thương: Các phương pháp CTC giúp theo dõi sự di động
của tế bào trong bối cảnh vết thương hoặc ung thư. Đặc biệt, việc theo dõi
các tế bào ung thư có chân giả actin cung cấp công cụ cho nghiên cứu quá
trình di cư kiểu trung mô của tế bào ung thư và cơ chế đóng vết
thương, khi cần quan sát cách tế bào di chuyển và tương tác trong môi trường
phức tạp[141].
·
Sinh học tế bào gốc và vi môi
trường: Nhờ các thuật toán theo dõi, các nhà nghiên cứu
có thể phân tích hiệu ứng của vi môi trường lên số phận tế bào gốc trong
các thí nghiệm high-throughput (như nuôi tế bào gốc máu/cơ trong giếng vi mô).
Thuật toán tự động đếm và theo dõi tế bào phân chia nhanh giúp rút ra kết luận
về ảnh hưởng của môi trường đến khả năng tự làm mới hay biệt hóa của tế bào gốc[141].
·
Hỗ trợ thuật toán học sâu dữ liệu
sinh học: Bộ chú giải bạc với ~99% đối tượng và
tập dữ liệu phong phú của CTC là tài nguyên quý giá để huấn luyện các mô hình học
sâu về phân đoạn/theo dõi tế bào. Điều này đặc biệt hữu ích cho các nhóm nghiên
cứu cần mô hình tốt nhưng thiếu dữ liệu gốc được gán nhãn – họ có thể dùng trực
tiếp dữ liệu CTC để huấn luyện hoặc fine-tune mô hình của mình[20].
·
Chuyển giao công nghệ theo dõi
tế bào: Nhờ các hướng dẫn tái sử dụng, nhiều thuật
toán hàng đầu (cùng mã nguồn và mô hình đã huấn luyện) được công bố công khai.
Các nhà nghiên cứu trong phòng thí nghiệm có thể dễ dàng áp dụng ngay những
mô hình này cho dữ liệu của họ bằng cách tải mã, chạy notebook Colab và tinh chỉnh
trên vài mẫu dữ liệu của riêng mình[49][123]. Điều này giúp rút ngắn khoảng cách giữa phát triển thuật toán và ứng
dụng thực tiễn, đưa các công cụ tiên tiến đến tay các nhà sinh học một cách thuận
lợi.
Kết luận chính từ nghiên cứu
·
Học sâu thống trị phân đoạn: Mô hình học sâu (đặc biệt dựa trên U-Net) đã thay thế phần lớn phương
pháp truyền thống trong bài toán phân đoạn tế bào, đạt hiệu năng cao hơn rõ rệt[72][147]. Tuy vậy, một số thuật toán cổ điển với thiết kế tinh gọn vẫn có thể
sánh ngang trên các bộ dữ liệu cụ thể (ví dụ KTH-SE, BGU-IL)[73].
·
Hiệu năng tăng đáng kể nhưng
chưa đồng đều: Nhờ có CSB và các cuộc thi ISBI, điểm
phát hiện và phân đoạn đã cải thiện mạnh trên đa số bộ dữ liệu từ 2017–2022[75]. Nhiệm vụ phát hiện gần như được giải quyết trên nhiều tập, nhưng phân
đoạn ở một số bộ khó và liên kết theo dõi nói chung vẫn cần thuật toán tốt
hơn[76]. Đặc biệt, khả năng theo dõi toàn bộ phả hệ (CT) và các đoạn track dài
(TF) còn thấp, cho thấy việc theo dõi đầy đủ tế bào qua thời gian vẫn là
thách thức lớn[148].
·
Yếu tố dữ liệu quyết định: Sự thay đổi hình dạng tế bào (đo bằng mức độ chồng lấn Ove) là
yếu tố duy nhất tìm được có tương quan đáng kể toàn cục với độ khó phân đoạn –
tế bào càng biến dạng, di động nhiều thì mô hình càng khó theo dõi[79]. Ngoài ra, các yếu tố như tỉ lệ nhiễu, độ tương phản, độ phân giải,
hình dạng tế bào, tốc độ phân bào... đều ảnh hưởng hiệu năng ở mức độ khác
nhau tùy từng loại ảnh, phần lớn phù hợp với dự đoán (nhiễu cao, tín hiệu không
đều, v.v. làm giảm điểm) trừ một số trường hợp ngoại lệ do tương tác giữa nhiều
yếu tố phức tạp[149][150]. Kết luận chung là không có một thông số đơn lẻ nào quyết định tất
cả, mà thuật toán chịu ảnh hưởng bởi tổ hợp nhiều đặc trưng của từng
bộ dữ liệu.
·
Chất lượng chú giải quyết định
trần hiệu năng: Hiệu quả của thuật toán bị giới hạn bởi
chất lượng và độ đầy đủ của dữ liệu huấn luyện. Nếu ngay cả chuyên gia cũng
khó chú thích (MSEG_GT thấp) thì thuật toán khó đạt điểm cao[94]. Ngược lại, khi cung cấp cho mô hình một tập chú giải gần như hoàn
chỉnh (như tập bạc), thuật toán có thể đạt kết quả rất tốt, tiệm cận hiệu
năng người chú thích[25][98]. Do đó, đầu tư vào cải thiện chú giải (ví dụ dùng nhiều người gán
nhãn, tạo silver chất lượng cao hơn) sẽ trực tiếp nâng cao kết quả thuật
toán.
·
Thuật toán hàng đầu không đòi hỏi
dữ liệu huấn luyện quá lớn: Nghiên cứu tổng quát hóa
cho thấy nhiều phương pháp top-3 chỉ dùng tập vàng (ít dữ liệu) nhưng vẫn đạt
kết quả gần ngang khi dùng thêm nhiều dữ liệu bạc[110][151]. Điều này chứng tỏ các mô hình học sâu hiện đại có thể học hiệu quả từ
lượng dữ liệu hạn chế nếu chất lượng dữ liệu tốt. Tuy nhiên, với các bộ dữ liệu
có chú giải thưa hoặc khó, bổ sung dữ liệu bạc vẫn cải thiện đáng kể
(tăng 10–15% điểm)[114].
·
Mô hình học sâu kém tổng quát
trên dữ liệu khác biệt: Khi áp dụng mô hình đã huấn
luyện sang loại dữ liệu mới khác xa dữ liệu huấn luyện (ví dụ mô hình huấn
luyện trên ảnh huỳnh quang đem sang ảnh bright-field), hiệu năng giảm mạnh (chỉ
đạt 40–60% so với trước)[119]. Nếu dữ liệu mới có tính chất tương tự một phần dữ liệu cũ thì mô hình
vẫn cho kết quả khá (như Fluo-C2DL-Huh7 vs Fluo-C2DL-MSC)[120], nhưng nhìn chung cần fine-tune hoặc huấn luyện lại để mô hình
thích ứng hoàn toàn với dữ liệu kiểu mới.
·
Hạng mục đánh giá mới đáp ứng
nhu cầu cộng đồng: Việc giới thiệu CSB (phân đoạn)
vào 2019 đã thu hút nhiều nhóm tập trung giải quyết bài toán phân đoạn, tận dụng
được nguồn dữ liệu và thước đo của CTC cho mục đích so sánh công bằng[143]. Tương tự, kế hoạch mở hạng mục theo dõi sẽ tạo động lực cải tiến
riêng cho thuật toán ghép nối track, đặc biệt hướng đến các tiêu chí sinh học
(theo dõi phả hệ hoàn chỉnh)[145].
·
Định hướng tương lai: Bài toán phân đoạn và theo dõi tế bào đã có tiến bộ vượt bậc
trong 10 năm (ví dụ, nhiều trường hợp thuật toán gần đạt ngang mức chuyên gia[140]). Song chưa thể xem là đã giải quyết xong: phân đoạn một số trường
hợp phức tạp vẫn khó, và bước theo dõi (đặc biệt tái hiện phả hệ đầy đủ) còn
nhiều hạn chế[148][152]. Các tác giả nhấn mạnh cần nghiên cứu cách tích hợp các thước đo
sinh học thành hàm mục tiêu để huấn luyện mô hình bám sát nhu cầu thực nghiệm
hơn, đồng thời xem xét ảnh hưởng của lỗi phân đoạn lan truyền đến độ chính xác
phả hệ[153]. Những bước tiếp theo này sẽ giúp thuật toán theo dõi tế bào ngày
càng hữu ích cho nghiên cứu sinh học, đem lại kết quả không chỉ chính xác về
mặt kỹ thuật mà còn có ý nghĩa về mặt sinh học.
[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52] [53] [54] [55] [56] [57] [58] [59] [60] [61] [62] [63] [64] [65] [66] [67] [68] [69] [70] [71] [72] [73] [74] [75] [76] [77] [78] [79] [80] [81] [82] [83] [84] [85] [86] [87] [88] [89] [90] [91] [92] [93] [94] [95] [96] [97] [98] [99] [100] [101] [102] [103] [104] [105] [106] [107] [108] [109] [110] [111] [112] [113] [114] [115] [116] [117] [118] [119] [120] [121] [122] [123] [124] [125] [126] [127] [128] [129] [130] [131] [132] [133] [134] [135] [136] [137] [138] [139] [140] [141] [142] [143] [144] [145] [146] [147] [148] [149] [150] [151] [152] [153] The Cell Tracking Challenge: 10 years of objective benchmarking |
Nature Methods
Nhận xét
Đăng nhận xét