SlideShare a Scribd company logo
1 of 12
Di chuyển Phân loại mục tiêu và Theo dõi từ Video theo thời gian thực
trừu tượng
Bài báo này mô tả phương pháp cuối cùng để trích xuất các mục tiêu di chuyển từ luồng video
thời gian thực, phân loại chúng thành các loại được xác định trước dựa theo các thuộc tính dựa
trên hình ảnh và sau đó mạnh mẽ theo dõi chúng. Di chuyển mục tiêu được phát hiện bằng cách
sử dụng sự khác biệt khôn ngoan pixel giữa các khung hình liên tiếp. Một chỉ số phân loại được
áp dụng cho các mục tiêu này với một sự ràng buộc nhất quán thời gian để phân loại chúng thành
ba loại: con người, xe hoặc nền lộn xộn. Sau khi phân loại, các mục tiêu được theo dõi bởi sự kết
hợp của sự phân biệt thời gian và mẫu phù hợp.
Hệ thống kết quả mạnh xác định các mục tiêu liên quan, loại bỏ sự lộn xộn nền, và liên tục theo
dõi trên một khoảng cách lớn và khoảng thời gian bất chấp những sự đóng góp, sự thay đổi và sự
chấm dứt chuyển động mục tiêu.
1. Giới thiệu
Sự sẵn có của các bộ cảm biến video và phần cứng xử lý video theo yêu cầu cao mở ra nhiều khả
năng thú vị để giải quyết nhiều vấn đề về hiểu biết về hình ảnh [9]. Điều quan trọng là phải phát
triển video thời gian thực mạnh mẽ theo kỹ thuật đứng để có thể xử lý lượng dữ liệu lớn có thể đạt
được. Trung tâm cho nhiều vấn đề về hiểu biết về video là các chủ đề phân loại mục tiêu và theo
dõi.
Trong lịch sử, việc phân loại mục tiêu đã được thực hiện trên các hình ảnh đơn hoặc hình ảnh tĩnh
[12, 7]. Gần đây, bao giờ hết, các luồng video đã được khai thác để phát hiện mục tiêu [6, 14,
10]. Nhiều phương pháp như thế này tốn rất nhiều chi phí và không thể áp dụng cho các ứng dụng
thời gian thực hoặc yêu cầu phần cứng chuyên dụng hoạt động trong thời gian thực làm main. Tuy
nhiên, các phương pháp như Pfinder [14], W 4 [6] vàBeymer và cộng sự [2] được thiết kế để trích
xuất các mục tiêu trong thời gian thực.
Triết lý đằng sau những kỹ thuật này là sự phân chia của một hình ảnh, hoặc luồng video, thành
đối tượng Vs. không đối tượng khu vực. Điều này được dựa trên các khu vực tương ứng với các
mô hình mục tiêu chi tiết hợp lý. Một yêu cầu khác của các hệ thống này là, nói chung, có một số
lượng hợp lý số lượng điểm ảnh trên mục tiêu. Đối với cả hai người này, những phương pháp này
sẽ không phù hợp trong một hệ thống giám sát ngoài trời chung vì có rất nhiều loại mục tiêu khác
nhau có thể rất quan trọng và thường không thể có được một số lượng lớn các điểm ảnh trên Mục
tiêu. Cách tiếp cận tốt hơn là cách phân loại dựa trên các quy tắc đơn giản, phần lớn độc lập với
mô hình 3D hay mô hình 3D. Do đó, số liệu phân loại được khám phá trong bài báo này, dựa hoàn
toàn vào hình dạng của mục tiêu, chứ không phải nội dung hình ảnh.
Hơn nữa, thành phần thời gian của video cho phép hạn chế nhất quán thời gian [4] được sử dụng
trong cách tiếp cận phân loại. Nhiều giả thuyết về phân loại của đối tượng có thể được duy trì theo
thời gian cho đến khi hệ thống tin rằng nó có thể phân loại chính xác mục tiêu. Điều này cho phép
hệ thống xác định mục tiêu trong trường hợp occlusions hoặc nền lộn xộn.
Nhiều hệ thống theo dõi mục tiêu dựa trên các bộ lọc Kalman, nhưng như được chỉ ra bởi [8],
chúng được sử dụng hạn chế vì chúng dựa trên mật độ Gaussian đơn và do đó không thể hỗ trợ
các chuyển động thay thế đồng thời. Một vài phương pháp tiếp cận khác đã được đưa ra, ví dụ như
(a) Isard và Blake [8] trình bày một thuật toán mới stochas tic để theo dõi mạnh mẽ hơn so với
phương pháp tiếp cận dựa trên bộ lọc Kalman trước, và (b) Bregler [3] thể hiện một sự phân hủy
có tính xác suất của động lực học của con người để học hỏi và nhận ra con người (hoặc các bước
đi của chúng) trong video chuỗi.
Bài báo này trình bày một phương pháp đơn giản hơn nhiều dựa trênsự kết hợp của sự phân biệt
thời gian và kết hợp khuôn mẫu hình ảnh đạt được sự theo dõi đạt yêu cầu cao hình thức trong sự
hiện diện của lộn xộn và cho phép tốt clas sification. Vì vậy, tránh việc sử dụng Kalman lọc hoặc
các phương pháp tiếp cận prob abilistic khác.
Hai trong số các phương pháp cơ bản để theo dõi mục tiêu trong các ứng dụng video theo thời
gian thực là sự khác biệt thời gian (DT) [1] và tương quan mẫu tương ứng. Trong cách tiếp cận cũ,
khung hình video được phân tách bằng một khoảng thời gian liên tục t được so sánh với các khu
vực đã thay đổi. Trong cách tiếp cận thứ hai, mỗi hình ảnh video được quét cho khu vực có liên
quan đến mẫu hình ảnh tốt nhất. Độc lập, những phương pháp này có những thiếu sót đáng kể.
DT theo dõi là không thể nếu có chuyển động máy ảnh quan trọng, trừ khi một thuật toán ổn định
hình ảnh thích hợp được sử dụng [5]. Nó cũng thất bại nếu mục tiêu trở nên bị che khuất hoặc
ngừng chuyển động của nó. Tương quan mẫu phù hợp với gen erally yêu cầu sự xuất hiện của đối
tượng đích không đổi. Phương pháp nói chung không mạnh mẽ đối với những thay đổi về kích
thước, hướng hay thậm chí thay đổi các điều kiện ánh sáng.
Tuy nhiên, tính theo dõi của hai phương pháp này là bổ sung. Khi mục tiêu là tĩnh, mẫu phù hợp
là lúc mạnh nhất của nó trong khi DT sẽ thất bại. Và khi mục tiêu đang chuyển động, DT sẽ thành
công khi kết hợp các thanh tiêu đề sẽ có xu hướng "trôi dạt". Đây là động lực để kết hợp hai phương
pháp. Ý tưởng là sử dụng DT để phát hiện các mục tiêu chuyển động và đào tạo khuôn mẫu phù
hợp với algo rithm. Các mục tiêu này sau đó được theo dõi bằng cách sử dụng mẫu phù hợp ing
hướng dẫn bởi giai đoạn DT. Sự kết hợp này bỏ quaing được hướng dẫn bởi giai đoạn DT. Sự kết
hợp này loại bỏ sự cần thiết của việc lọc dự đoán trong quy trình theo dõi vì theo dõi được hướng
dẫn bằng phát hiện chuyển động. Mô hình đơn giản này tạo ra kết quả đáng kể.
Bài báo này mô tả một hệ thống để theo dõi mạnh mẽ chất bồ hóng trong luồng video và phân loại
các mục tiêu thành "hu mans" và "vehicles" cho một ứng dụng giám sát video ngoài trời. Theo dõi
mục tiêu dựa trên hai nguyên tắc chính; (a) sự nhất quán trong thời gian cung cấp một cách phân
loại các mục tiêu di chuyển mạnh mẽ trong khi loại trừ xung đột nền, và (b) sự kết hợp phát hiện
chuyển động với sự kết hợp khuôn mẫu dựa trên hình ảnh cung cấp một chương trình theo dõi mục
tiêu mạnh mẽ. Phân loại mục tiêu dựa trên một ứng dụng đơn giản ước lượng khả năng ước lượng
tối đa sau khi tính toán một thước đo đơn giản dựa trên chỉ tiêu cho mỗi mục tiêu.
1.1. Tổng quan về Hệ thống
Hệ thống được đề xuất trong bài báo này bao gồm ba giai đoạn như được phác thảo trong hình 1.
Trong giai đoạn đầu tiên, tất cả các đối tượng di chuyển được phát hiện bằng cách sử dụng một
thuật toán algo rithm theo thời gian. Đây được mô tả là các vùng chuyển động. Mỗi một được phân
loại tại mỗi khung thời gian bằng cách sử dụng một số liệu phân loại dựa trên hình ảnh. Phân loại
cho mỗi chuyển động cá nhân
Hình 1. Tổng quan về hệ thống nhận diện và theo dõi.
Di chuyển các đối tượng được phát hiện trong một dòng video bằng cách sử dụng sự khác biệt thời
gian. Các mục tiêu sau đó được phân loại theo một số liệu phân loại. Những mục tiêu này có thể
được theo dõi bằng cách sử dụng một sự kết hợp của thông tin chuyển động tương quan và tương
quan dựa trên hình ảnh khu vực được ghi lại trong một khoảng thời gian và Tiêu chí ước lượng
Khả năng Sinh sản Tối đa Tối đa (MLE) đơn giản được sử dụng để phân loại chính xác từng mục
tiêu. Khi khu vực chuyển động đã được phân loại, nó có thể được sử dụng làm mẫu đào tạo cho
quá trình theo dõi. Quá trình theo dõi bao gồm sự kết hợp tương quan giữa một mẫu và các chuyển
động hiện tại (do DT thu được). Vùng chuyển động có độ tương quan tốt nhất được theo dõi và
được sử dụng để cập nhật mẫu cho việc theo dõi tiếp theo
2. Phân biệt thời gian
Có rất nhiều biến thể trên phương pháp DT, nhưng điểm yếu của sim là để có khung hình liên tiếp
và xác định sự khác biệt tuyệt đối. Một chức năng ngưỡng sau đó được sử dụng để thay đổi
termine. Nếu In là cường độ của khung thứ n, sau đó chức năng điểm ảnh khôn ngoan khôn ngoan
n n = jIn In 1j
và một hình ảnh chuyển động Mn có thể được chiết xuất bằng cách ngưỡng
Ngưỡng T đã được xác định theo kinh nghiệm là 15% phạm vi độ sáng của bộ mã hoá. Đối với
một số hóa cung cấp 255 màu xám cấp, một giá trị T 40 nên được sử dụng.
Hình 2. Các vùng chuyển động. Lưu ý rằng nhiều thông tin cơ bản không được đưa vào mẫu.
Sau khi hình ảnh chuyển động được xác định, các phần di chuyển được nhóm lại thành các vùng
chuyển động Rn (i). Điều này được thực hiện bằng cách sử dụng một tiêu chí kết nối thành phần.
Hình 2 cho thấy kết quả của việc tách các vùng chuyển động.
Một vấn đề với phát hiện chuyển động DT là nó có xu hướng bao gồm các vùng nền không mong
muốn ở ngoại vi của đối tượng mà đối tượng đã "đã được". Số lượng lớn thông tin cơ bản này
trong mẫu là một trong những nguyên nhân của mẫu "trôi dạt". Một cách để giảm bớt vấn đề này
là sử dụng kiến thức về chuyển động của mục tiêu để cắt các vùng nền này khỏi khuôn mẫu.
Vector vận tốc hình ảnh 2D của đích (_u; v_) (pixels / frame) có thể được xác định xấp xỉ bằng
cách tính toán sự khác biệt giữa centroid của mẫu trước Rn 1 và centroid của mẫu Rn. Có thể giả
thiết rằng vùng sau dấu mẫu là vật liệu nền phơi ra khi đi qua mục tiêu. Thông tin này có thể được
cắt từ Rn sao cho nó chứa hầu hết các điểm ảnh mục tiêu (xem hình 3).
Hình 3. Chuyển động. Khi mục tiêu di chuyển, thông tin nền được bao gồm trong mẫu mới. Kiến
thức về chuyển động của dầu mỏ được sử dụng để cắt xén.
3. Phân loại mục tiêu
Có hai yếu tố chính để phân loại mục tiêu; một số ID nhà cung cấp số liệu xác định (x) được sử
dụng để loại bỏ các loại mục tiêu (trong trường hợp này, một thước đo rất đơn giản dựa trên hình
ảnh được sử dụng), và khái niệm về sự nhất quán thời gian. Nếu một mục tiêu tồn tại theo thời
gian, đó là một ứng cử viên tốt để phân loại. Nếu không, nó được coi là nền lộn xộn. Tại mỗi thời
điểm, nó được phân loại theo mã số (x). Các phân loại này được thu thập cho đến khi có thể đưa
ra quyết định thống kê về phân loại mục tiêu. Một phiên bản của MLE được sử dụng để đưa ra
quyết định phân loại.
3.1. Chỉ số cổ điển
Hình 4. Các giá trị phân tán điển hình cho một con người và một chiếc xe.
Để phân loại các mục tiêu trong các ứng dụng giám sát thực, điều quan trọng là phải sử dụng một
số liệu phân loại hợp lý không tốn kém, có hiệu quả hợp lý đối với các số lượng nhỏ các điểm ảnh
trên mục tiêu và không thay đổi đối với các điều kiện hoặc quan điểm về ánh sáng. Rõ ràng là các
loại mục tiêu rõ ràng nhất mà sẽ được quan tâm là con người và vehi cles [6, 11]. Vì lý do này,
một phân loại để phát hiện hai nhóm đã được thực hiện. Chỉ số này dựa trên kiến thức mà con
người nhìn chung là nhỏ hơn vehi, và chúng có hình dạng phức tạp hơn.
Một cách tiếp cận bi-variate được sử dụng, với tổng diện tích của mục tiêu trên một trục, và sự
phân tán của nó trên mặt khác. Dis persedness dựa trên các tham số hình dạng đích đơn giản và
được cho bởi Dispersedness = Perimeter2
A Khu vực
Rõ ràng, con người, với hình dạng phức tạp hơn, sẽ có độ phân tán lớn hơn một chiếc xe - xem
hình 4. Lưu ý rằng các hiệu ứng xen kẽ trong hình 4 được loại bỏ khỏi thủ tục bằng cách áp dụng
sự giãn nở hình thái tới các vùng lân cận. Hình 5 cho thấy sự phân bố của một mẫu huấn luyện
hơn 400 mục tiêu. Ngoài ra, được hiển thị là một đoạn mentation tuyến tính và một Mahalanobis
dựa trên khoảng cách phân đoạn mà cung cấp một phân cấp cao hơn cho phân loại mục đích.
Hình 5. Bi-variate dữ liệu cổ điển để đào tạo mẫu của hơn 400 hình ảnh. Cả hai dây tai và
Mahalanobis clustering được hiển thị.
3.2. Tính nhất quán thời gian
Khó khăn chính với phân loại là trong bất kỳ khung gle tội lỗi nào, ví dụ của một vùng chuyển
động cụ thể có thể không đại diện cho tính chất thật sự của nó. Ví dụ, một chiếc xe chật hẹp một
phần có thể trông giống như một con người, hoặc một số lộn xộn nền có thể xuất hiện một cách
ngắn gọn như một chiếc xe. Để vượt qua vấn đề này, một cách tiếp cận nhiều giả thuyết được sử
dụng.
Bước đầu tiên trong quá trình này là ghi lại tất cả các mục tiêu Nn tiềm năng Pn (i) = Rn (i) từ một
số khung ban đầu. Các khu vực này được phân loại theo ID nhà điều hành số liệu (x) (xem phần
3.1) và kết quả được ghi lại như là một giả thuyết phân loại (i) cho mỗi một.
(i) = fID (Pn (i)) g
Mỗi một trong những mục tiêu tiềm năng này phải được quan sát thấy trong khung cảnh phụ để
xác định liệu chúng có tồn tại hay không và tiếp tục phân loại chúng. Vì vậy, đối với các khung
mới, mỗi vùng chuyển động Pn 1 (i) được kết hợp với Rn không gian không gian chuyển động
hiện tại Rn (j) theo một quy tắc về ngưỡng đối tượng. Sau quá trình này, bất kỳ mục tiêu tiềm năng
trước đó Pn 1 chưa khớp với các khu vực hiện tại được coi là tạm thời và được loại bỏ khỏi danh
sách, và bất kỳ khu vực chuyển động thuê Rn nào chưa được đối sánh đều được coi là các mục
tiêu tiềm năng mới. Ở mỗi khung, các phân loại mới của chúng (theo toán tử số liệu) được sử dụng
để cập nhật giả thuyết phân loại.
(i) = f (i) g [fID (Pn (i)) g
Bằng cách này, số liệu thống kê của một mục tiêu tiềm năng cụ thể có thể được xây dựng trong
một khoảng thời gian cho đến khi có thể đưa ra quyết định về phân loại chính xác của nó. Hơn
nữa, các vùng di chuyển thoáng qua như cây thổi vào gió sẽ bị vứt đi.
3.3. Phân loại mục tiêu
Trong quá trình thực hiện này, một ứng dụng đơn giản của MLE được sử dụng để phân loại mục
tiêu. Một biểu đồ phân loại được tính cho mỗi vùng chuyển động tại mỗi thời điểm và nếu mục
tiêu tồn tại cho thời gian tclass, đỉnh của biểu đồ được sử dụng để phân loại mục tiêu. Hơn nữa, ở
mọi thời điểm sau khi tclass, đối tượng có thể được phân loại lại.
Hình 6. Quá trình phân loại. Chỉ sau khi một vài khung có thể đối tượng này được xác định chính
xác.
Một lợi thế của phương pháp này là nếu một đối tượng bị khóa tạm thời, nó sẽ không ảnh hưởng
xấu đến phân loại cuối cùng. Hình 6 cho thấy một tình huống mà một OBJECT ban đầu được phân
lớp sai bởi vì một phần tắc nghẽn, nhưng với thời gian, các số liệu thống kê phân loại lại trực tiếp
phân loại lại nó.
Một lợi ích nữa của phương pháp này là nó là mạnh mẽ để lộn xộn nền như lá thổi trong gió.
Những hiệu ứng này xuất hiện như chuyển động rất nhanh và không ổn định. Không chắc rằng
chuyển động này sẽ có mặt đủ lâu để được phân loại. Nếu nó vẫn tồn tại, nó sẽ không được phân
loại một cách nhất quán trong một khoảng thời gian dài.
Hình 7. Quá trình theo dõi. (a) Có bốn ứng cử viên mục tiêu ba mục tiêu di chuyển và vị trí mẫu
trước đó. (b) Bản mẫu hiện tại được so sánh với mỗi ứng cử viên. (c) mẫu hiện tại được cập nhật
bằng cách sử dụng một IIter lter.
4. Theo dõi
Phân vùng chuyển động sau đó được sử dụng làm bảng đào tạo cho người theo dõi. Theo dõi bao
gồm sự kết hợp của sự kết hợp tương quan dựa trên sự xuất hiện và phát hiện chuyển động.
Các vùng chuyển động có thể được sử dụng để hướng dẫn quá trình tương quan và cập nhật mẫu.
Sự kết hợp này làm cho tracker trở nên mạnh mẽ với những thay đổi về sự xuất hiện mục tiêu, sự
tắc nghẽn, và chấm dứt chuyển động mục tiêu. Quy trình được vạch ra trong hình 7. Các vùng
chuyển động ứng cử viên Rn (i) được lựa chọn và mỗi điểm tương ứng với mẫu hiện tại Rn 1 để
tìm một kết hợp tốt nhất. Tuy nhiên, điều này sẽ không đủ, nếu mục tiêu đã ngừng chuyển động,
do đó một vùng khác, được gọi là Rn (0), cũng được so sánh. Rn (0) được tạo thành từ các điểm
ảnh trong nI tương ứng với vị trí của Rn 1. Đó là, đó là một phần của hình ảnh trong đó mục tiêu
được sử dụng để được định vị. Một khi sự tương quan tốt nhất đã được tìm thấy từ tất cả các ứng
dụng, nó được sáp nhập với Rn 1 thông qua một bộ lọc phản ứng xung im vô hạn (IIR) (xem phần
4.1) để tạo ra Rn. Điều này được thực hiện để sự xuất hiện của mẫu tiếp tục để phù hợp với sự xuất
hiện của mục tiêu.
Sử dụng hình ảnh chuyển động để hướng dẫn các thuật toán phù hợp với mẫu mang theo nó một
số lợi thế khác biệt so với các kỹ thuật thông thường. Tương quan phù hợp nhấtphần chi phí tính
toán cao của thuật toán theo dõi; nếu kết hợp tương quan chỉ cần được thực hiện khi di chuyển các
mục tiêu được phát hiện, thời gian tính toán có thể được giảm lại. Ngoài ra, nếu kết hợp tương
quan là thiên vị đối với các khu vực nơi phát hiện chuyển động, nó có nhiều khả năng giữ lại các
tar nhận được và không "trôi dạt" vào nền. Hơn nữa, nếu cập nhật nội dung của mẫu được kết hợp
với chức năng chuyển động thì các mẫu có thể được xây dựng chỉ chứa các pixel "hoạt động" và
không chứa thông tin cơ bản.
4.1. Đang cập nhật mẫu
Trong quá trình triển khai này, việc cập nhật mẫu thích ứng được sử dụng để đảm bảo rằng mẫu
hiện tại chính xác biểu diễn hình ảnh mới của đối tượng. Vì vậy, mẫu Rn mới được tạo ra bằng
cách kết hợp các thể hiện trước đó Rn 1 với thông tin hiện tại từ Mn và In bằng cách sử dụng một
bộ lọc đáp ứng xung vô hạn dưới dạng
Rn = Mn + (1) Rn 1
Ảnh hưởng của bộ lọc IIR được thể hiện trong hình 8.
Hình 8. Bộ lọc IIR. Khi hình ảnh thay đổi từ mặt trong prole đến chế độ xem trước, mẫu được cập
nhật bằng IIR. Nếu im độ tuổi ổn định trong một thời gian, mẫu cũng vẫn ổn định.
5. Kết quả
Hệ thống đã được thực hiện trên một hệ thống Pentium 200Mhz trong Microsoft Windows 95 với
một bộ mã hóa Matrox Meteor. Hệ thống có thể phát hiện, phân loại và theo dõi các mục tiêu ở
tốc độ 14 khung hình / giây trên một hình ảnh 320 240 pixel. Hệ thống đã được áp dụng với số
lượng lớn video trực tiếp trong các môi trường không có cấu trúc, trong đó có hoạt động của con
người và xe cộ. Hơn sáu trăm trường hợp xe và người đàn ông đã được xác định và theo dõi mục
tiêu đã được hình thành trong suốt hơn 200 mục tiêu.
5.1. Sự cổ điển
Hình 9. Ví dụ về phân loại đích. Không có gì mà các nhóm người có thể được misclassi ed như
một chiếc xe.
Hình 9 cho thấy một số ví dụ về phân loại đích. Đối với các mục tiêu đơn lẻ, thuật toán này cung
cấp sự phân loại mạnh mẽ. Lưu ý rằng cây thổi vào gió được xác định lại chính xác như là nền lộn
xộn. Hơn nữa, phân loại chính xác phần lớn là độc lập với kích thước mục tiêu, tốc độ hoặc xem
khía cạnh ing. Tuy nhiên, khi nhiều mục tiêu của con người gần nhau, chúng có thể bị phân loại
sai như một chiếc xe. Có hai lý do cho việc này; việc phân cụm các vùng chuyển động là quá tự
do trong trường hợp này, kết hợp sai lầm với nhiều vùng và số liệu phân loại không đủ phức tạp
để đối phó với tình huống này. Một hạn chế nữa là các mục tiêu rất nhỏ (<5 5 pixel) có khuynh
hướng tạm thời không phù hợp và do đó bị từ chối.
Bảng 1 cho thấy kết quả của thuật toán phân loại được áp dụng cho hơn 4 giờ video trực tiếp trong
môi trường không có cấu trúc. Vấn đề chính với việc thừa nhận xe là khi những chiếc xe bị che
khuất một thời gian dài, đôi khi chúng bị loại. Con người nhỏ hơn nhiều so với xe cộ và thường
không được công nhận là vật thể tạm thời ổn định. Ngoài ra, con người có xu hướng di chuyển
trong các nhóm gần gũi có thể được phân loại sai là xe theo số liệu đơn giản.
Bảng 1. Kết quả cổ điển từ video trực tiếp trong môi trường phi cấu trúc.
Hình 10. Xác định và theo dõi của một hicle. Một chiếc xe được xếp loại và theo dõi vì nó ổ đĩa
khoảng 2 phút
5.2. Theo dõi
Trong hình 10, một chiếc xe được theo dõi khi nó di chuyển quanh một vị trí đo kiểm. Trong hình
10 (b) - (c) có các mục tiêu rõ ràng tương tự khác, tuy nhiên việc theo dõi mẫu không đi lạc bởi vì
nó được hướng dẫn bởi các vùng chuyển động. Ngay cả khi mục tiêu bị che khuất bởi một mục
tiêu tương tự, bộ theo dõi vẫn ổn định. Mục tiêu có thể được theo dõi qua các khoảng cách và
khoảng thời gian dài (2 phút - khoảng thời gian sống của mục tiêu), ngay cả khi nó trở nên nhỏ.
Trong hình 10 (d) nó chỉ là 4 9 pixel.
Trong hình 11, hai con người được phát hiện và một trong số chúng được theo dõi. Trong suốt
thời gian hoạt động của các mục tiêu này (4 phút), trình theo dõi không bị nhầm lẫn, ngay cả khi
một mục tiêu oc cludes khác, bởi vì thuật toán so khớp khuôn mẫu chính xác là mục tiêu trên một
sai.
6. Kết luận
Hai yếu tố chính làm cho hệ thống này trở nên mạnh mẽ là hệ thống phân loại dựa trên sự nhất
quán thời gian và hệ thống theo dõi dựa trên sự kết hợp giữa sự khác biệt thời gian và sự kết hợp
tương quan. Hệ thống có hiệu quả
Hình 11. Xác định và theo dõi hu mục tiêu của con người. Hai con người là những nhóm chính
xác sied và một trong số chúng được theo dõi khoảng 3 phút. kết hợp kiến thức miền đơn giản về
các lớp đối tượng với các biện pháp thống kê theo thời gian để phân loại mục tiêu cụ thể. Các mô
hình mục tiêu rất đơn giản và dựa hoàn toàn vào hình dạng đích để chúng có thể áp dụng cho một
số lượng lớn các ứng dụng video trên thực tế. Sử dụng kết hợp kiến thức miền miền và tính nhất
quán trong thời gian, các mục tiêu được xác định mạnh mẽ mặc dù có những điểm yếu và các vị
trí mơ hồ và sự lộn xộn của nền đã bị loại bỏ.
Sử dụng sự khác biệt theo thời gian để hướng dẫn sự tương hợp lation dựa trên thị giác có ba ưu
điểm chính; nó cho phép theo dõi liên tục mặc dù có những điểm dừng và chấm dứt mục tiêu, nó
sẽ ngăn cản các khuôn mẫu "trôi" vào nền và cung cấp khả năng theo dõi mạnh mẽ mà không cần
phải có bộ lọc thời gian tiên đoán như bộ lọc Kalman. Công việc tương lai liên quan đến việc sử
dụng lọc thời gian và xây dựng một số ý tưởng được trình bày trong [8] và [3] để đạt được tar nhận
diện và theo dõi mục tiêu nhiều.
References
[1] C. Anderson, P. Burt, and G. van der Wal. Change detection and tracking using pyramid
transformation techniques.
In Proceedings of SPIE - Intelligent Robots and Computer
Vision, volume 579, pages 72–78, 1985.
[2] D. Beymer, P. McLauchlan, B. Coifman, and J. Malik. A
real-time computer vision system for measuring traffic parameters. In Proceedings of IEEE CVPR
97, pages 495–501,
1997.
[3] C. Bregler. Learning and recognizing human dynamics in
video sequences. In Proceedings of IEEE CVPR 97, pages
568–574, 1997.
[4] J. Davis and A. Bobick. The representation and recognition
of human movement using temporal templates. In Proceed
ings of IEEE CVPR 97, pages 928 – 934, 1997.
[5] M. Hansen, P. Anandan, K. Dana, G. van der Wal, and
P. Burt. Real-time scene stabilization and mosaic construc
tion. In Proceedings of DARPA Image Understanding Work
shopp, 1994.
[6] I. Haritaoglu, L. S. Davis, and D. Harwood. w4 who? when?
where? what? a real time system for detecing and tracking
people. In FGR98 (submitted), 1998.
[7] K. Ikeuchi, T. Shakunaga, M. Wheeler, and T. Yamazaki.
Invariant histograms and deformable template matching for
sar target recognition. In Proceedings of IEEE CVPR 96,
pages 100–105, 1996.
[8] M. Isard and A. Blake. Contour tracking by stochastic prop
agation of conditional density. In Proceedings of European
Conference on Computer Vision 96, pages 343–356, 1996.
[9] T. Kanade, R. Collins, A. Lipton, P. Anandan, and P. Burt.
Cooperative multisensor video surveillance. In Proceedings
of DARPA Image UnderstandingWorkshop,volume 1, pages
3–10, May 1997.
[10] D. Koller, K. Danilidis, and H.-H. Nagel. Model-based ob
ject tracking in monocular image sequences of road traf
fic scenes. International Journal of Computer Vision,
10(3):257–281, 1993.
[11] M. Oren, C. Papageorgiou, P. Sinha, E. Osuna, and T. Pog
gio. Pedestrian detection using wavelet templates. In Pro
ceedings of IEEE CVPR 97, pages 193–199, 1997.
[12] K. Rangachar and R. C. Jain. Computer Vision; Principles.
IEEE Computer Society Press, 199.
[13] M. Turk and A. Pentland. Eigenfaces for recognition. Jour
nal of Cognitive Neuroscience, 3(1):71–86, 1991.
[14] C. Wren, A. Azarbayejani, T. Darrell, and A. Pentland.
Pfinder: Real-time tracking of the human body. IEEE
Transactions on Pattern Analysis and Machine Intelligence,
19(7):780–785, 1997.

More Related Content

Similar to 4 phan loai va theo doi muc tieu

Computer Vision Report
Computer Vision ReportComputer Vision Report
Computer Vision ReportMan_Ebook
 
Nhận dạng mặt người bằng thuật toán PCA trên Matlab
Nhận dạng mặt người bằng thuật toán PCA trên MatlabNhận dạng mặt người bằng thuật toán PCA trên Matlab
Nhận dạng mặt người bằng thuật toán PCA trên Matlabhieu anh
 
Nghiên Cứu Trích Chọn Đặc Tính Trong Nhận Dạng Hành Động Người Trong Không Gi...
Nghiên Cứu Trích Chọn Đặc Tính Trong Nhận Dạng Hành Động Người Trong Không Gi...Nghiên Cứu Trích Chọn Đặc Tính Trong Nhận Dạng Hành Động Người Trong Không Gi...
Nghiên Cứu Trích Chọn Đặc Tính Trong Nhận Dạng Hành Động Người Trong Không Gi...Dịch vụ viết đề tài trọn gói 0934.573.149
 
Đề tài: Nhận dạng ảnh mặt người sử dụng mạng nơron, HAY
Đề tài: Nhận dạng ảnh mặt người sử dụng mạng nơron, HAYĐề tài: Nhận dạng ảnh mặt người sử dụng mạng nơron, HAY
Đề tài: Nhận dạng ảnh mặt người sử dụng mạng nơron, HAYViết thuê trọn gói ZALO 0934573149
 
DO_AN_TOT_NGHIEP-1 (1).pptx
DO_AN_TOT_NGHIEP-1 (1).pptxDO_AN_TOT_NGHIEP-1 (1).pptx
DO_AN_TOT_NGHIEP-1 (1).pptxKhiVu2
 
SVM trong tìm kiếm ảnh dựa vào nội dung
SVM trong tìm kiếm ảnh dựa vào nội dungSVM trong tìm kiếm ảnh dựa vào nội dung
SVM trong tìm kiếm ảnh dựa vào nội dungCngBic2
 
Mau pptx sinh viên báo cáo NCKH.pptx
Mau pptx sinh viên báo cáo NCKH.pptxMau pptx sinh viên báo cáo NCKH.pptx
Mau pptx sinh viên báo cáo NCKH.pptxNhtNguyn793799
 
Đề tài khoa học tiềm năng: Nghiên cứu xây dựng hệ thống Quảng cáo ảnh theo nộ...
Đề tài khoa học tiềm năng: Nghiên cứu xây dựng hệ thống Quảng cáo ảnh theo nộ...Đề tài khoa học tiềm năng: Nghiên cứu xây dựng hệ thống Quảng cáo ảnh theo nộ...
Đề tài khoa học tiềm năng: Nghiên cứu xây dựng hệ thống Quảng cáo ảnh theo nộ...Nguyen Trung
 
Huong dan-su-dung-phan-mem-vien-tham-env
Huong dan-su-dung-phan-mem-vien-tham-envHuong dan-su-dung-phan-mem-vien-tham-env
Huong dan-su-dung-phan-mem-vien-tham-envLam Ly
 
Chuong 3- CSDL phân tán
Chuong 3- CSDL phân tánChuong 3- CSDL phân tán
Chuong 3- CSDL phân tánduysu
 

Similar to 4 phan loai va theo doi muc tieu (20)

Computer Vision Report
Computer Vision ReportComputer Vision Report
Computer Vision Report
 
Nhận dạng mặt người bằng thuật toán PCA trên Matlab
Nhận dạng mặt người bằng thuật toán PCA trên MatlabNhận dạng mặt người bằng thuật toán PCA trên Matlab
Nhận dạng mặt người bằng thuật toán PCA trên Matlab
 
Đề tài: Nhận dạng mặt người trên matlab, HOT, 9đ
Đề tài: Nhận dạng mặt người trên matlab, HOT, 9đĐề tài: Nhận dạng mặt người trên matlab, HOT, 9đ
Đề tài: Nhận dạng mặt người trên matlab, HOT, 9đ
 
Nghiên Cứu Trích Chọn Đặc Tính Trong Nhận Dạng Hành Động Người Trong Không Gi...
Nghiên Cứu Trích Chọn Đặc Tính Trong Nhận Dạng Hành Động Người Trong Không Gi...Nghiên Cứu Trích Chọn Đặc Tính Trong Nhận Dạng Hành Động Người Trong Không Gi...
Nghiên Cứu Trích Chọn Đặc Tính Trong Nhận Dạng Hành Động Người Trong Không Gi...
 
Đồ án môn thị giác máy tính nhận dạng mặt người trên matlab.docx
Đồ án môn thị giác máy tính nhận dạng mặt người trên matlab.docxĐồ án môn thị giác máy tính nhận dạng mặt người trên matlab.docx
Đồ án môn thị giác máy tính nhận dạng mặt người trên matlab.docx
 
Đồ Án Nhận Dạng Mặt Người Trên Matlab
Đồ Án Nhận Dạng Mặt Người Trên MatlabĐồ Án Nhận Dạng Mặt Người Trên Matlab
Đồ Án Nhận Dạng Mặt Người Trên Matlab
 
Đề tài: Nhận dạng ảnh mặt người sử dụng mạng nơron, HAY
Đề tài: Nhận dạng ảnh mặt người sử dụng mạng nơron, HAYĐề tài: Nhận dạng ảnh mặt người sử dụng mạng nơron, HAY
Đề tài: Nhận dạng ảnh mặt người sử dụng mạng nơron, HAY
 
Nhom14-_Full.pptx
Nhom14-_Full.pptxNhom14-_Full.pptx
Nhom14-_Full.pptx
 
Phân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thám
Phân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thámPhân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thám
Phân cụm đa mô hình và ứng dụng trong phân đoạn ảnh viễn thám
 
Đề tài: Nội dung về ảnh panorama và kỹ thuật ghép ảnh, HOT
Đề tài: Nội dung về ảnh panorama và kỹ thuật ghép ảnh, HOTĐề tài: Nội dung về ảnh panorama và kỹ thuật ghép ảnh, HOT
Đề tài: Nội dung về ảnh panorama và kỹ thuật ghép ảnh, HOT
 
DO_AN_TOT_NGHIEP-1 (1).pptx
DO_AN_TOT_NGHIEP-1 (1).pptxDO_AN_TOT_NGHIEP-1 (1).pptx
DO_AN_TOT_NGHIEP-1 (1).pptx
 
SVM trong tìm kiếm ảnh dựa vào nội dung
SVM trong tìm kiếm ảnh dựa vào nội dungSVM trong tìm kiếm ảnh dựa vào nội dung
SVM trong tìm kiếm ảnh dựa vào nội dung
 
Luận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đ
Luận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đLuận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đ
Luận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đ
 
Mau pptx sinh viên báo cáo NCKH.pptx
Mau pptx sinh viên báo cáo NCKH.pptxMau pptx sinh viên báo cáo NCKH.pptx
Mau pptx sinh viên báo cáo NCKH.pptx
 
Đề tài khoa học tiềm năng: Nghiên cứu xây dựng hệ thống Quảng cáo ảnh theo nộ...
Đề tài khoa học tiềm năng: Nghiên cứu xây dựng hệ thống Quảng cáo ảnh theo nộ...Đề tài khoa học tiềm năng: Nghiên cứu xây dựng hệ thống Quảng cáo ảnh theo nộ...
Đề tài khoa học tiềm năng: Nghiên cứu xây dựng hệ thống Quảng cáo ảnh theo nộ...
 
Khai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng, HAY
Khai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng, HAYKhai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng, HAY
Khai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng, HAY
 
Huong dan-su-dung-phan-mem-vien-tham-env
Huong dan-su-dung-phan-mem-vien-tham-envHuong dan-su-dung-phan-mem-vien-tham-env
Huong dan-su-dung-phan-mem-vien-tham-env
 
Luận án: Nghiên cứu thuật toán giảm bậc mô hình và ứng dụng
Luận án: Nghiên cứu thuật toán giảm bậc mô hình và ứng dụngLuận án: Nghiên cứu thuật toán giảm bậc mô hình và ứng dụng
Luận án: Nghiên cứu thuật toán giảm bậc mô hình và ứng dụng
 
Video 1
Video 1Video 1
Video 1
 
Chuong 3- CSDL phân tán
Chuong 3- CSDL phân tánChuong 3- CSDL phân tán
Chuong 3- CSDL phân tán
 

4 phan loai va theo doi muc tieu

  • 1. Di chuyển Phân loại mục tiêu và Theo dõi từ Video theo thời gian thực trừu tượng Bài báo này mô tả phương pháp cuối cùng để trích xuất các mục tiêu di chuyển từ luồng video thời gian thực, phân loại chúng thành các loại được xác định trước dựa theo các thuộc tính dựa trên hình ảnh và sau đó mạnh mẽ theo dõi chúng. Di chuyển mục tiêu được phát hiện bằng cách sử dụng sự khác biệt khôn ngoan pixel giữa các khung hình liên tiếp. Một chỉ số phân loại được áp dụng cho các mục tiêu này với một sự ràng buộc nhất quán thời gian để phân loại chúng thành ba loại: con người, xe hoặc nền lộn xộn. Sau khi phân loại, các mục tiêu được theo dõi bởi sự kết hợp của sự phân biệt thời gian và mẫu phù hợp. Hệ thống kết quả mạnh xác định các mục tiêu liên quan, loại bỏ sự lộn xộn nền, và liên tục theo dõi trên một khoảng cách lớn và khoảng thời gian bất chấp những sự đóng góp, sự thay đổi và sự chấm dứt chuyển động mục tiêu. 1. Giới thiệu Sự sẵn có của các bộ cảm biến video và phần cứng xử lý video theo yêu cầu cao mở ra nhiều khả năng thú vị để giải quyết nhiều vấn đề về hiểu biết về hình ảnh [9]. Điều quan trọng là phải phát triển video thời gian thực mạnh mẽ theo kỹ thuật đứng để có thể xử lý lượng dữ liệu lớn có thể đạt được. Trung tâm cho nhiều vấn đề về hiểu biết về video là các chủ đề phân loại mục tiêu và theo dõi. Trong lịch sử, việc phân loại mục tiêu đã được thực hiện trên các hình ảnh đơn hoặc hình ảnh tĩnh [12, 7]. Gần đây, bao giờ hết, các luồng video đã được khai thác để phát hiện mục tiêu [6, 14, 10]. Nhiều phương pháp như thế này tốn rất nhiều chi phí và không thể áp dụng cho các ứng dụng thời gian thực hoặc yêu cầu phần cứng chuyên dụng hoạt động trong thời gian thực làm main. Tuy nhiên, các phương pháp như Pfinder [14], W 4 [6] vàBeymer và cộng sự [2] được thiết kế để trích xuất các mục tiêu trong thời gian thực. Triết lý đằng sau những kỹ thuật này là sự phân chia của một hình ảnh, hoặc luồng video, thành đối tượng Vs. không đối tượng khu vực. Điều này được dựa trên các khu vực tương ứng với các mô hình mục tiêu chi tiết hợp lý. Một yêu cầu khác của các hệ thống này là, nói chung, có một số lượng hợp lý số lượng điểm ảnh trên mục tiêu. Đối với cả hai người này, những phương pháp này sẽ không phù hợp trong một hệ thống giám sát ngoài trời chung vì có rất nhiều loại mục tiêu khác nhau có thể rất quan trọng và thường không thể có được một số lượng lớn các điểm ảnh trên Mục tiêu. Cách tiếp cận tốt hơn là cách phân loại dựa trên các quy tắc đơn giản, phần lớn độc lập với mô hình 3D hay mô hình 3D. Do đó, số liệu phân loại được khám phá trong bài báo này, dựa hoàn toàn vào hình dạng của mục tiêu, chứ không phải nội dung hình ảnh. Hơn nữa, thành phần thời gian của video cho phép hạn chế nhất quán thời gian [4] được sử dụng trong cách tiếp cận phân loại. Nhiều giả thuyết về phân loại của đối tượng có thể được duy trì theo
  • 2. thời gian cho đến khi hệ thống tin rằng nó có thể phân loại chính xác mục tiêu. Điều này cho phép hệ thống xác định mục tiêu trong trường hợp occlusions hoặc nền lộn xộn. Nhiều hệ thống theo dõi mục tiêu dựa trên các bộ lọc Kalman, nhưng như được chỉ ra bởi [8], chúng được sử dụng hạn chế vì chúng dựa trên mật độ Gaussian đơn và do đó không thể hỗ trợ các chuyển động thay thế đồng thời. Một vài phương pháp tiếp cận khác đã được đưa ra, ví dụ như (a) Isard và Blake [8] trình bày một thuật toán mới stochas tic để theo dõi mạnh mẽ hơn so với phương pháp tiếp cận dựa trên bộ lọc Kalman trước, và (b) Bregler [3] thể hiện một sự phân hủy có tính xác suất của động lực học của con người để học hỏi và nhận ra con người (hoặc các bước đi của chúng) trong video chuỗi. Bài báo này trình bày một phương pháp đơn giản hơn nhiều dựa trênsự kết hợp của sự phân biệt thời gian và kết hợp khuôn mẫu hình ảnh đạt được sự theo dõi đạt yêu cầu cao hình thức trong sự hiện diện của lộn xộn và cho phép tốt clas sification. Vì vậy, tránh việc sử dụng Kalman lọc hoặc các phương pháp tiếp cận prob abilistic khác. Hai trong số các phương pháp cơ bản để theo dõi mục tiêu trong các ứng dụng video theo thời gian thực là sự khác biệt thời gian (DT) [1] và tương quan mẫu tương ứng. Trong cách tiếp cận cũ, khung hình video được phân tách bằng một khoảng thời gian liên tục t được so sánh với các khu vực đã thay đổi. Trong cách tiếp cận thứ hai, mỗi hình ảnh video được quét cho khu vực có liên quan đến mẫu hình ảnh tốt nhất. Độc lập, những phương pháp này có những thiếu sót đáng kể. DT theo dõi là không thể nếu có chuyển động máy ảnh quan trọng, trừ khi một thuật toán ổn định hình ảnh thích hợp được sử dụng [5]. Nó cũng thất bại nếu mục tiêu trở nên bị che khuất hoặc ngừng chuyển động của nó. Tương quan mẫu phù hợp với gen erally yêu cầu sự xuất hiện của đối tượng đích không đổi. Phương pháp nói chung không mạnh mẽ đối với những thay đổi về kích thước, hướng hay thậm chí thay đổi các điều kiện ánh sáng. Tuy nhiên, tính theo dõi của hai phương pháp này là bổ sung. Khi mục tiêu là tĩnh, mẫu phù hợp là lúc mạnh nhất của nó trong khi DT sẽ thất bại. Và khi mục tiêu đang chuyển động, DT sẽ thành công khi kết hợp các thanh tiêu đề sẽ có xu hướng "trôi dạt". Đây là động lực để kết hợp hai phương pháp. Ý tưởng là sử dụng DT để phát hiện các mục tiêu chuyển động và đào tạo khuôn mẫu phù hợp với algo rithm. Các mục tiêu này sau đó được theo dõi bằng cách sử dụng mẫu phù hợp ing hướng dẫn bởi giai đoạn DT. Sự kết hợp này bỏ quaing được hướng dẫn bởi giai đoạn DT. Sự kết hợp này loại bỏ sự cần thiết của việc lọc dự đoán trong quy trình theo dõi vì theo dõi được hướng dẫn bằng phát hiện chuyển động. Mô hình đơn giản này tạo ra kết quả đáng kể. Bài báo này mô tả một hệ thống để theo dõi mạnh mẽ chất bồ hóng trong luồng video và phân loại các mục tiêu thành "hu mans" và "vehicles" cho một ứng dụng giám sát video ngoài trời. Theo dõi mục tiêu dựa trên hai nguyên tắc chính; (a) sự nhất quán trong thời gian cung cấp một cách phân loại các mục tiêu di chuyển mạnh mẽ trong khi loại trừ xung đột nền, và (b) sự kết hợp phát hiện chuyển động với sự kết hợp khuôn mẫu dựa trên hình ảnh cung cấp một chương trình theo dõi mục tiêu mạnh mẽ. Phân loại mục tiêu dựa trên một ứng dụng đơn giản ước lượng khả năng ước lượng tối đa sau khi tính toán một thước đo đơn giản dựa trên chỉ tiêu cho mỗi mục tiêu. 1.1. Tổng quan về Hệ thống
  • 3. Hệ thống được đề xuất trong bài báo này bao gồm ba giai đoạn như được phác thảo trong hình 1. Trong giai đoạn đầu tiên, tất cả các đối tượng di chuyển được phát hiện bằng cách sử dụng một thuật toán algo rithm theo thời gian. Đây được mô tả là các vùng chuyển động. Mỗi một được phân loại tại mỗi khung thời gian bằng cách sử dụng một số liệu phân loại dựa trên hình ảnh. Phân loại cho mỗi chuyển động cá nhân Hình 1. Tổng quan về hệ thống nhận diện và theo dõi. Di chuyển các đối tượng được phát hiện trong một dòng video bằng cách sử dụng sự khác biệt thời gian. Các mục tiêu sau đó được phân loại theo một số liệu phân loại. Những mục tiêu này có thể được theo dõi bằng cách sử dụng một sự kết hợp của thông tin chuyển động tương quan và tương quan dựa trên hình ảnh khu vực được ghi lại trong một khoảng thời gian và Tiêu chí ước lượng Khả năng Sinh sản Tối đa Tối đa (MLE) đơn giản được sử dụng để phân loại chính xác từng mục tiêu. Khi khu vực chuyển động đã được phân loại, nó có thể được sử dụng làm mẫu đào tạo cho quá trình theo dõi. Quá trình theo dõi bao gồm sự kết hợp tương quan giữa một mẫu và các chuyển động hiện tại (do DT thu được). Vùng chuyển động có độ tương quan tốt nhất được theo dõi và được sử dụng để cập nhật mẫu cho việc theo dõi tiếp theo 2. Phân biệt thời gian Có rất nhiều biến thể trên phương pháp DT, nhưng điểm yếu của sim là để có khung hình liên tiếp và xác định sự khác biệt tuyệt đối. Một chức năng ngưỡng sau đó được sử dụng để thay đổi termine. Nếu In là cường độ của khung thứ n, sau đó chức năng điểm ảnh khôn ngoan khôn ngoan n n = jIn In 1j và một hình ảnh chuyển động Mn có thể được chiết xuất bằng cách ngưỡng Ngưỡng T đã được xác định theo kinh nghiệm là 15% phạm vi độ sáng của bộ mã hoá. Đối với một số hóa cung cấp 255 màu xám cấp, một giá trị T 40 nên được sử dụng.
  • 4. Hình 2. Các vùng chuyển động. Lưu ý rằng nhiều thông tin cơ bản không được đưa vào mẫu. Sau khi hình ảnh chuyển động được xác định, các phần di chuyển được nhóm lại thành các vùng chuyển động Rn (i). Điều này được thực hiện bằng cách sử dụng một tiêu chí kết nối thành phần. Hình 2 cho thấy kết quả của việc tách các vùng chuyển động. Một vấn đề với phát hiện chuyển động DT là nó có xu hướng bao gồm các vùng nền không mong muốn ở ngoại vi của đối tượng mà đối tượng đã "đã được". Số lượng lớn thông tin cơ bản này trong mẫu là một trong những nguyên nhân của mẫu "trôi dạt". Một cách để giảm bớt vấn đề này là sử dụng kiến thức về chuyển động của mục tiêu để cắt các vùng nền này khỏi khuôn mẫu. Vector vận tốc hình ảnh 2D của đích (_u; v_) (pixels / frame) có thể được xác định xấp xỉ bằng cách tính toán sự khác biệt giữa centroid của mẫu trước Rn 1 và centroid của mẫu Rn. Có thể giả thiết rằng vùng sau dấu mẫu là vật liệu nền phơi ra khi đi qua mục tiêu. Thông tin này có thể được cắt từ Rn sao cho nó chứa hầu hết các điểm ảnh mục tiêu (xem hình 3). Hình 3. Chuyển động. Khi mục tiêu di chuyển, thông tin nền được bao gồm trong mẫu mới. Kiến thức về chuyển động của dầu mỏ được sử dụng để cắt xén. 3. Phân loại mục tiêu Có hai yếu tố chính để phân loại mục tiêu; một số ID nhà cung cấp số liệu xác định (x) được sử dụng để loại bỏ các loại mục tiêu (trong trường hợp này, một thước đo rất đơn giản dựa trên hình ảnh được sử dụng), và khái niệm về sự nhất quán thời gian. Nếu một mục tiêu tồn tại theo thời gian, đó là một ứng cử viên tốt để phân loại. Nếu không, nó được coi là nền lộn xộn. Tại mỗi thời điểm, nó được phân loại theo mã số (x). Các phân loại này được thu thập cho đến khi có thể đưa ra quyết định thống kê về phân loại mục tiêu. Một phiên bản của MLE được sử dụng để đưa ra quyết định phân loại. 3.1. Chỉ số cổ điển Hình 4. Các giá trị phân tán điển hình cho một con người và một chiếc xe.
  • 5. Để phân loại các mục tiêu trong các ứng dụng giám sát thực, điều quan trọng là phải sử dụng một số liệu phân loại hợp lý không tốn kém, có hiệu quả hợp lý đối với các số lượng nhỏ các điểm ảnh trên mục tiêu và không thay đổi đối với các điều kiện hoặc quan điểm về ánh sáng. Rõ ràng là các loại mục tiêu rõ ràng nhất mà sẽ được quan tâm là con người và vehi cles [6, 11]. Vì lý do này, một phân loại để phát hiện hai nhóm đã được thực hiện. Chỉ số này dựa trên kiến thức mà con người nhìn chung là nhỏ hơn vehi, và chúng có hình dạng phức tạp hơn. Một cách tiếp cận bi-variate được sử dụng, với tổng diện tích của mục tiêu trên một trục, và sự phân tán của nó trên mặt khác. Dis persedness dựa trên các tham số hình dạng đích đơn giản và được cho bởi Dispersedness = Perimeter2 A Khu vực Rõ ràng, con người, với hình dạng phức tạp hơn, sẽ có độ phân tán lớn hơn một chiếc xe - xem hình 4. Lưu ý rằng các hiệu ứng xen kẽ trong hình 4 được loại bỏ khỏi thủ tục bằng cách áp dụng sự giãn nở hình thái tới các vùng lân cận. Hình 5 cho thấy sự phân bố của một mẫu huấn luyện hơn 400 mục tiêu. Ngoài ra, được hiển thị là một đoạn mentation tuyến tính và một Mahalanobis dựa trên khoảng cách phân đoạn mà cung cấp một phân cấp cao hơn cho phân loại mục đích. Hình 5. Bi-variate dữ liệu cổ điển để đào tạo mẫu của hơn 400 hình ảnh. Cả hai dây tai và Mahalanobis clustering được hiển thị. 3.2. Tính nhất quán thời gian Khó khăn chính với phân loại là trong bất kỳ khung gle tội lỗi nào, ví dụ của một vùng chuyển động cụ thể có thể không đại diện cho tính chất thật sự của nó. Ví dụ, một chiếc xe chật hẹp một phần có thể trông giống như một con người, hoặc một số lộn xộn nền có thể xuất hiện một cách ngắn gọn như một chiếc xe. Để vượt qua vấn đề này, một cách tiếp cận nhiều giả thuyết được sử dụng.
  • 6. Bước đầu tiên trong quá trình này là ghi lại tất cả các mục tiêu Nn tiềm năng Pn (i) = Rn (i) từ một số khung ban đầu. Các khu vực này được phân loại theo ID nhà điều hành số liệu (x) (xem phần 3.1) và kết quả được ghi lại như là một giả thuyết phân loại (i) cho mỗi một. (i) = fID (Pn (i)) g Mỗi một trong những mục tiêu tiềm năng này phải được quan sát thấy trong khung cảnh phụ để xác định liệu chúng có tồn tại hay không và tiếp tục phân loại chúng. Vì vậy, đối với các khung mới, mỗi vùng chuyển động Pn 1 (i) được kết hợp với Rn không gian không gian chuyển động hiện tại Rn (j) theo một quy tắc về ngưỡng đối tượng. Sau quá trình này, bất kỳ mục tiêu tiềm năng trước đó Pn 1 chưa khớp với các khu vực hiện tại được coi là tạm thời và được loại bỏ khỏi danh sách, và bất kỳ khu vực chuyển động thuê Rn nào chưa được đối sánh đều được coi là các mục tiêu tiềm năng mới. Ở mỗi khung, các phân loại mới của chúng (theo toán tử số liệu) được sử dụng để cập nhật giả thuyết phân loại. (i) = f (i) g [fID (Pn (i)) g Bằng cách này, số liệu thống kê của một mục tiêu tiềm năng cụ thể có thể được xây dựng trong một khoảng thời gian cho đến khi có thể đưa ra quyết định về phân loại chính xác của nó. Hơn nữa, các vùng di chuyển thoáng qua như cây thổi vào gió sẽ bị vứt đi. 3.3. Phân loại mục tiêu Trong quá trình thực hiện này, một ứng dụng đơn giản của MLE được sử dụng để phân loại mục tiêu. Một biểu đồ phân loại được tính cho mỗi vùng chuyển động tại mỗi thời điểm và nếu mục tiêu tồn tại cho thời gian tclass, đỉnh của biểu đồ được sử dụng để phân loại mục tiêu. Hơn nữa, ở mọi thời điểm sau khi tclass, đối tượng có thể được phân loại lại. Hình 6. Quá trình phân loại. Chỉ sau khi một vài khung có thể đối tượng này được xác định chính xác. Một lợi thế của phương pháp này là nếu một đối tượng bị khóa tạm thời, nó sẽ không ảnh hưởng xấu đến phân loại cuối cùng. Hình 6 cho thấy một tình huống mà một OBJECT ban đầu được phân
  • 7. lớp sai bởi vì một phần tắc nghẽn, nhưng với thời gian, các số liệu thống kê phân loại lại trực tiếp phân loại lại nó. Một lợi ích nữa của phương pháp này là nó là mạnh mẽ để lộn xộn nền như lá thổi trong gió. Những hiệu ứng này xuất hiện như chuyển động rất nhanh và không ổn định. Không chắc rằng chuyển động này sẽ có mặt đủ lâu để được phân loại. Nếu nó vẫn tồn tại, nó sẽ không được phân loại một cách nhất quán trong một khoảng thời gian dài. Hình 7. Quá trình theo dõi. (a) Có bốn ứng cử viên mục tiêu ba mục tiêu di chuyển và vị trí mẫu trước đó. (b) Bản mẫu hiện tại được so sánh với mỗi ứng cử viên. (c) mẫu hiện tại được cập nhật bằng cách sử dụng một IIter lter. 4. Theo dõi Phân vùng chuyển động sau đó được sử dụng làm bảng đào tạo cho người theo dõi. Theo dõi bao gồm sự kết hợp của sự kết hợp tương quan dựa trên sự xuất hiện và phát hiện chuyển động. Các vùng chuyển động có thể được sử dụng để hướng dẫn quá trình tương quan và cập nhật mẫu. Sự kết hợp này làm cho tracker trở nên mạnh mẽ với những thay đổi về sự xuất hiện mục tiêu, sự tắc nghẽn, và chấm dứt chuyển động mục tiêu. Quy trình được vạch ra trong hình 7. Các vùng chuyển động ứng cử viên Rn (i) được lựa chọn và mỗi điểm tương ứng với mẫu hiện tại Rn 1 để tìm một kết hợp tốt nhất. Tuy nhiên, điều này sẽ không đủ, nếu mục tiêu đã ngừng chuyển động, do đó một vùng khác, được gọi là Rn (0), cũng được so sánh. Rn (0) được tạo thành từ các điểm ảnh trong nI tương ứng với vị trí của Rn 1. Đó là, đó là một phần của hình ảnh trong đó mục tiêu được sử dụng để được định vị. Một khi sự tương quan tốt nhất đã được tìm thấy từ tất cả các ứng dụng, nó được sáp nhập với Rn 1 thông qua một bộ lọc phản ứng xung im vô hạn (IIR) (xem phần 4.1) để tạo ra Rn. Điều này được thực hiện để sự xuất hiện của mẫu tiếp tục để phù hợp với sự xuất hiện của mục tiêu.
  • 8. Sử dụng hình ảnh chuyển động để hướng dẫn các thuật toán phù hợp với mẫu mang theo nó một số lợi thế khác biệt so với các kỹ thuật thông thường. Tương quan phù hợp nhấtphần chi phí tính toán cao của thuật toán theo dõi; nếu kết hợp tương quan chỉ cần được thực hiện khi di chuyển các mục tiêu được phát hiện, thời gian tính toán có thể được giảm lại. Ngoài ra, nếu kết hợp tương quan là thiên vị đối với các khu vực nơi phát hiện chuyển động, nó có nhiều khả năng giữ lại các tar nhận được và không "trôi dạt" vào nền. Hơn nữa, nếu cập nhật nội dung của mẫu được kết hợp với chức năng chuyển động thì các mẫu có thể được xây dựng chỉ chứa các pixel "hoạt động" và không chứa thông tin cơ bản. 4.1. Đang cập nhật mẫu Trong quá trình triển khai này, việc cập nhật mẫu thích ứng được sử dụng để đảm bảo rằng mẫu hiện tại chính xác biểu diễn hình ảnh mới của đối tượng. Vì vậy, mẫu Rn mới được tạo ra bằng cách kết hợp các thể hiện trước đó Rn 1 với thông tin hiện tại từ Mn và In bằng cách sử dụng một bộ lọc đáp ứng xung vô hạn dưới dạng Rn = Mn + (1) Rn 1 Ảnh hưởng của bộ lọc IIR được thể hiện trong hình 8. Hình 8. Bộ lọc IIR. Khi hình ảnh thay đổi từ mặt trong prole đến chế độ xem trước, mẫu được cập nhật bằng IIR. Nếu im độ tuổi ổn định trong một thời gian, mẫu cũng vẫn ổn định. 5. Kết quả Hệ thống đã được thực hiện trên một hệ thống Pentium 200Mhz trong Microsoft Windows 95 với một bộ mã hóa Matrox Meteor. Hệ thống có thể phát hiện, phân loại và theo dõi các mục tiêu ở tốc độ 14 khung hình / giây trên một hình ảnh 320 240 pixel. Hệ thống đã được áp dụng với số lượng lớn video trực tiếp trong các môi trường không có cấu trúc, trong đó có hoạt động của con người và xe cộ. Hơn sáu trăm trường hợp xe và người đàn ông đã được xác định và theo dõi mục tiêu đã được hình thành trong suốt hơn 200 mục tiêu. 5.1. Sự cổ điển
  • 9. Hình 9. Ví dụ về phân loại đích. Không có gì mà các nhóm người có thể được misclassi ed như một chiếc xe. Hình 9 cho thấy một số ví dụ về phân loại đích. Đối với các mục tiêu đơn lẻ, thuật toán này cung cấp sự phân loại mạnh mẽ. Lưu ý rằng cây thổi vào gió được xác định lại chính xác như là nền lộn xộn. Hơn nữa, phân loại chính xác phần lớn là độc lập với kích thước mục tiêu, tốc độ hoặc xem khía cạnh ing. Tuy nhiên, khi nhiều mục tiêu của con người gần nhau, chúng có thể bị phân loại sai như một chiếc xe. Có hai lý do cho việc này; việc phân cụm các vùng chuyển động là quá tự do trong trường hợp này, kết hợp sai lầm với nhiều vùng và số liệu phân loại không đủ phức tạp để đối phó với tình huống này. Một hạn chế nữa là các mục tiêu rất nhỏ (<5 5 pixel) có khuynh hướng tạm thời không phù hợp và do đó bị từ chối. Bảng 1 cho thấy kết quả của thuật toán phân loại được áp dụng cho hơn 4 giờ video trực tiếp trong môi trường không có cấu trúc. Vấn đề chính với việc thừa nhận xe là khi những chiếc xe bị che khuất một thời gian dài, đôi khi chúng bị loại. Con người nhỏ hơn nhiều so với xe cộ và thường không được công nhận là vật thể tạm thời ổn định. Ngoài ra, con người có xu hướng di chuyển trong các nhóm gần gũi có thể được phân loại sai là xe theo số liệu đơn giản. Bảng 1. Kết quả cổ điển từ video trực tiếp trong môi trường phi cấu trúc.
  • 10. Hình 10. Xác định và theo dõi của một hicle. Một chiếc xe được xếp loại và theo dõi vì nó ổ đĩa khoảng 2 phút 5.2. Theo dõi Trong hình 10, một chiếc xe được theo dõi khi nó di chuyển quanh một vị trí đo kiểm. Trong hình 10 (b) - (c) có các mục tiêu rõ ràng tương tự khác, tuy nhiên việc theo dõi mẫu không đi lạc bởi vì nó được hướng dẫn bởi các vùng chuyển động. Ngay cả khi mục tiêu bị che khuất bởi một mục tiêu tương tự, bộ theo dõi vẫn ổn định. Mục tiêu có thể được theo dõi qua các khoảng cách và khoảng thời gian dài (2 phút - khoảng thời gian sống của mục tiêu), ngay cả khi nó trở nên nhỏ. Trong hình 10 (d) nó chỉ là 4 9 pixel. Trong hình 11, hai con người được phát hiện và một trong số chúng được theo dõi. Trong suốt thời gian hoạt động của các mục tiêu này (4 phút), trình theo dõi không bị nhầm lẫn, ngay cả khi một mục tiêu oc cludes khác, bởi vì thuật toán so khớp khuôn mẫu chính xác là mục tiêu trên một sai. 6. Kết luận Hai yếu tố chính làm cho hệ thống này trở nên mạnh mẽ là hệ thống phân loại dựa trên sự nhất quán thời gian và hệ thống theo dõi dựa trên sự kết hợp giữa sự khác biệt thời gian và sự kết hợp tương quan. Hệ thống có hiệu quả
  • 11. Hình 11. Xác định và theo dõi hu mục tiêu của con người. Hai con người là những nhóm chính xác sied và một trong số chúng được theo dõi khoảng 3 phút. kết hợp kiến thức miền đơn giản về các lớp đối tượng với các biện pháp thống kê theo thời gian để phân loại mục tiêu cụ thể. Các mô hình mục tiêu rất đơn giản và dựa hoàn toàn vào hình dạng đích để chúng có thể áp dụng cho một số lượng lớn các ứng dụng video trên thực tế. Sử dụng kết hợp kiến thức miền miền và tính nhất quán trong thời gian, các mục tiêu được xác định mạnh mẽ mặc dù có những điểm yếu và các vị trí mơ hồ và sự lộn xộn của nền đã bị loại bỏ. Sử dụng sự khác biệt theo thời gian để hướng dẫn sự tương hợp lation dựa trên thị giác có ba ưu điểm chính; nó cho phép theo dõi liên tục mặc dù có những điểm dừng và chấm dứt mục tiêu, nó sẽ ngăn cản các khuôn mẫu "trôi" vào nền và cung cấp khả năng theo dõi mạnh mẽ mà không cần phải có bộ lọc thời gian tiên đoán như bộ lọc Kalman. Công việc tương lai liên quan đến việc sử dụng lọc thời gian và xây dựng một số ý tưởng được trình bày trong [8] và [3] để đạt được tar nhận diện và theo dõi mục tiêu nhiều. References [1] C. Anderson, P. Burt, and G. van der Wal. Change detection and tracking using pyramid transformation techniques. In Proceedings of SPIE - Intelligent Robots and Computer Vision, volume 579, pages 72–78, 1985. [2] D. Beymer, P. McLauchlan, B. Coifman, and J. Malik. A real-time computer vision system for measuring traffic parameters. In Proceedings of IEEE CVPR 97, pages 495–501, 1997. [3] C. Bregler. Learning and recognizing human dynamics in video sequences. In Proceedings of IEEE CVPR 97, pages 568–574, 1997. [4] J. Davis and A. Bobick. The representation and recognition of human movement using temporal templates. In Proceed ings of IEEE CVPR 97, pages 928 – 934, 1997. [5] M. Hansen, P. Anandan, K. Dana, G. van der Wal, and P. Burt. Real-time scene stabilization and mosaic construc tion. In Proceedings of DARPA Image Understanding Work shopp, 1994. [6] I. Haritaoglu, L. S. Davis, and D. Harwood. w4 who? when? where? what? a real time system for detecing and tracking people. In FGR98 (submitted), 1998. [7] K. Ikeuchi, T. Shakunaga, M. Wheeler, and T. Yamazaki. Invariant histograms and deformable template matching for sar target recognition. In Proceedings of IEEE CVPR 96, pages 100–105, 1996. [8] M. Isard and A. Blake. Contour tracking by stochastic prop agation of conditional density. In Proceedings of European
  • 12. Conference on Computer Vision 96, pages 343–356, 1996. [9] T. Kanade, R. Collins, A. Lipton, P. Anandan, and P. Burt. Cooperative multisensor video surveillance. In Proceedings of DARPA Image UnderstandingWorkshop,volume 1, pages 3–10, May 1997. [10] D. Koller, K. Danilidis, and H.-H. Nagel. Model-based ob ject tracking in monocular image sequences of road traf fic scenes. International Journal of Computer Vision, 10(3):257–281, 1993. [11] M. Oren, C. Papageorgiou, P. Sinha, E. Osuna, and T. Pog gio. Pedestrian detection using wavelet templates. In Pro ceedings of IEEE CVPR 97, pages 193–199, 1997. [12] K. Rangachar and R. C. Jain. Computer Vision; Principles. IEEE Computer Society Press, 199. [13] M. Turk and A. Pentland. Eigenfaces for recognition. Jour nal of Cognitive Neuroscience, 3(1):71–86, 1991. [14] C. Wren, A. Azarbayejani, T. Darrell, and A. Pentland. Pfinder: Real-time tracking of the human body. IEEE Transactions on Pattern Analysis and Machine Intelligence, 19(7):780–785, 1997.