it-swarm-vi.com

Điều gì sẽ là một cách tốt để thu nhỏ âm thanh?

Tôi muốn thể hiện một tệp âm thanh trong một hình ảnh với kích thước tối đa 180 × 180 pixel.

Tôi đã suy nghĩ về một cái gì đó tương tự như Soundcloud, mặc dù nó sẽ yêu cầu cắt và kéo dài để nghiền nó thành hình vuông:

Screenshot of Soundcloud's player

Tôi tự hỏi nếu có ai trong số bạn có một cái gì đó cho điều này. Tôi đã tìm kiếm xung quanh một chút, chủ yếu là hình ảnh âm thanh và hình thu nhỏ âm thanh, nhưng tôi không tìm thấy bất cứ điều gì hữu ích.

44
joar

Câu hỏi hay. Về mặt UX, có một vài điều khác nhau mà bạn muốn trong hình thu nhỏ.

  1. Hình thu nhỏ phải dễ dàng phân biệt để bạn có thể muốn sử dụng một số loại băm trực quan (ví dụ: ở đây )

  2. Các mặt hàng tương tự sẽ trông giống nhau và các mặt hàng khác nhau nên trông khác nhau. Lý tưởng nhất là bạn sẽ muốn mã hóa một vài thứ có khả năng vẫn giống nhau trên một nhóm âm thanh hợp lý. Dưới đây là một số ý tưởng cũng như những gì chúng có thể giúp phân biệt:

    • Độ dài (ví dụ: podcast, mẫu ngắn); điều này có lẽ nên được hiển thị theo logarit
    • Một số đại diện miền tần số (deathmetal vs pop vs talking)
    • biểu đồ âm lượng (âm thanh được tạo theo quy trình so với âm thanh 'hữu cơ')
    • siêu dữ liệu nếu nó có sẵn (filetype, stream-Rate, v.v.)
  3. Tôi tưởng tượng việc đặt tên (giả sử các tệp này có tên) sẽ tùy thuộc vào người dùng/người tiêu dùng, đây là dự phòng nếu người dùng không thể giải thích hình thu nhỏ để đảm bảo rằng nó rõ ràng và đủ nổi bật chỉ trong trường hợp. (sự cố này xuất hiện với các biểu tượng mọi lúc, xem Huyền thoại UX # 13: Biểu tượng nâng cao khả năng sử dụng )

  4. Lý tưởng nhất là hình thu nhỏ nên đáng nhớ, mặc dù làm thế nào để làm điều này với âm thanh tôi không có ý tưởng.

Cuối cùng, bạn muốn tất cả những điều này được rõ ràng trên hình thu nhỏ 180x180 của bạn. Làm tốt điều này chắc chắn sẽ rất khó khăn.

Có lẽ một cái gì đó như thế này (mặc dù có lẽ điều này là quá mức hoặc quá cpu chuyên sâu):

  1. Ánh xạ màu sắc mặc định thành hỗn hợp của một số hoặc tất cả các mục trong 2 ở trên, điều này sẽ cung cấp cho bạn các tệp màu tương tự cho các nhóm tệp.

  2. Tần số phổ) trong nền cho bão hòa

  3. Biểu đồ khối có thể được biểu diễn bằng cách thay đổi màu sắc của xô (ví dụ: hình vuông trong biểu diễn 180x180 của bạn, 4 trong ví dụ của tôi, mặc dù bạn nên sử dụng nhiều hơn)

  4. Thời lượng có thể được ánh xạ logarit đến một đường viền bao quanh toàn bộ dưới dạng một góc xiên. (Các tệp 7 phút sẽ trông gần giống hệt như các tệp 6 phút, nhưng khác hoàn toàn với các tệp 7 giây)

Đây là một ví dụ về những gì nó có thể trông như thế nào:

Example of a sound file thumbnail

Hi vọng điêu nay co ich

3
Forthright

Điều gì về việc lấy một dạng sóng được giải quyết chỉ kéo dài một khoảng cách ngắn, giả sử 200px, sau đó quấn nó quanh một vòng để nó phù hợp với các ràng buộc hình thu nhỏ hình vuông. Vì vậy, ... độ dài của biểu đồ dạng sóng sẽ ... liên quan đến pi.

Như thế này, mà tôi đã thực hiện trong photoshop bằng lệnh tọa độ cực.

Sample waveform on a circle

40
sirtimbly

Một dạng sóng smooshed-up dường như không hữu ích. Đối với tất cả các mục đích thực tế, điều đó là vô nghĩa, và thật khó để phân biệt hai dạng sóng 180x180px trong nháy mắt. Thay vào đó, bạn có thể xem xét một hàm băm trực quan như Nhận dạng . Điều đó vẫn sẽ là vô nghĩa, nhưng hình thu nhỏ sẽ khác biệt rõ ràng. Một thuật toán thông minh thậm chí có thể tạo các tệp tương tự (ví dụ: các bài hát trong cùng một album hoặc từ cùng một nghệ sĩ) về mặt trực quan.

Đi sâu vào blog của Don Park một chút đã bật lên dự án của Frederic Brodbeck Cinemetrics , có thể hữu ích. Đó là một hàm băm trực quan dành cho các bộ phim mà bạn có thể điều chỉnh để sử dụng cho âm thanh.

25
Justin Piper

Tôi không hiểu liệu bằng cách "cắt và kéo dài", bạn có nghĩa là lấy một đoạn dữ liệu âm thanh và kéo dài nó để nó lấp đầy hình vuông hoặc sắp xếp lại nó. Cách tiếp cận sắp xếp lại nghe có vẻ là một ý tưởng tốt.

enter image description here

16
Vitaly Mijiritsky

Hình thu nhỏ có nghĩa là một bản xem trước để xác định đối tượng mà không đi vào chi tiết.

Sử dụng dạng sóng trong hình thu nhỏ sẽ không giúp xác định bản nhạc.

Những gì bạn có thể làm là:

  • Sử dụng hình thu nhỏ giọng hát (ví dụ: bản xem trước 10 giây) được phát trên chuột

  • Sử dụng biểu diễn trực quan của nội dung, ví dụ: sử dụng cơ sở dữ liệu hoặc nhạc nền được xác định trước và được gắn thẻ hoặc sử dụng nhận dạng âm thanh. Khi bạn đã xác định được các yếu tố của nội dung, bạn có thể bao gồm các hình thu nhỏ nhỏ thể hiện các yếu tố đó trong một hình thu nhỏ lớn hơn.
    Ví dụ. hình thu nhỏ chứa hình ảnh của ca sĩ, guitar hoặc hình ảnh của xe lửa nếu nhạc nền là mẫu tiếng ồn mà xe lửa tạo ra.

10
Danny Varod

Giải pháp tôi đã giải quyết là sử dụng mã tạo ra phổ của Freesound , sau đó áp dụng Hằng số Wadsworth cho vị trí cho hình thu nhỏ. Điều này cung cấp cho bạn một ảnh chụp nhanh của clip âm thanh với trung tâm là 33% vào clip âm thanh.

Ví dụ
two audio spectrogram thumbnails
[.__.] → Ví dụ trực tiếp

Mã cho quy trình có thể được tìm thấy tại mediagoblin.media_types.audio.transcoders.py, dòng # 99 .

Tôi sẽ không đánh dấu bất kỳ câu trả lời nào là đúng, vì không ai trong số họ, thậm chí không phải của tôi là hoàn toàn chính xác.

4
joar

Bạn có thể đã biết điều này rồi, điều này có thể hoạt động với tên bài hát ở giữa hình ảnh hoặc bên dưới.

This is how Apple creates thumbnails for Audio files

4
Pratheep ch

Theo dòng câu trả lời của @ Forthright, tôi nghĩ rằng ánh xạ cường độ âm lượng thành một gradient (màu/thang độ xám) và vẽ theo đường cong Hilbert có thể thú vị.

Điều này sẽ tương tự như http://corte.si/posts/code/hilbert/portrait/index.html và sẽ cung cấp một biểu tượng hình chữ nhật mang lại ấn tượng về các mẫu âm thanh khác biệt cho các tệp khác nhau và chia tỷ lệ theo bất kỳ độ dài nào của âm thanh và bất kỳ kích thước biểu tượng nào.

0
Tom

Có một số thư viện âm thanh động vật sử dụng những giây đầu tiên của bản ghi làm hình thu nhỏ:

https://www.xeno-canto.org/explore?query=turdus+merula&view=

https://www.tierstimmenarchiv.de/RefSys/Preview.php?CurLa=en

https: //search.macaulayl Library.org/catalog?mediaType=a

Cái cuối cùng cũng hiển thị toàn bộ phổ của toàn bộ bản ghi khi bạn phát lại bản ghi trên trang web.

Quang phổ chứa rất nhiều thông tin và người dùng được đào tạo có thể, ví dụ, xác định loài chim trong bản ghi bằng cách chỉ nhìn vào phổ (tôi đang nói từ kinh nghiệm ở đây).

Tôi thấy rằng quang phổ rất dễ hiểu một cách trực quan khi bạn thực sự thử nó, vì vậy tôi hy vọng nhiều người bắt đầu thử nghiệm chúng.

0
ion